องค์กรทุกแห่งที่จัดการข้อมูลปริมาณมากในที่สุดจะต้องเผชิญกับความตึงเครียดพื้นฐานเดียวกัน นั่นคือ คุณจะรักษาต้นทุนการจัดเก็บให้อยู่ในระดับที่สามารถจ่ายได้โดยไม่ลดทอนความเร็วและความน่าเชื่อถือที่ภาระงานสำคัญต้องการได้อย่างไร? คำตอบอยู่ที่การเข้าใจว่า ข้อมูลทั้งหมดไม่เท่าเทียมกัน และดังนั้น การจัดเก็บข้อมูลทั้งหมดจึงไม่ควรถูกปฏิบัติอย่างเท่าเทียมกัน เมื่อคุณเริ่มพิจารณาอย่างรอบคอบเกี่ยวกับ ต้นทุนต่อเทราไบต์ ควบคู่ไปกับข้อกำหนดด้านประสิทธิภาพที่แท้จริงแล้ว ก็จะสามารถสร้างสถาปัตยกรรมการจัดเก็บข้อมูลที่ทั้งมีความสมเหตุสมผลทางเศรษฐกิจและมีประสิทธิภาพในการปฏิบัติงานได้ สมดุลนี้ไม่ใช่เรื่องบังเอิญ — แต่เป็นผลลัพธ์จากกระบวนการตัดสินใจอย่างรอบคอบในขั้นตอนการออกแบบโครงสร้างพื้นฐาน

ความแตกต่างระหว่างข้อมูลสำหรับจัดเก็บถาวร (archival data) กับข้อมูลที่ใช้งานอยู่ (active data) คือหัวใจสำคัญของความท้าทายนี้ ข้อมูลสำหรับจัดเก็บถาวรมักอยู่ในสถานะเฉยๆ ส่วนใหญ่ และถูกเรียกใช้งานเพียงไม่บ่อยนัก แต่ยังคงต้องเก็บรักษาไว้เพื่อวัตถุประสงค์ด้านการปฏิบัติตามกฎระเบียบ การตรวจสอบ (audit) หรือการวิเคราะห์เชิงประวัติศาสตร์ ขณะที่ข้อมูลที่ใช้งานอยู่นั้นขับเคลื่อนการดำเนินงานทางธุรกิจประจำวัน และต้องการการเข้าถึงที่รวดเร็ว มีความสม่ำเสมอ และมักจำเป็นต้องเข้าถึงพร้อมกัน (concurrent access) การนำข้อมูลทั้งสองประเภทนี้มาผสมผสานกันภายใต้กลยุทธ์การจัดเก็บข้อมูลแบบชั้นเดียว (single-tier storage strategy) คือหนึ่งในข้อผิดพลาดที่พบได้บ่อยที่สุดและมีต้นทุนสูงที่สุดที่องค์กรต่างๆ เคยกระทำ แนวทางการจัดเก็บแบบหลายชั้น (tiered approach) ที่มีโครงสร้างที่ดี จะต้องอาศัยความเข้าใจที่ชัดเจนเกี่ยวกับ ต้นทุนต่อเทราไบต์ ที่แต่ละชั้น ซึ่งจะช่วยให้องค์กรสามารถปรับขนาดการลงทุนให้เหมาะสมกับความต้องการ และสร้างมูลค่าสูงสุดจากทุกไบต์ของข้อมูลที่จัดเก็บ
การเข้าใจทั้งสองด้านของสมการนี้
ต้นทุนต่อเทราไบต์ที่แท้จริงวัดอะไร
The ต้นทุนต่อเทราไบต์ ตัวชี้วัดนี้ฟังดูเรียบง่ายเกินจริง แต่ในทางปฏิบัติกลับมีความซับซ้อนอย่างมาก บนพื้นผิวแล้ว มันแสดงถึงค่าใช้จ่ายรวมทั้งหมด — ทั้งฮาร์ดแวร์ ใบอนุญาต การใช้พลังงาน การระบายความร้อน และการจัดการ — หารด้วยความจุพื้นที่จัดเก็บข้อมูลที่ใช้งานได้จริงทั้งหมด อย่างไรก็ตาม ค่า ต้นทุนต่อเทราไบต์ ที่ต่ำลงในเอกสารข้อมูลจำเพาะ (specification sheet) ไม่ได้หมายความเสมอไปว่าจะส่งผลให้ต้นทุนรวมในการเป็นเจ้าของ (TCO) ต่ำลง เมื่อพิจารณาความต้องการด้านประสิทธิภาพแล้ว อาร์เรย์ฮาร์ดดิสก์ไดรฟ์ (HDD) ที่มีความหนาแน่นสูงและความจุมากอาจให้ค่า ต้นทุนต่อเทราไบต์ ที่น่าสนใจสำหรับภาระงานแบบเก็บถาวร (archival workloads) แต่หากนำมาใช้กับแอปพลิเคชันที่กำลังทำงานอยู่ (active applications) ซึ่งมีความไวต่อความหน่วง (latency-sensitive) ต้นทุนที่ซ่อนอยู่จากการทำงานที่ไม่มีประสิทธิภาพ ปริมาณข้อมูลที่ผ่านได้ต่ำลง และความเสี่ยงของการหยุดให้บริการ จะทำให้ผลประหยัดเหล่านั้นลดลงอย่างรวดเร็ว
องค์กรต้องประเมิน ต้นทุนต่อเทราไบต์ ภายในบริบทเฉพาะของแต่ละระดับข้อมูล สำหรับการจัดเก็บข้อมูลแบบถาวร (archival storage) ปัจจัยหลักคือ ความจุดิบ (raw capacity) ความน่าเชื่อถือในระยะยาว และภาระการดำเนินงานที่ต่ำที่สุด สำหรับการจัดเก็บข้อมูลแบบใช้งานจริง (active storage) เกณฑ์วัดประสิทธิภาพ เช่น IOPS อัตราผ่านข้อมูล (throughput) และความทนทานต่อความหน่วง (latency tolerance) คือปัจจัยที่ไม่อาจต่อรองได้ ซึ่งส่งผลโดยตรงต่อความเป็นไปได้ในการใช้งานจริงของโซลูชันที่มีราคาต่ำ ต้นทุนต่อเทราไบต์ การมองว่าสองบริบทนี้สามารถใช้แทนกันได้จะนำไปสู่การจัดสรรทรัพยากรเกินความจำเป็นในด้านหนึ่ง และให้ประสิทธิภาพต่ำกว่าที่ควรจะเป็นในอีกด้านหนึ่ง — ทั้งสองกรณีนี้ล้วนหมายถึงการสูญเสียทรัพยากร
ข้อกำหนดด้านประสิทธิภาพไม่ใช่แบบ 'ใช้ได้ทั่วไป' สำหรับทุกสถานการณ์
ข้อกำหนดด้านประสิทธิภาพถูกกำหนดโดยแอปพลิเคชันและผู้ใช้ที่พึ่งพาข้อมูลนั้น ๆ ไม่ใช่โดยระบบจัดเก็บข้อมูลเอง ฐานข้อมูลที่ให้บริการธุรกรรมแบบเรียลไทม์ต้องการเวลาตอบสนองที่สม่ำเสมอในระดับย่อยมิลลิวินาที (sub-millisecond) และค่า IOPS สูง ขณะที่คลังข้อมูลสำหรับระบบเฝ้าสังเกตการณ์ด้วยวิดีโอ หรือคลังข้อมูลเพื่อการปฏิบัติตามกฎระเบียบ อาจต้องดึงข้อมูลเพียงครั้งเดียวทุกๆ หลายเดือน ทำให้ความเร็วในการดึงข้อมูลจำนวนมาก (throughput) มีความสำคัญมากกว่าความหน่วงต่ำ (low latency) ระหว่างการเข้าถึงแบบสุ่ม การรับรู้ถึงความแตกต่างนี้คือสิ่งที่ทำให้สามารถมีบทสนทนาอย่างมีเหตุผลเกี่ยวกับ ต้นทุนต่อเทราไบต์ ในบริบทของหมวดหมู่ภาระงานเฉพาะ
ระดับประสิทธิภาพยังเปลี่ยนแปลงไปตามกาลเวลาเมื่อข้อมูลมีอายุมากขึ้น ข้อมูลที่สร้างขึ้นในวันนี้อาจมีสถานะเป็นข้อมูลที่ใช้งานอยู่และต้องการประสิทธิภาพสูงในช่วง 30 ถึง 90 วันแรก จากนั้นจะเปลี่ยนผ่านไปสู่ระดับข้อมูลแบบอุ่น (warm tier) ซึ่งการเข้าถึงเกิดขึ้นเป็นระยะ ๆ และสุดท้ายจะย้ายไปสู่ระบบจัดเก็บข้อมูลแบบเย็น (cold archival storage) ซึ่งอาจคงอยู่ได้นานหลายปี การสร้างนโยบายที่สะท้อนวงจรชีวิตนี้ — และที่ติดตาม ต้นทุนต่อเทราไบต์ ในแต่ละขั้นตอน — คือรากฐานของกลยุทธ์การจัดการข้อมูลที่สุกงอม หากรายการดังกล่าวไม่มีอยู่ การลงทุนด้านระบบจัดเก็บข้อมูลจะกลายเป็นแบบคงที่และไม่สอดคล้องกับรูปแบบการใช้งานจริง
ระบบจัดเก็บข้อมูลสำหรับการเก็บถาวร: การเพิ่มประสิทธิภาพต้นทุนต่อเทราไบต์โดยไม่ลดทอนความสมบูรณ์ของข้อมูล
เหตุผลในการเลือกใช้ฮาร์ดดิสก์ไดรฟ์ความหนาแน่นสูงในชั้นการเก็บถาวร
พื้นฐานของการประเมิน ฮาร์ดดิสก์ไดรฟ์ความหนาแน่นสูงยังคงเป็นทางเลือกที่น่าสนใจที่สุดสำหรับงานประเภทการเก็บถาวร ต้นทุนต่อเทราไบต์ เมื่อพิจารณาจากต้นทุนต่อเทราไบต์ ฮาร์ดดิสก์ไดรฟ์สมัยใหม่ที่มีความจุสูงสามารถให้ปริมาณการจัดเก็บข้อมูลมหาศาลในราคาเพียงเศษเสี้ยวของราคาต่อเทราไบต์เมื่อเทียบกับระบบแบบแฟลชหรือ SSD เมื่อรูปแบบการเข้าถึงข้อมูลมีความถี่ต่ำและเป็นแบบลำดับ (sequential) — ซึ่งเป็นลักษณะทั่วไปของการจัดเก็บข้อมูลแบบถาวร — ความล่าช้าจากการหมุนของแผ่นดิสก์ (rotational latency) จะไม่ส่งผลกระทบต่อประสิทธิภาพ และข้อได้เปรียบด้านเศรษฐศาสตร์ของ HDD จะเด่นชัดมากขึ้น องค์กรที่จัดเก็บข้อมูลขนาดเปตตาไบต์ เช่น บันทึกการปฏิบัติตามกฎระเบียบ บันทึกธุรกรรมประวัติศาสตร์ คลังภาพทางการแพทย์ หรือสำเนาสำรองข้อมูลแบบเย็น (cold backup) ต่างได้รับประโยชน์อย่างมากจากหลักการคำนวณนี้
ปัจจัยสำคัญที่ระดับการจัดเก็บข้อมูลแบบถาวร (archival tier) ไม่ใช่ความเร็วเชิงดิบ แต่เป็นความสมบูรณ์ของข้อมูล ความน่าเชื่อถือในระยะยาว และความสามารถในการรองรับอัตราการถ่ายโอนข้อมูลแบบลำดับ (sequential throughput) สูงอย่างต่อเนื่องระหว่างเหตุการณ์การนำเข้าหรือดึงข้อมูลจำนวนมาก ต้นทุนต่อเทราไบต์ ค่าใช้จ่ายโดยรวมเมื่อขยายระบบให้มีขนาดใหญ่ขึ้น ต้นทุนต่อเทราไบต์ ที่ออกแบบมาเฉพาะสำหรับแพลตฟอร์มการจัดเก็บข้อมูลแบบรวมศูนย์ (unified storage platforms)
นอกจากนี้ การพิจารณาค่าใช้จ่ายในการจัดเก็บข้อมูลแบบถาวรยังจำเป็นต้องคำนึงถึงกลไกการรักษาความสมบูรณ์ของข้อมูลด้วย ความเสี่ยงจากการเสียหายของข้อมูลโดยไม่ปรากฏสัญญาณ (Silent data corruption) เป็นเรื่องที่เกิดขึ้นจริงเมื่อเก็บข้อมูลเป็นเวลานาน และโซลูชันการจัดเก็บที่ไม่มีคุณสมบัติการป้องกันข้อมูลแบบครบวงจร (end-to-end data protection) อาจก่อให้เกิดต้นทุนแฝงผ่านเหตุการณ์การสูญเสียข้อมูล ต้นทุนต่อเทราไบต์ การลงทุนในสถาปัตยกรรมที่มีการตรวจสอบค่า checksum, พาริตี้สำรอง (redundant parity) และการตรวจสอบสุขภาพของไดรฟ์อย่างกระตือรือร้น (proactive drive health monitoring) อาจเพิ่มต้นทุนในเบื้องต้นเพียงเล็กน้อย แต่จะช่วยปกป้องต้นทุนที่ใหญ่กว่ามาก คือ ต้นทุนของข้อมูลเอง
นโยบายการจัดเก็บแบบชั้น (Tiered Storage Policies) และการจัดการวงจรชีวิตข้อมูลโดยอัตโนมัติ (Automated Data Lifecycle Management)
การจัดการต้นทุนข้อมูลแบบถาวรอย่างมีประสิทธิภาพเริ่มต้นด้วยนโยบายการจัดเก็บแบบชั้นที่ทำงานโดยอัตโนมัติ แทนที่จะอาศัยการแทรกแซงด้วยตนเองเพื่อย้ายข้อมูลที่ไม่ค่อยถูกเข้าถึง (cold data) ออกจากพื้นที่จัดเก็บแบบแอคทีฟซึ่งมีราคาแพง แพลตฟอร์มการจัดเก็บอัจฉริยะสามารถติดตามรูปแบบการเข้าถึงข้อมูลและย้ายข้อมูลที่ถูกเรียกใช้งานน้อยลงไปยังระดับการจัดเก็บที่มีต้นทุนต่ำกว่าได้โดยอัตโนมัติ ต้นทุนต่อเทราไบต์ ชั้นเก็บข้อมูล (tiers) การทำให้กระบวนการนี้เป็นอัตโนมัติช่วยลดภาระด้านการบริหารจัดการ ขณะเดียวกันก็รับประกันว่าทรัพยากรการจัดเก็บจะสอดคล้องอย่างต่อเนื่องกับระดับความร้อนของข้อมูล (data temperature) ที่แท้จริง ผลลัพธ์คือระบบที่ปรับเปลี่ยนได้แบบไดนามิก ซึ่งช่วยเพิ่มประสิทธิภาพในการใช้จ่ายโดยไม่จำเป็นต้องมีการควบคุมหรือตรวจสอบจากมนุษย์อย่างต่อเนื่อง
การจัดหมวดหมู่ข้อมูล (Data classification) ณ จุดที่ข้อมูลถูกนำเข้า (point of ingest) ก็มีคุณค่าไม่แพ้กัน เมื่อกำหนดการติดป้ายข้อมูลเมตา (metadata tagging) และกฎนโยบายไว้ล่วงหน้า ข้อมูลจะไหลเข้าสู่ชั้นเก็บข้อมูลที่เหมาะสมโดยอัตโนมัติตั้งแต่ขั้นตอนการสร้าง จึงหลีกเลี่ยงการสะสมข้อมูลที่ไม่ได้ใช้งาน (stale data) บนระบบจัดเก็บข้อมูลประสิทธิภาพสูง ซึ่งจะทำให้ต้นทุนเพิ่มขึ้น ต้นทุนต่อเทราไบต์ โดยไม่จำเป็นทั่วทั้งชั้นข้อมูลที่ใช้งานอยู่ (active tier) โครงสร้างการกำกับดูแล (Governance frameworks) ที่กำหนดให้การจัดหมวดหมู่ข้อมูลเป็นส่วนหนึ่งของกระบวนการทำงานในการสร้างข้อมูล จะเปลี่ยนการจัดการวงจรชีวิตข้อมูล (lifecycle management) จากงานปฏิบัติการแก้ไขแบบตอบสนอง (reactive cleanup task) ไปสู่แนวทางการเพิ่มประสิทธิภาพด้านต้นทุนแบบรุก (proactive cost optimization discipline)
การจัดเก็บข้อมูลที่ใช้งานอยู่ (Active Data Storage): เมื่อประสิทธิภาพการประมวลผลคุ้มค่ากับต้นทุนที่สูงขึ้นต่อเทราไบต์
การระบุเวิร์กโหลดที่ต้องการประสิทธิภาพระดับพรีเมียม
การจัดเก็บข้อมูลที่ใช้งานอยู่ (Active data storage) รองรับแอปพลิเคชันที่ขับเคลื่อนการดำเนินงานทางธุรกิจประจำวัน และสำหรับเวิร์กโหลดเหล่านี้ ต้นทุนที่สูงขึ้น ต้นทุนต่อเทราไบต์ มักมีเหตุผลเพียงพออย่างสมบูรณ์เมื่อเปรียบเทียบกับต้นทุนที่เกิดจากความล้มเหลวที่ส่งผลต่อประสิทธิภาพการทำงาน เซิร์ฟเวอร์ฐานข้อมูลที่จัดการภาระงานแบบทำธุรกรรม แพลตฟอร์มการจำลองเสมือนที่รันเครื่องเสมือนพร้อมกันหลายสิบเครื่อง และเครื่องยนต์วิเคราะห์ที่ประมวลผลสตรีมข้อมูลแบบเรียลไทม์ ล้วนต้องการระบบจัดเก็บข้อมูลที่สามารถให้การเข้าถึงอย่างรวดเร็วและสม่ำเสมอโดยไม่มีคอขวด ในบริบทเหล่านี้ ตัวชี้วัดประสิทธิภาพต่อหนึ่งดอลลาร์จึงมีความเกี่ยวข้องมากกว่าค่าพื้นฐาน ต้นทุนต่อเทราไบต์ เพียงอย่างเดียว
ผลกระทบจากการใช้ระบบจัดเก็บข้อมูลที่มีกำลังไม่เพียงพอในระดับ Active Storage นั้นวัดค่าได้โดยตรง ความล่าช้าของแอปพลิเคชันส่งผลโดยตรงต่อคุณภาพประสบการณ์ผู้ใช้ที่ลดลง ปริมาณธุรกรรมที่ลดลง และในสภาพแวดล้อมที่มีความสำคัญสูงสุดอาจนำไปสู่การสูญเสียรายได้หรือบทลงโทษตามกฎระเบียบได้ ค่าใช้จ่ายเพิ่มเติมที่จ่ายไปสำหรับระบบจัดเก็บข้อมูลประสิทธิภาพสูงในระดับ Active Tier ควรประเมินโดยพิจารณาจากต้นทุนที่คำนวณตามความเสี่ยงเหล่านี้ แทนที่จะเปรียบเทียบเพียงแค่ราคาต่อเทราไบต์กับทางเลือกการจัดเก็บแบบเก็บถาวร (Archival) เมื่อนำการคำนวณต้นทุนแบบครบวงจรนี้มาใช้ ช่องว่างที่ดูเหมือนจะมีอยู่นั้น ต้นทุนต่อเทราไบต์ ช่องว่างระหว่างการจัดเก็บข้อมูลแบบใช้งานจริง (active storage) กับการจัดเก็บข้อมูลแบบเก็บถาวร (archival storage) แคบลงอย่างมากเมื่อพิจารณาจากมูลค่าทางธุรกิจที่ส่งมอบ
สถาปัตยกรรมแบบไฮบริดที่เชื่อมช่องว่างนี้
สถาปัตยกรรมการจัดเก็บข้อมูลแบบไฮบริด ซึ่งรวมการใช้ SSD สำหรับแคชหรือการจัดระดับ (caching หรือ tiering) เข้ากับระบบพื้นฐาน HDD ความจุสูง ให้ทางเลือกที่น่าสนใจสำหรับภาระงานที่มีลักษณะบางส่วนเป็น active และบางส่วนเป็น warm โดยการจัดวางบล็อกข้อมูลที่เข้าถึงบ่อยบนสื่อแฟลชที่เร็วกว่า และจัดวางข้อมูลที่เข้าถึงน้อยกว่าไว้บน ต้นทุนต่อเทราไบต์ หน่วยความจำ HDD ภายในระบบที่รวมศูนย์เดียวกัน ทำให้แพลตฟอร์มแบบไฮบริดสามารถมอบประสิทธิภาพใกล้เคียงกับ SSD สำหรับข้อมูลที่ใช้งานบ่อย (hot data) ขณะเดียวกันก็รักษาประสิทธิภาพด้านต้นทุนของ HDD สำหรับชุดข้อมูลโดยรวม แนวทางนี้มีประสิทธิภาพสูงโดยเฉพาะสำหรับภาระงานแบบผสมผสานที่พบได้ทั่วไปในสภาพแวดล้อมองค์กร — เช่น บริการไฟล์ (file services), ที่เก็บข้อมูลสำรอง (backup repositories) ที่มีความต้องการเรียกคืนข้อมูลเป็นระยะ ๆ และแพลตฟอร์มการจัดการทรัพยากรสื่อ (media asset management platforms)
แพลตฟอร์มการจัดเก็บข้อมูลแบบรวมศูนย์ที่รองรับทั้งโปรโตคอลแบบบล็อก (block) และแบบไฟล์ (file) บนหลายชั้น (multiple tiers) ภายในอินเทอร์เฟซการจัดการเดียว ยังช่วยลดภาระการดำเนินงานที่เกี่ยวข้องกับการดูแลระบบจัดเก็บข้อมูลสำหรับการเก็บถาวร (archival) และระบบจัดเก็บข้อมูลแบบใช้งานจริง (active storage) แยกต่างหากด้วย เมื่อการคำนวณโดยรวมรวมค่าใช้จ่ายด้านแรงงานในการจัดการระบบที่แตกต่างกันเหล่านี้เข้าด้วยกัน ค่าพรีเมียมจากการผสานรวม (consolidation premium) ของแพลตฟอร์มแบบรวมศูนย์ที่ออกแบบมาอย่างดี มักจะกลายเป็นกลางทางต้นทุน หรือแม้แต่ให้ผลดีกว่า ต้นทุนต่อเทราไบต์ การลดความซับซ้อนนั้นเองก็ถือเป็นหนึ่งในรูปแบบของการเพิ่มประสิทธิภาพด้านต้นทุน
วิธีการสร้างกลยุทธ์การจัดเก็บข้อมูลที่สมดุล
การตรวจสอบข้อมูล (Data Audit) ก่อนตัดสินใจเลือกระบบจัดเก็บข้อมูล
ก่อนที่การตัดสินใจลงทุนด้านระบบจัดเก็บข้อมูลใด ๆ จะสามารถประเมินค่าได้อย่างมีความหมายบนพื้นฐานของ ต้นทุนต่อเทราไบต์ พื้นฐานคือ องค์กรจำเป็นต้องมีภาพรวมที่ชัดเจนเกี่ยวกับภูมิทัศน์ข้อมูลปัจจุบันของตนเอง การตรวจสอบข้อมูลอย่างละเอียดควรระบุปริมาณข้อมูลทั้งหมดที่จัดเก็บไว้ในสถานที่จัดเก็บทั้งหมด จัดหมวดหมู่ข้อมูลตามความถี่ในการเข้าถึงและอุณหภูมิของข้อมูล (data temperature) กำหนดระยะเวลาการเก็บรักษาสำหรับแต่ละหมวดหมู่ และเชื่อมโยงต้นทุนการจัดเก็บที่มีอยู่กับประเภทข้อมูลเฉพาะแต่ละประเภท หากไม่มีพื้นฐานดังกล่าว การตัดสินใจจัดซื้อจะดำเนินการโดยขาดข้อมูล และความเสี่ยงของการใช้จ่ายที่ไม่สอดคล้องกับวัตถุประสงค์จะสูงมาก
กระบวนการตรวจสอบยังเผยให้เห็นโอกาสในการลดต้นทุนทันที ในสภาพแวดล้อมระดับองค์กรส่วนใหญ่ ข้อมูลจำนวนหนึ่งที่จัดเก็บไว้บนระบบจัดเก็บข้อมูลแบบแอคทีฟที่มีประสิทธิภาพสูงนั้นแท้จริงแล้วเป็นข้อมูลแบบเย็น (cold data) หรือข้อมูลกำพร้า (orphaned data) — คือ ไม่เคยถูกเรียกใช้งานเลย และไม่มีแนวโน้มว่าจะถูกเรียกใช้งานอีกในอนาคต แต่กลับใช้พื้นที่จัดเก็บที่มีราคาแพงอยู่ ดังนั้น การย้ายหรือลบข้อมูลเหล่านี้ออกทันทีจะช่วยปรับปรุงประสิทธิภาพ ต้นทุนต่อเทราไบต์ ของชั้นข้อมูลแบบแอคทีฟโดยไม่จำเป็นต้องลงทุนซื้อโครงสร้างพื้นฐานใหม่แต่อย่างใด ดังนั้น การรักษาสุขอนามัยของข้อมูล (Data hygiene) จึงถือเป็นหนึ่งในกิจกรรมเพิ่มประสิทธิภาพการจัดเก็บข้อมูลที่ให้ผลตอบแทนสูงที่สุด
การกำหนด SLA ที่ขับเคลื่อนการตัดสินใจเกี่ยวกับการจัดวางระดับการจัดเก็บข้อมูล
ข้อตกลงระดับบริการ (Service Level Agreements: SLAs) ทั้งภายในและภายนอก ควรเป็นตัวขับเคลื่อนการตัดสินใจเกี่ยวกับการจัดวางข้อมูลในแต่ละระดับการจัดเก็บข้อมูล (storage tier) มากกว่าที่จะเลือกตามความสะดวกหรือแนวโน้มแบบเดิมๆ แอปพลิเคชันแต่ละตัวหรือหมวดหมู่ข้อมูลแต่ละประเภทควรมีเป้าหมายเวลาในการกู้คืน (Recovery Time Objective: RTO), เป้าหมายจุดกู้คืน (Recovery Point Objective: RPO) และโปรไฟล์ความหน่วงที่ยอมรับได้ (acceptable latency profile) ที่กำหนดไว้อย่างชัดเจน พารามิเตอร์ SLA เหล่านี้เชื่อมโยงโดยตรงกับข้อกำหนดด้านการจัดเก็บข้อมูลในแต่ละระดับ และโดยขยายความ ยังเชื่อมโยงกับต้นทุนที่ยอมรับได้ ต้นทุนต่อเทราไบต์ ในแต่ละระดับการจัดเก็บข้อมูล เมื่อ SLA ยังไม่ได้รับการกำหนดหรือเข้าใจอย่างไม่ชัดเจน ผู้ดูแลระบบการจัดเก็บข้อมูลมักจะเลือกดำเนินการอย่างระมัดระวังเกินเหตุโดยให้ประสิทธิภาพสูงเกินความจำเป็น ซึ่งส่งผลให้ต้นทุนเพิ่มขึ้น ต้นทุนต่อเทราไบต์ โดยไม่ก่อให้เกิดมูลค่าทางธุรกิจที่สอดคล้องสัดส่วนกัน
การกำหนดแผนผังการจับคู่ SLA กับระดับชั้น (tier) อย่างเป็นทางการยังสร้างกรอบการกำกับดูแลที่ยั่งยืนอีกด้วย ขณะที่แอปพลิเคชันมีการพัฒนาต่อเนื่อง ปริมาณข้อมูลเพิ่มขึ้น และลำดับความสำคัญของธุรกิจเปลี่ยนแปลงไป กรอบ SLA จะให้พื้นฐานในการตัดสินใจที่สอดคล้องกันสำหรับการประเมินใหม่เกี่ยวกับการจัดวางระบบจัดเก็บข้อมูล องค์กรที่สร้างวินัยเช่นนี้ตั้งแต่เนิ่นๆ มักพบว่า การบริหารจัดการสมดุลระหว่างต้นทุนและประสิทธิภาพของระบบจัดเก็บข้อมูลกลายเป็นกิจกรรมปฏิบัติการตามปกติ แทนที่จะเป็นการตอบสนองต่อวิกฤติเป็นครั้งคราว
การประเมินต้นทุนรวมตลอดอายุการใช้งาน (Total Cost of Ownership) ที่เกินกว่าราคาซื้อเบื้องต้น
ข้อผิดพลาดทั่วไปในการจัดซื้อระบบจัดเก็บข้อมูลคือ การมุ่งเน้นเพียงตัวเลขค่าใช้จ่ายเบื้องต้น ต้นทุนต่อเทราไบต์ โดยมองข้ามค่าใช้จ่ายในการดำเนินงานระยะยาว ค่าใช้จ่ายด้านพลังงานและการทำความเย็นสำหรับอาร์เรย์ระบบจัดเก็บข้อมูลที่มีความหนาแน่นสูงอาจคิดเป็นสัดส่วนที่สำคัญมากของต้นทุนรวมในการถือครอง (TCO) ตลอดระยะเวลาการใช้งานห้าปี ค่าใบอนุญาตซอฟต์แวร์สำหรับการจัดการ ค่าสัญญาสนับสนุน ค่าพื้นที่ในแร็ก (rack space) และค่าแรงงานสำหรับการบริหารจัดการ ล้วนมีส่วนร่วมต่อต้นทุนจริง ต้นทุนต่อเทราไบต์ ที่องค์กรประสบจริงตลอดช่วงเวลาการใช้งาน ดังนั้น การเปรียบเทียบอย่างตรงไปตรงมาใดๆ ระหว่างตัวเลือกระบบจัดเก็บข้อมูลจำเป็นต้องคำนึงถึงปัจจัยเหล่านี้ทั้งหมด ตลอดอายุการใช้งานที่คาดการณ์ไว้
โซลูชันที่มีความสามารถในการลดความเร็วการหมุนของไดรฟ์อย่างมีประสิทธิภาพด้านพลังงานสำหรับเลเยอร์จัดเก็บข้อมูลแบบเก็บถาวร (archival tiers) พร้อมอินเทอร์เฟซการจัดการแบบรวมศูนย์สำหรับหลายเลเยอร์ และสามารถขยายระบบได้อย่างยืดหยุ่นโดยไม่จำเป็นต้องเปลี่ยนระบบใหม่ทั้งหมด จะส่งมอบต้นทุนรวมที่ต่ำกว่าอย่างสม่ำเสมอ ต้นทุนต่อเทราไบต์ ในทางปฏิบัติ แม้ว่าต้นทุนการลงทุนครั้งแรกจะดูสูงกว่าทางเลือกที่เรียบง่ายกว่าก็ตาม แนวทางการประเมินต้นทุนรวมตลอดอายุการใช้งานห้าปี (TCO) คือกรอบที่เหมาะสมที่สุดสำหรับการประเมินการลงทุนด้านระบบจัดเก็บข้อมูลระดับองค์กร ไม่ใช่เพียงแค่ราคาบนใบแจ้งหนี้การซื้อเท่านั้น
คำถามที่พบบ่อย
เป้าหมายต้นทุนต่อเทราไบต์ที่สมเหตุสมผลสำหรับระบบจัดเก็บข้อมูลแบบเก็บถาวรในสภาพแวดล้อมระดับองค์กรคือเท่าใด?
ต้นทุนต่อเทราไบต์สำหรับการจัดเก็บข้อมูลระดับองค์กรแบบเก็บถาวรนั้นแตกต่างกันไปตามความจุ ระดับความซ้ำซ้อน และข้อกำหนดด้านการปฏิบัติงาน แต่โซลูชันที่ใช้ฮาร์ดดิสก์ไดรฟ์ (HDD) ความหนาแน่นสูงมักให้ต้นทุนต่อเทราไบต์ต่ำที่สุดเมื่อใช้งานในขนาดใหญ่ ประเด็นสำคัญคือการประเมินต้นทุนรวมที่แท้จริง ซึ่งรวมถึงค่าพลังงาน ค่าระบบระบายความร้อน และซอฟต์แวร์จัดการตลอดระยะเวลาที่คาดว่าจะเก็บข้อมูลไว้ แทนที่จะเปรียบเทียบเพียงราคาของไดรฟ์ดิบเท่านั้น องค์กรที่จัดเก็บข้อมูลหลายเพ타ไบต์สามารถลดต้นทุนต่อเทราไบต์ที่แท้จริงได้อย่างมากโดยการรวมระบบจัดเก็บข้อมูลแบบรวมศูนย์ที่ออกแบบมาเฉพาะสำหรับความจุสูง
องค์กรควรทบทวนการจัดลำดับชั้นการจัดเก็บข้อมูลของตนบ่อยแค่ไหน?
การกำหนดระดับการจัดเก็บข้อมูลควรทบทวนอย่างน้อยปีละหนึ่งครั้ง ภายในกรอบวัฏจักรการกำกับดูแลข้อมูลอย่างเป็นทางการ และควรทบทวนบ่อยขึ้นสำหรับสภาพแวดล้อมที่มีอัตราการเติบโตของข้อมูลอย่างรวดเร็ว หรือมีการเปลี่ยนแปลงแอปพลิเคชันอย่างมีนัยสำคัญ นโยบายการจัดระดับข้อมูลแบบอัตโนมัติสามารถจัดการการปรับแต่งย่อยอย่างต่อเนื่องตามรูปแบบการเข้าถึงข้อมูลแบบเรียลไทม์ได้ แต่การทบทวนเชิงกลยุทธ์ควรประเมินว่าโครงสร้างระดับการจัดเก็บโดยรวม การจัดสรรความจุ และเป้าหมายต้นทุนต่อเทราไบต์ยังสอดคล้องกับความต้องการทางธุรกิจในปัจจุบันและที่คาดการณ์ไว้หรือไม่ ข้อมูลที่เคยใช้งานอยู่เมื่อสองปีก่อน อาจกลายเป็นผู้สมัครที่เหมาะสมสำหรับการย้ายไปยังระบบจัดเก็บข้อมูลระยะยาว (archival) แล้วในตอนนี้
แพลตฟอร์มการจัดเก็บข้อมูลแบบรวมศูนย์สามารถให้บริการงานโหลดข้อมูลทั้งแบบจัดเก็บระยะยาว (archival) และแบบใช้งานจริง (active) พร้อมกันได้อย่างมีประสิทธิภาพหรือไม่?
ใช่ แพลตฟอร์มการจัดเก็บข้อมูลแบบรวมสมัยที่มีสถาปัตยกรรมแบบหลายชั้น (multi-tier) ถูกออกแบบมาโดยเฉพาะเพื่อรองรับทั้งสองประเภทของเวิร์กโหลดภายในระบบเดียว โดยการผสานการใช้ SSD สำหรับแคชข้อมูลที่ใช้งานอยู่ (active data) เข้ากับดิสก์ HDD ความจุสูงสำหรับข้อมูลที่ใช้งานบ่อยในระดับปานกลาง (warm data) และข้อมูลที่เก็บไว้ระยะยาว (archival data) ซึ่งทำให้องค์กรสามารถปรับแต่งประสิทธิภาพต่อราคา (cost per terabyte) ให้เหมาะสมที่สุดตลอดทั้งสเปกตรัมของข้อมูลโดยไม่จำเป็นต้องจัดการระบบแยกต่างหาก ข้อกำหนดที่สำคัญที่สุดคือ แพลตฟอร์มดังกล่าวต้องสามารถแยกประสิทธิภาพระหว่างชั้นต่าง ๆ ได้อย่างเพียงพอ เพื่อไม่ให้การดำเนินการจัดเก็บข้อมูลระยะยาวส่งผลกระทบต่อเวลาตอบสนองของเวิร์กโหลดที่ใช้งานอยู่
การบีบอัดข้อมูลและการกำจัดข้อมูลซ้ำ (deduplication) มีบทบาทอย่างไรในการลดต้นทุนต่อเทราไบต์
เทคโนโลยีการลดขนาดข้อมูล เช่น การบีบอัดแบบเรียลไทม์ (inline compression) และการกำจัดข้อมูลซ้ำ (deduplication) สามารถปรับปรุงต้นทุนต่อเทราไบต์อย่างมีนัยสำคัญ โดยเฉพาะในชั้นข้อมูลที่ใช้งานอยู่ (active data tiers) ซึ่งคุณสมบัติเหล่านี้ให้ผลลัพธ์ดีที่สุด ประโยชน์ที่แท้จริงขึ้นอยู่กับประเภทของข้อมูลเป็นหลัก — ข้อมูลที่สามารถบีบอัดได้สูง เช่น ไฟล์บันทึกเหตุการณ์ (log files), ระเบียนฐานข้อมูล (database records) และเอกสารสำนักงาน มักจะได้อัตราการลดขนาดที่สูงมาก ในขณะที่รูปแบบข้อมูลที่ถูกบีบอัดมาแล้ว เช่น ไฟล์วิดีโอ หรือข้อมูลที่เข้ารหัส จะให้ผลลัพธ์ในการลดขนาดน้อยมาก องค์กรควรประเมินประสิทธิภาพของการลดขนาดข้อมูลสำหรับภาระงานเฉพาะของตนก่อนนำการประหยัดต้นทุนที่คาดการณ์ไว้ไปรวมในการคำนวณต้นทุนต่อเทราไบต์ และควรหลีกระบบต่างๆ ที่ใช้เทคนิคเหล่านี้โดยไม่เลือกสรร เนื่องจากอาจส่งผลเสียต่อประสิทธิภาพการทำงาน
สารบัญ
- การเข้าใจทั้งสองด้านของสมการนี้
- ระบบจัดเก็บข้อมูลสำหรับการเก็บถาวร: การเพิ่มประสิทธิภาพต้นทุนต่อเทราไบต์โดยไม่ลดทอนความสมบูรณ์ของข้อมูล
- การจัดเก็บข้อมูลที่ใช้งานอยู่ (Active Data Storage): เมื่อประสิทธิภาพการประมวลผลคุ้มค่ากับต้นทุนที่สูงขึ้นต่อเทราไบต์
- วิธีการสร้างกลยุทธ์การจัดเก็บข้อมูลที่สมดุล
-
คำถามที่พบบ่อย
- เป้าหมายต้นทุนต่อเทราไบต์ที่สมเหตุสมผลสำหรับระบบจัดเก็บข้อมูลแบบเก็บถาวรในสภาพแวดล้อมระดับองค์กรคือเท่าใด?
- องค์กรควรทบทวนการจัดลำดับชั้นการจัดเก็บข้อมูลของตนบ่อยแค่ไหน?
- แพลตฟอร์มการจัดเก็บข้อมูลแบบรวมศูนย์สามารถให้บริการงานโหลดข้อมูลทั้งแบบจัดเก็บระยะยาว (archival) และแบบใช้งานจริง (active) พร้อมกันได้อย่างมีประสิทธิภาพหรือไม่?
- การบีบอัดข้อมูลและการกำจัดข้อมูลซ้ำ (deduplication) มีบทบาทอย่างไรในการลดต้นทุนต่อเทราไบต์