แม้ว่าปัจจุบันจะมีไดรฟ์ความจุสูงออกมามากมาย แต่ก็ยังมีลูกค้าจำนวนไม่น้อยที่ต้องการประหยัดพื้นที่ความจุและต้องการให้พื้นที่ความจุมีประสิทธิภาพในอัตรา 1 ต่อมากกว่านั้น ซึ่งมีหลายวิธีในการประหยัดพื้นที่ความจุที่ได้ยินกันบ่อยที่สุดในตลาดคือ Deduplication วันนี้เราจะมาดูกันว่า Deduplication มีข้อดีและข้อเสียอย่างไร และระบบจัดเก็บข้อมูล (storage) ของแต่ละแบรนด์จะช่วยประหยัดพื้นที่ได้อย่างไร
Deduplication คืออะไร?
Data deduplication คือกระบวนการที่ช่วยกำจัดข้อมูลที่ซ้ำซ้อนกันและลดความต้องการพื้นที่จัดเก็บข้อมูลได้อย่างมาก Deduplication สามารถทำงานแบบ inline process ในขณะที่ข้อมูลกำลังถูกเขียนลงในระบบจัดเก็บข้อมูล
หรือทำงานเป็น background process เพื่อกำจัดข้อมูลซ้ำซ้อนหลังจากที่เขียนข้อมูลลงในดิสก์เรียบร้อยแล้ว ประสิทธิภาพโดยรวมของระบบจะได้รับผลกระทบน้อยมากจากการทำ Deduplication เนื่องจาก Deduplication จะทำงานในส่วนของ dedicated efficiency domain ที่แยกจากส่วนของ client read/write domain โดยจะทำงานอยู่เบื้องหลัง ไม่ว่าแอปพลิเคชันใดจะกำลังทำงานอยู่ หรือไม่ว่าข้อมูลจะถูกเข้าถึงในรูปแบบใด (ทั้งใน NAS หรือ SAN) การประหยัดพื้นที่จากการทำ Deduplication จะยังคงอยู่เมื่อข้อมูลถูกเคลื่อนย้ายไปมา ไม่ว่าจะเป็นการทำ replicated ไปยัง DR site, การสำรองข้อมูลไปยัง vault หรือเมื่อข้อมูลย้ายระหว่างระบบ on-premises, hybrid cloud หรือ public cloud
Deduplication ช่วยประหยัดพื้นที่ได้อย่างไร?
Deduplication ช่วยให้ลดค่าใช้จ่ายที่เกี่ยวข้องกับการจัดการข้อมูลที่ซ้ำกัน ชุดข้อมูลขนาดใหญ่มักมีข้อมูลซ้ำซ้อนจำนวนมาก ซึ่งเพิ่มค่าใช้จ่ายในการจัดเก็บข้อมูล ตัวอย่างเช่น:
- ไฟล์ที่แชร์ในหมู่ผู้ใช้อาจมีไฟล์เดียวกันหรือคล้ายกันหลายสำเนา
- Virtualization guests อาจมีลักษณะเกือบจะเหมือนกันจาก VM หนึ่งไปอีก VM หนึ่ง
- Backup snapshots อาจมีความแตกต่างกันเล็กน้อยในแต่ละวัน
การประหยัดพื้นที่ความจุที่คุณจะได้รับจาก Data Deduplication ขึ้นอยู่กับชุดข้อมูลหรือ workload บน volume นั้นๆ ชุดข้อมูลที่มีข้อมูลซ้ำซ้อนสูงสามารถเห็นอัตราการเพิ่มประสิทธิภาพได้ถึง 95% หรือลดการใช้พื้นที่จัดเก็บข้อมูลลงได้ถึง 20 เท่า นอกจากนี้ยังสามารถ “ปรับปรุงประสิทธิภาพการเขียน” และ “ประหยัดแบนด์วิดท์ของเครือข่าย” ได้อีกด้วย
กรณีไหนบ้างที่ต้องการสิ่งนี้?
Data deduplication จะช่วยค้นหาบล็อกขนาดใหญ่ของข้อมูลที่ซ้ำกันในช่วงที่ค่อนข้างกว้าง และขนาดของบล็อกข้อมูลที่ซ้ำกันโดยทั่วไปจะอยู่เกิน 1KB เทคโนโลยีนี้ถูกนำมาใช้อย่างแพร่หลายใน network hard disks, อีเมล, อุปกรณ์จัดเก็บข้อมูลสำรองดิสก์ ฯลฯ มีประโยชน์ไม่ว่าจะใช้กับรูปแบบงานใดก็ตาม โดยจะเห็นประโยชน์สูงสุดในสภาพแวดล้อมเสมือนจริง (virtual environments) ที่มีการใช้ virtual machines หลายเครื่องสำหรับการทดสอบ/พัฒนา (test/dev) และการติดตั้งแอปพลิเคชัน Virtual desktop infrastructure (VDI) เป็นอีกหนึ่งตัวเลือกที่ดีมากสำหรับการทำ Deduplication เนื่องจากข้อมูลที่ซ้ำกันระหว่างเดสก์ท็อปนั้นสูงมาก Relational databases บางประเภท เช่น Oracle และ SQL จะไม่ได้รับประโยชน์มากนักจากการทำ Deduplication เนื่องจากมักจะมี unique key สำหรับแต่ละ database record ซึ่งทำให้ deduplication engine ไม่สามารถระบุว่าเป็นข้อมูลซ้ำกันได้
Ensuring Data Integrity

เมื่อดูจากตารางเปรียบเทียบด้านบน จะเห็นว่าวิธีการทำ Deduplication อาจแตกต่างกันไปในแต่ละผู้จำหน่าย ไม่เพียงแต่ช่วยประหยัดพื้นที่ แต่ยังทำงานร่วมกับ SSD Cache เพื่อเร่งประสิทธิภาพ ซึ่งเป็นเทรนด์ใหม่และอาจกลายเป็นสิ่งที่จำเป็นในอนาคต ซึ่งมีประโยชน์มากเมื่อพยายามประหยัดเวลาในขณะที่สำรองข้อมูลหรือถ่ายโอนข้อมูล แม้ว่า dedup ratio จะสูงก็ตาม นอกจากนี้ Hybrid-Design ที่ใช้ SSD Cache ในขณะที่เปิดใช้งาน Deduplication นั้นมีราคาที่ย่อมเยากว่า All-Flash-Design เมื่อใช้ Deduplication ในบางยี่ห้อ ทำให้คุณสามารถบรรลุประสิทธิภาพสูงและความหน่วงต่ำด้วยงบประมาณที่ต่ำกว่า และประหยัดพื้นที่จัดเก็บข้อมูลได้มากผ่าน Deduplication อย่างไรก็ตาม หากคุณต้องการ high random IOPS และ low latency ซึ่งก็คือหากใช้ใน storage IO patterns เช่น การเข้าถึง SQL จำนวนมากหรือสภาพแวดล้อม VDI แล้ว NVMe all-flash จะเป็นตัวเลือกที่ดีที่สุด ควรหลีกเลี่ยงการใช้ Deduplication ในสถานการณ์เช่นนี้ เพราะการออกแบบผลิตภัณฑ์แต่ละอย่างมีวัตถุประสงค์เฉพาะของมัน
Future-Proof Your Storage : มั่นใจต่อการใช้งานในอนาคต
การออกแบบ Deduplication สามารถเพิ่มประสิทธิภาพการอ่านโดยมีผลกระทบต่อประสิทธิภาพการเขียนน้อย และยังให้ข้อได้เปรียบในการประหยัดพื้นที่ความจุ (capacity saving advantage) ตามงานวิจัยที่กล่าวมาข้างต้น การเลือกผลิตภัณฑ์ที่เหมาะสมที่สุดกับสภาพแวดล้อมของคุณเป็นสิ่งสำคัญอย่างยิ่งก่อนที่คุณจะซื้อ storage ด้วยงบประมาณที่จำกัด แม้ว่าขนาดดิสก์จะใหญ่ขึ้นในปัจจุบัน แต่ผู้คนก็ยังต้องการใช้ทรัพยากรให้เกิดประโยชน์สูงสุดเสมอ มีเทคนิคเพิ่มเติมในตลาดเพื่อกำจัดความกังวลเกี่ยวกับความเสี่ยงในระหว่างกระบวนการ rebuilding ของ RAID เช่น RAID2.0, Fast Rebuild ซึ่งอาจช่วยคุณลดเวลาในการ rebuilding ได้มากในขณะที่ใช้ดิสก์ที่มีความจุมากขึ้น