Veri Tekilleştirme (Deduplication)

Deduplication Nedir?

Deduplication; tekrarlanan, dağınık ve kirli verinin, bir standarda oturtularak temizlenmesidir.

Veri tekilleştirme, büyük ölçekli veri yedeklemelerinden ötürü ortaya çıkan yüksek maliyeti düşürmek adına önemli bir kavramdır ve günümüzde giderek daha fazla önem kazanmaktadır. Her geçen gün gelişen teknolojide deduplication teknolojileri de gelişimini sürdürmektedir. Tecrübe edindiğim ve her geçen gün bir şeyler öğrendiğim Veritas NetBackup’da Media Server Deduplication Pool’u sizlere aktaracağım.

NetBackup Deduplication Nedir?

Veritas NetBackup, veri tekilleştirme seçenekleriyle kaynak veriye bağlı kalarak veriyi tekilleştirme yapar. Veriyi tekilleştirirken de kazanç sağlıyor. Peki bu kazançlar nelerdir?

Veri tekilleştirme avantajları;

  • Depolanan verinin boyutunu azaltır.
  • Yedekleme için gerekli bant genişliğini azaltır,
  • Yedekleme süresini azaltır,
  • Daha küçük bir altyapı gerektirmesi.

Yedekleme işleminin hangi noktasında veri tekilleştirmeyi çalıştıracağınızı seçmede sizi muhayyer kılar. NetBackup yedekleme akışında veri tekilleştirmenize olanak sağlar.

NetBackup Deduplication Seçenekleri

Media Server Deduplication; NetBackup bizlerin yapmış oldukları yedeklemeleri NetBackup’ın sunucularına gönderir, sunucular da bu yedeklemeleri tekilleştirir. Bütün NetBackup medya sunucuları Netbackup deduplication Engine sahiptir, bu deduplication engine veriyi hedef depolama alanındaki Media Server Deduplication Pool (Medya Sunucusu Tekilleştirme Havuzu)’na yazar ve tekilleştirilmiş veriyi yönetir.

Client deduplication; NetBackup MSDP istemci tekilleştirmesi ile istemci kendi yedekleme verisini tekilleştirir ve sonrasında bu veriyi direk olarak depolama sunucusuna gönderir, o da bu veriyi depolama alanına yazar. Ağ yapısındaki trafik büyük ölçüde azaltılmış olur.

NetBackup appliance deduplication; Veritas, NetBackup tekilleştirme sistemini barındıran birçok donanımsal ve yazılımsal çözümleri destekler.

NetBackup Media Server Deduplication

Medya sunucusu tekilleştirmesi ile beraber, NetBackup istemci yazılımı, normal bir yedeklemede olduğu gibi yedeklenen dosyaların görüntüsünü oluşturur. İstemci, yedek görüntüyü, yedekleme verilerini tekilleştiren eklentiyi barındıran bir medya sunucusuna gönderir. Medya sunucusu depolama sunucusu veya load balancing sunucusu olarak ayarlanabilir. Tekilleştirme eklentisi yedeklenmiş görüntüleri parçalara ayırır ve bu ayrılmış parçaları bulunduğu tekilleştirme node deki bütün parçalarla karşılaştırır. Bu sayede eklenti yalnızca belirli parçaları depolama sunucusunda bulunan NetBackup deduplication engine gönderir. Bu deduplication engine de veriyi Media Server Deduplication Pool’a yazar.

MSDP Deduplication Nodes

Media Server Deduplication Node’ler aşağıda belirtilen sunucu ve cihazdan meydana gelmektedir.

Storage serverDepolama Sunucusu yedekleri tekilleştirir, veriyi depo aygıtına yazar, depolama alanını yönetir.
Load balancing serversYük Dengeleme Sunucuları, yedekleri tekleştirerek depolama sunucusuna yardımcı olur. İsteğe bağlıdır.
StorageFiziksel aygıt
Clientsİstemciler kendi verilerini tekilleştiren istemcileri barındırabilir. (Client Direct).

Birden fazla Media Server Deduplication node olabilir. Node’ler aralarında sunucuları ya da storage’ı paylaşamaz.

Her node kendi depolama alanını yönetir. Her bir node kendi içinde tekilleştirme yapabilir fakat nodeler arasında tekilleştirme yapılamaz.

MSDP Storage Servers

Storage server; depolama alanındaki veriyi yazan ve okuyan bir birimdir. Bir host, depolama sunucusu olarak işlev görür ve her NetBackup deduplication node için yalnızca bir adet depolama sunucusu bulunur. Bu host Netbackup Medya Sunucusu olmak zorundadır. Her ne kadar Depolama sunucusunun bileşenleri medya sunucusunda çalışsa da, depolama sunucusu ayrı bir mantıksal birimdir.

MSDP depolama sunucusu;

  • İstemciden yedekleri alır ve sonrasında veriyi tekilleştirir.
  • Tekilleştirilmiş veriyi istemcilerden veya diğer medya sunucularından alır.

NetBackup istemcilerini ve diğer NetBackup medya sunucularını da verileri tekilleştirecek şekilde yapılandırabilirsiniz. Bu durumda, depolama sunucusu verileri yalnızca tekilleştirildikten sonra alacaktır.

  • Tekilleştirilen verileri disk depolama alanına yazar ve tekilleştirilen verileri disk deposundan okur.
  • Depolamayı yönetir.
  • Tekilleştirme işlemini yönetir.

Kaç adet storage server yapılandırabileceğiniz depolama yeterliliğinize bağlıdır. Bu ayrıca sizin optimize edilmiş tekilleştirme veya yedekleme işlemi kullanıp kullanmadığınıza da bağlıdır. Şöyle ki;

Bir domaindeki optimize edilmiş duplication, aynı domainde en az iki veri tekilleştirme node gerektirir. Gerekli depolama sunucuları ise şunlardır:

  1. Çoğaltma işlemlerinin kaynağı olan yedekleme deposu için bir tane.
  2. Çoğaltma işlemlerinin hedefi olan yedek görüntülerin kopyalarını depolamak için de bir tane

Farklı bir domainde Auto Image Replication (AIR) için aşağıdaki storage sunucular gerektirir;

Source domainindeki NetBackup yedeklemeler için bir tane. Bu depolama sunucusu, NetBackup istemci yedeklemelerini depolama alanına yazar. Bu tekilleştirme işlemlerinin kaynağıdır.

Bir tanesi de target domainindeki NetBackup backup image kopyası içindir. Bu depolama sunucusu da source domainde yürütülen tekilleştirme operasyonları için target storage alanıdır.

MSDP Load Balancing Servers

Verilerin tekilleştirilmesine yardımcı olmak için diğer NetBackup medya sunucularını yapılandırabilirsiniz. Bu medya sunucuları veri tekilleştirme için dosya fingerprint hesaplamaları yapar ve belirli veri parçalarını depolama sunucusuna gönderir. Bu yardımcı medya sunucuları load balancing server olarak adlandırılırlar.

Bir NetBackup medya sunucusu, iki şey meydana geldiğinde bir load balancing server haline gelir:

  • Birincisi; medya sunucusunu, tekilleştirme yük dengeleme görevleri için etkinleştirdiğiniz zaman. Ki bunu, depolama sunucusunu yapılandırırken veya daha sonra depolama sunucusu özelliklerini değiştirerek yaparsınız.
  • İkincisi; Veri tekilleştirme havuzu için depolama biriminde medya sunucusunu seçtiğiniz zaman.

Load balancing server ayrıca geri yükleme ve veri çoğaltma işlerini de gerçekleştirir. Load balancing sunucuları, tekilleştirme için desteklenen herhangi bir sunucu türü olabilir. Depolama sunucuları ile aynı tipte olmak zorunda değillerdir.

NetBackup Client Direct Deduplication

NetBackup Client Direct tekilleştirme (istemci tarafı tekilleştirme olarak da bilinir) yönteminde, istemci, yedekleme verilerini kopyalayan eklentiyi kendisinde barındırır. NetBackup istemci yazılımı, normal bir yedeklemede olduğu gibi yedeklenen dosyaların görüntüsünü oluşturur. Daha sonra, tekilleştirme eklentisi yedek görüntüyü parçalara böler ve parçaları o tekilleştirme node de depolanan tüm parçalarla karşılaştırır. Eklenti daha sonra depolama sunucusundaki NetBackup data deduplication engine yalnızca belirli veri parçalarını gönderir. Data deduplication engine de verileri Media Server Deduplication Pool’a yazar.

Client deduplication şunları yapar:

  • Ağ trafiğini azaltır. İstemci, depolama sunucusuna yalnızca belirli dosya parçalarını gönderir. Yinelenen veriler ağ üzerinden gönderilmez.
  • Veri tekilleştirme işlem yükünün bir kısmını depolama sunucusundan istemcilere dağıtır. (NetBackup istemciler arasındaki yükü dengelemez; her istemci kendi verilerini tekilleştirir.)

NetBackup Client Deduplication aşağıdaki durumlar için bir çözümdür:

  • Data Center’a uzak ofis veya şube yedeklemeleri için. Çünkü NetBackup, uzak ofis yedeklemeleri için esnek ağ bağlantıları sağlar.
  • LAN bağlantılı file server
  • Sanal makine yedeklemeleri

Client-side deduplication, bir istemci ana bilgisayarının kullanılmayan CPU döngüleri olması durumunda ve depolama sunucusu veya load balancing server aşırı yüke maruz kaldığı durumlarda da yararlı bir çözümdür.

MSDP Remote Office Client Deduplication

WAN yedeklemeleri, kendi domaininizdeki yerel yedeklemelerden daha fazla zamana ihtiyaç duyar. Ayrıca WAN yedeklemelerinin, local yedeklemelere kıyasla daha yüksek bir arıza riski vardır. WAN yedeklemelerini kolaylaştırmaya yardımcı olmak için NetBackup, esnek ağ bağlantılarına olanak verir. Ve esnek bir bağlantı da istemci ile NetBackup medya sunucuları arasındaki trafiğin, WAN’lar gibi yüksek gecikmeli, düşük bant genişliğine sahip ağlarda bile etkin bir şekilde çalışmasına olanak tanır. Esnek bağlantılardan en fazla yararlanılan durum, yerel yedekleme depolaması olmayan uzak bir ofiste istemci taraflı gerçekleştirilen tekilleştirmedir.

Aşağıdaki maddeler avantajları açıklamaktadır:

  • Client Deduplication, aktarılması gereken veri miktarını azaltarak WAN yedeklemeleri için gereken süreyi azaltır.
  • Esnek bağlantılar, ağ arızalarından ve gecikmeden kaynaklanan sorunlara karşı (NetBackup’ın kurtarabileceği parametreler dahilinde) otomatik olarak kurtarma sağlar.

Resilient connection yapılandırdığınızda, NetBackup yedeklemeler için bu bağlantıyı kullanır. NetBackup’ı esnek ağ bağlantılarını kullanacak şekilde yapılandırmak için NetBackup Resilient Network Host özelliklerini kullanın.

MSDP Port Usage

Aşağıdaki tablo, NetBackup deduplication için kullanılan portları gösterir. Çeşitli deduplication host arasında güvenlik duvarları varsa, deduplication hostlarda belirtilen portlar açınız. Deduplication host ile kastımız, deduplication storage server, load balancing server ve kendi verilerini tekilleştiren istemcilerdir. Yalnızca bir depolama sunucunuz varsa ve kendi verilerini tekilleştiren load balancing  sunucuları veya istemcileriniz yoksa: güvenlik duvarı bağlantı noktalarını açmanız gerekmez.

  • 10082

NetBackup Veri Tekilleştirme Motoru (spoold). Verileri tekilleştiren ana bilgisayarlar arasında bu bağlantı noktasını açın. Söz konusu ana bilgisayarlar, yük dengeleme sunucularını ve kendi verilerini tekilleştiren istemcileri içerir.

  • 10102

NetBackup Veri Tekilleştirme Yöneticisi (spad). Verileri tekilleştiren ana bilgisayarlar arasında bu bağlantı noktasın açın. Söz konusu ana bilgisayarlar, yük dengeleme sunucularını ve kendi verilerini tekilleştiren istemcileri içerir.

MSDP and SAN Client

SAN Client, NetBackup istemcilerinin yüksek hızlı yedeklemelerini ve geri yüklemelerini sağlayan isteğe bağlı bir NetBackup özelliğidir. Fiber Transport, SAN Client özelliğinin bir parçası olan NetBackup yüksek hızlı veri taşıma yönteminin adıdır. Yedekleme ve geri yükleme trafiği bir SAN üzerinden gerçekleşir.

SAN istemcileri, veri tekilleştirme seçeneğiyle kullanılabilir; ancak, tekilleştirme, istemcide değil Media Server’da gerçekleşmelidir. Medya sunucusunu hem bir tekilleştirme depolama sunucusu (veya load balancing server) hem de FT medya sunucusu olacak şekilde yapılandırılır. SAN istemci yedeklemeleri daha sonra SAN üzerinden veri tekilleştirme sunucusuna FT media server host gönderilir. Bu media server’ da, yedekleme akışı tekilleştirilir.

SAN İstemcilerinde; client-side deduplication etkinleştirmeyin. Veri tekilleştirme için veriyi işleme, Fiber Transport’un yüksek hızlı taşıma yöntemiyle uyumsuzdur. İstemci taraflı tekilleştirme, medya sunucusuyla LAN üzerinden iki yönlü iletişime dayanır. SAN istemcisi, verileri SAN üzerinden yüksek bir hızda FT media server’a aktarır.

MSDP Performance

Sunucu donanımı ve ağ kapasitesi başta olmak üzere birçok faktör performansı etkiler.

Deduplication Storage Server için backup job sırasında performans hakkında bilgi aktarır. Deduplication Storage Server minimum host gereksinimlerine uygundur. Client deduplication veya load balancing server kullanılmaz.

MSDP depolama sunucusu için MSDP iş yükü performansı:

1-Normal Operation     

Normal durum, tüm istemcilerin bir kez yedeklendiği zamandır.

Aşağıdaki koşullarda yaklaşık 15 ila 20 job aynı anda ve yüksek performansla çalıştırılabilir:

  • Donanım minimum gereksinimleri karşıladığında. (Daha yetenekli donanım performansı artırır.)
  • Sıkıştırma olmadığı durumda. Veriler sıkıştırılırsa, CPU kullanımı hızla artar ve bu da işlenebilecek eşzamanlı işlerin sayısını azaltır.
  • Veri tekilleştirme oranı% 50 ile% 100 arasında olduğunda. Veri tekilleştirme oranı, önceden depolanmış verilerin yüzdesidir, bu nedenle tekrar depolanmaz.

Depolanan veri miktarı, depolama kapasitesinin% 30 ila % 90’ı arasında olduğu durumda.

2-Storage Approaches Full Capacity

NetBackup, aşağıdaki koşullar altında normal çalışma sırasında olduğu gibi aynı sayıda eşzamanlı yedekleme işini korur:

  • Donanım minimum gereksinimleri karşıladığı durumda. (Daha yetenekli donanım performansı artırır.)
  • Depolanan veri miktarı, depolama kapasitesinin% 85 ila% 90’ı arasında olduğunda. Bununla birlikte, işleri tamamlamak için geçen ortalama süre önemli ölçüde artar.

Deduplication Mimarisi

MSDP Server Bileşenleri

  • Deduplication plug-in
  • Multi-Threaded Agent
  • NetBackup Deduplication Engine
  • NetBackup Deduplication Manager
  • Proxy plug-in
  • Reference database

NetBackup Deduplication Engine Bileşenleri ve Fonksiyonları

  • Connection and Task Manager
  • Data integrity checking
  • Data Store Manager
  • Index Cache Manager
  • Queue processing
  • Reference Database Engine
  • Reference Database Manager

NetBackup Deduplication Destinations

NetBacup’ın tekilleştirme hedef havuzu 2’dir. Media Server Deduplication Pool ve PureDisk Deduplication Pool’dur.

Media Server Deduplication PoolNetBackup medya sunucusuna bağlı bir disk alanını temsil eder. NetBackup veriyi tekilleştirir ve veriyi depolar.
PureDisk Deduplication PoolNetBackup 5000 serisi appliance üzerinde olan bir depolama havuzudur. NetBackup veriyi tekilleştirir ve NetBackup 5000 serisi appliance depolamayı yapar.

Media Server Deduplication Backup İşlemi

Medya sunucusu yedeklemeleri tekilleştirdiğinde, Media Server Deduplication Pool’a yedekleme işlemi aşağıdaki gibidir.

  • NetBackup job Yöneticisi (nbjm), medya sunucusunda Backup / Restore Yöneticisini (bpbrm) başlatır.
  • Backup / Restore Yöneticisi, media sunucusunda bptm işlemini ve istemcide bpbkar işlemini başlatır.
  • İstemcideki Backup/Archive Yöneticisi (bpbkar), backup image oluşturur ve bunları medya sunucusu bptm sürecine taşır. Backup/Archive Yöneticisi, görüntü içindeki dosyalar hakkındaki bilgileri de Backup / Restore Yöneticisine (bpbrm) gönderir. Backup / Restore Yöneticisi, dosya bilgilerini NetBackup veritabanı için ana sunucudaki bpdbm ​​işlemine gönderir. Bptm işlemi, verileri tekilleştirme eklentisine taşır.
  • Deduplication plug-in, NetBackup Deduplication Engine konteyner dosyalarının kimliklerinin bir listesini alır. Bu kapsayıcı dosyalar, istemcinin son tam yedeklemesinin fingerprint içerir. Liste bir önbellek olarak kullanılır, böylece plug-in engine’den fingerprint istemesine gerek kalmaz.
  • Deduplication plug-in, yedek imajdaki dosyaları segmentlere ayırır.
  • Deduplication plug-in, segmentleri arabelleğe alır ve daha sonra bunların Deduplication Multi-Threaded Agent’a gönderir.
  • Deduplication Multi-Threaded Agent, performansını iyileştirmek için birden çok iş parçacığı kullanarak veri segmentlerini paralel olarak işler. Aracı daha sonra yalnızca benzersiz veri segmentlerini NetBackup deduplication engine’e gönderir. Host, load balancing sunucusuysa, deduplication engine farklı bir ana bilgisayarda, depolama sunucusundadır.
  • NetBackup Deduplication Engine, veriler Media Server Deduplication Pool’ a yazar. İlk yedekleme % 0 tekilleştirme oranına sahip olabilir.  Yüzde sıfır, yedekleme verilerindeki tüm dosya segmentlerinin benzersiz olduğu anlamına gelir.

MSDP Client Bileşenleri

  • Deduplication plug-in
  • Multi-Threaded Agent
  • Proxy server

MSDP client–side deduplication backup process

Media Client-Side yedeklemeleri tekilleştirdiğinde, Media Server Deduplication Pool’a yedekleme işlemi aşağıdaki gibidir.

  • NetBackup job yöneticisi (nbjm), bir medya sunucusunda backup / restore yöneticisini (bpbrm) başlatır.
  • Backup / restore yöneticisi, yapılandırılmış ve tekilleştirme için hazır olup olmadığını belirlemek için client i inceler.
  • Client hazırsa, backup / restore yöneticisi aşağıdaki işlemleri başlatır:
  • Clientdaki OpenStorage proxy sunucusu (nbostpxy) ve istemcide veri taşıma işlemleri (bpbkar) ve media sunucusundaki (bptm). NetBackup, denetim bilgilerini bptm‘den nbostpxy‘ye yönlendirmek için media sunucusundaki proxy plug-in kullanır.
  • Backup / restore yöneticisi (bpbkar), yedekleme görüntülerini oluşturur ve bunları paylaşılan bellek ile istemci nbostpxy işlemine taşır. Backup / Archive yöneticisi, görüntüdeki dosyalar hakkındaki bilgileri de backup / restore yöneticisine (bpbrm) gönderir. Backup / restore yöneticisi, dosya bilgilerini NetBackup veritabanı için host daki bpdbm ​​işlemine gönderir.
  • Client nbostpxy işlemi, verileri tekilleştirme eklentisine taşır.
  • Client’deki deduplication plug-in, fingerprint bir listesini almak için aşağıdaki yolu izler:
  • İstemcide yapılandırılan pd.conf dosyasında FP_CACHE_CLIENT_POLICY’de kullanılacak policy ve client tanımlanır.
  • Önceki yedeklemeden Client ve policy adlarına
  • Depolama sunucusundaki special seeding directory  bakılarak fingerprint listeye alınır.
  • Deduplication plug-in, backup image dosyaları segmentlere ayırır.
  • Deduplication plug-in, segmentleri arabelleğe alır ve deduplicate edilen verileri Multi-Threaded Agent’a gönderir. Veri aktarımı için Multiple threads ve share memory kullanılır.
  • NetBackup Deduplication Multi-Threaded Agent, üretim performansını iyileştirmek için multiple threads kullanarak veri segmentlerini paralel olarak işler. Aracı daha sonra yalnızca benzersiz veri segmentlerini NetBackup Deduplication Engine’e gönderir.
  • NetBackup Deduplication Engine, verileri Media Server Deduplication Pool’ a yazar. İlk yedekleme % 0 tekilleştirme oranına sahip olabilir, ancak% 0 tekilleştirme oranı olası değildir. Yüzde sıfır, yedekleme verilerindeki tüm dosya segmentlerinin benzersiz olduğu anlamına gelir.

Bu yazımda veri tekilleştirmenin teknik olarak açıklaması yaptım, diğer yazımda ise veri tekilleştirmeyle alakalı biriktirmiş olduğum tecrübelerimi paylaşmış olacağım. Vakit ayırıp okuduğunuz için teşekkür ederim.

Başka yazımda görüşmek dileğiyle…

You may also like...

Leave a Reply