Veri Ambarı Eğitimi – Bölüm 4 – ETL ve ELT İşlemleri

ETL (Ayıklama, Dönüştürme ve Yükleme) İşlemi

ETL Nedir?              

ETL, verileri farklı kaynak sistemlerden çıkarır, ardından verileri dönüştürür (hesaplamalar, birleştirmeler vb.) gibi işlemleri yapar ve son olarak verileri Veri Ambarı sistemine yükler. ETL’in tam biçimi Çıkar, Dönüştür ve Yükledir.

Bir Veri ambarı oluşturmanın, basitçe birden çok kaynaktan veri ayıklamak ve bir Veri ambarının veritabanına yüklemek olduğunu düşünmek cazip geliyor. Bu gerçeklerden uzaktır ve karmaşık bir ETL süreci gerektirir. ETL süreci, geliştiriciler, analistler, test uzmanları, üst düzey yöneticiler gibi çeşitli paydaşlardan aktif girdiler gerektirir ve teknik olarak zordur.

Karar vericiler için bir araç olarak değerini korumak için, Veri ambarı sisteminin iş değişiklikleri ile değişmesi gerekiyor. ETL, bir Veri ambarı sisteminin yinelenen bir etkinliğidir (günlük, haftalık, aylık) ve çevik, otomatikleştirilmiş ve iyi belgelenmiş olması gerekir.

Neden ETL’e ihtiyacınız var?

Organizasyonda ETL’i benimsemenin birçok nedeni vardır:

  • Şirketlerin, kritik iş kararları almak için iş verilerini analiz etmelerine yardımcı olur.
  • İşlem veritabanları, ETL tarafından yanıtlanabilecek karmaşık iş sorularını yanıtlayamaz.
  • Veri Ambarı, ortak bir veri deposu sağlar
  • ETL, verileri çeşitli kaynaklardan bir veri ambarına taşımak için bir yöntem sağlar.
  • Veri kaynakları değiştikçe, Veri Ambarı otomatik olarak güncellenecektir.
  • İyi tasarlanmış ve belgelenmiş ETL sistemi, bir Veri Ambarı projesinin başarısı için kesinlikle gereklidir.
  • Veri dönüştürme, toplama ve hesaplama kurallarının doğrulanmasına izin verin.
  • ETL süreci, kaynak ve hedef sistem arasında örnek veri karşılaştırmasına izin verir.
  • ETL süreci, karmaşık dönüşümler gerçekleştirebilir ve verileri depolamak için fazladan alan gerektirir.
  • ETL, verilerin Veri Ambarına taşınmasına yardımcı olur. Tek bir tutarlı sisteme bağlı kalmak için çeşitli biçimlere ve türlere dönüştürün.
  • ETL, kaynak verilere erişmek ve hedef veritabanında bunları değiştirmek için önceden tanımlanmış bir süreçtir.
  • ETL, işletme için derin bir tarihsel bağlam sunar.
  • Teknik becerilere ihtiyaç duymadan kodladığı ve yeniden kullandığı için üretkenliği artırmaya yardımcı olur.

 

Veri Ambarlarında ETL Süreci

ETL 3 adımlı bir süreçtir.

Adım 1) Çıkarma

Bu adımda, veriler kaynak sistemden evreleme alanına çıkarılır. Kaynak sistemin performansında herhangi bir bozulma olmaması için aşamalandırma alanında varsa dönüşümler yapılır. Ayrıca, bozuk veriler doğrudan kaynaktan Veri ambarı veritabanına kopyalanırsa, geri alma zor olacaktır. Hazırlama alanı, çıkarılan verileri Veri ambarına taşınmadan önce doğrulama fırsatı verir.

Veri ambarı, farklı özelliklere sahip sistemleri entegre etmelidir.

DBMS, Donanım, İşletim Sistemleri ve İletişim Protokolleri. Kaynaklar, Mainframes gibi eski uygulamaları, özelleştirilmiş uygulamaları, ATM gibi temas noktası aygıtlarını, Çağrı anahtarlarını, metin dosyalarını, elektronik tabloları, ERP’yi, satıcılardan gelen verileri ve diğerlerinin yanı sıra ortakları içerebilir.

Bu nedenle, veriler çıkarılmadan ve fiziksel olarak yüklenmeden önce mantıksal bir veri haritasına ihtiyaç vardır. Bu veri haritası, kaynaklar ve hedef veriler arasındaki ilişkiyi açıklar.

Üç Veri Çıkarma yöntemi:

  1. Tam Çıkarma
  2. Kısmi Çıkarma – güncelleme bildirimi olmadan.
  3. Kısmi Çıkarma – güncelleme bildirimi ile

Kullanılan yöntemden bağımsız olarak, çıkarma, kaynak sistemlerin performansını ve yanıt süresini etkilememelidir. Bu kaynak sistemler, canlı üretim veritabanlarıdır. Herhangi bir yavaşlama veya kilitlenme şirketin kârını etkileyebilir.

Çıkarma sırasında bazı doğrulamalar yapılır:

  • Kayıtları kaynak verilerle uzlaştırın
  • Spam / istenmeyen verilerin yüklenmediğinden emin olun
  • Veri türü kontrolü
  • Tüm yinelenen / parçalanmış verileri kaldırın
  • Tüm anahtarların yerinde olup olmadığını kontrol edin
Adım 2) Dönüşüm

Kaynak sunucudan çıkarılan veriler hamdır ve orijinal haliyle kullanılamaz. Bu nedenle temizlenmesi, haritası çıkarılması ve dönüştürülmesi gerekiyor. Aslında bu, ETL sürecinin değer kattığı ve verileri, anlayışlı BI raporlarının oluşturulabilmesi için değiştirdiği temel adımdır.

Bu adımda, çıkarılan verilere bir dizi işlev uygularsınız. Herhangi bir dönüşüm gerektirmeyen verilere doğrudan taşıma veya veri üzerinden geçiş denir.

Dönüşüm adımında, veriler üzerinde özelleştirilmiş işlemler gerçekleştirebilirsiniz. Örneğin, kullanıcı veritabanında olmayan satış toplamı geliri istiyorsa. Veya bir tablodaki ad ve soyad farklı sütunlarda ise. Yüklemeden önce bunları birleştirmek mümkündür.

Veri Bütünlüğü Sorunları aşağıdadır:

  1. Aynı kişinin Jon, John vb. Gibi farklı yazılışları.
  2. Google, Google Inc. gibi şirket adını belirtmenin birçok yolu vardır.
  3. Cleaveland, Cleveland gibi farklı isimlerin kullanılması.
  4. Aynı müşteri için çeşitli uygulamalar tarafından farklı hesap numaralarının üretildiği bir durum olabilir.
  5. Bazı verilerde gerekli dosyalar boş kalır
  6. POS’ta manuel giriş olarak alınan geçersiz ürün hatalara neden olabilir.

Doğrulamalar bu aşamada yapılır

  • Filtreleme – Yüklemek için yalnızca belirli sütunları seçin
  • Veri standardizasyonu için kuralları ve arama tablolarını kullanma
  • Karakter Kümesi Dönüştürme ve kodlama yönetimi
  • Tarih Saat Dönüşümü, para birimi dönüştürmeleri, sayısal dönüştürmeler vb. Gibi Ölçü Birimlerinin Dönüştürülmesi
  • Veri eşiği doğrulama kontrolü. Örneğin, yaş iki haneden fazla olamaz.
  • Aşama alanından ara tablolara veri akışı doğrulaması.
  • Gerekli alanlar boş bırakılmamalıdır.
  • Temizleme (örneğin, NULL ile 0 veya Cinsiyet Erkeği “E” ve Kadını “K” ile eşleme vb.)
  • Bir sütunu katlara bölün ve birden çok sütunu tek bir sütunda birleştirin.
  • Satırların ve sütunların yerini değiştirme,
  • Verileri birleştirmek için aramaları kullanın
  • Herhangi bir karmaşık veri doğrulamasını kullanma (örneğin, bir satırdaki ilk iki sütun boşsa, satırın işlenmesini otomatik olarak reddeder)
Adım 3) Yükleme

Verilerin hedef veri ambar veritabanına yüklenmesi, ETL sürecinin son adımıdır. Tipik bir Veri ambarında, nispeten kısa bir sürede (geceler) büyük miktarda veri yüklenmesi gerekir. Bu nedenle, yükleme süreci performans için optimize edilmelidir.

Yük arızası durumunda, kurtarma mekanizmaları veri bütünlüğü kaybı olmadan hata noktasından yeniden başlayacak şekilde yapılandırılmalıdır. Veri Ambarı yöneticilerinin geçerli sunucu performansına göre yükleri izlemesi, devam ettirmesi ve iptal etmesi gerekir.

Yükleme Türleri:

  • İlk Yükleme – tüm Veri Ambarı tablolarını doldurma
  • Artımlı Yük – periyodik olarak ihtiyaç duyulduğunda devam eden değişiklikleri uygulama.
  • Tam Yenileme – bir veya daha fazla tablonun içeriğini silip yeni verilerle yeniden yükleme.
Yükleme doğrulaması
  • Anahtar alan verilerinin eksik veya boş olmadığından emin olun.
  • Hedef tablolara dayalı modelleme görünümlerini test edin.
  • Birleştirilmiş değerleri ve hesaplanan ölçüleri kontrol edin.
  • Boyut tablosundaki ve geçmiş tablosundaki veri kontrolleri.
  • Yüklenen olgu ve boyut tablosundaki BI raporlarını kontrol edin.

ETL araçları

Piyasada birçok Veri Ambarı aracı bulunmaktadır. İşte en öne çıkanlardan bazıları:

  1. MarkLogic:

MarkLogic, bir dizi kurumsal özelliği kullanarak veri entegrasyonunu daha kolay ve daha hızlı hale getiren bir veri ambarı çözümüdür. Belgeler, ilişkiler ve meta veriler gibi farklı veri türlerini sorgulayabilir.

https://developer.marklogic.com/products/

  1. Oracle:

Oracle, sektör lideri veritabanıdır. Hem şirket içi hem de bulut için çok çeşitli Veri Ambarı çözümleri sunar. Operasyonel verimliliği artırarak müşteri deneyimlerini optimize etmeye yardımcı olur.

https://www.oracle.com/index.html

  1. Amazon RedShift:

Amazon Redshift, Datawarehouse aracıdır. Standart SQL ve mevcut BI araçlarını kullanarak tüm veri türlerini analiz etmek için basit ve uygun maliyetli bir araçtır. Ayrıca petabaytlarca yapılandırılmış veriye karşı karmaşık sorguların çalıştırılmasına izin verir.

https://aws.amazon.com/redshift/?nc2=h_m1

İşte yararlı Veri ambarı Araçlarının tam listesi .

En iyi uygulamalar ETL süreci

Asla tüm verileri temizlemeye çalışmayın:

Her kuruluş tüm verilerin temiz olmasını ister, ancak bunların çoğu beklemek için ödeme yapmaya veya beklemeye hazır değildir. Hepsini temizlemek çok uzun sürer, bu nedenle tüm verileri temizlemeye çalışmamak daha iyidir.

Asla Hiçbir Şeyi Temizlemeyin:

Her zaman bir şeyi temizlemeyi planlayın çünkü Veri Ambarı oluşturmanın en büyük nedeni daha temiz ve daha güvenilir veriler sunmaktır.

Verileri temizlemenin maliyetini belirleyin:

Tüm kirli verileri temizlemeden önce, her kirli veri öğesi için temizleme maliyetini belirlemeniz önemlidir.

Sorgu işlemeyi hızlandırmak için yardımcı görünümlere ve dizinlere sahip olun:

Depolama maliyetlerini azaltmak için özetlenmiş verileri disk bantlarında saklayın. Ayrıca, depolanacak veri hacmi ile ayrıntılı kullanımı arasındaki denge gereklidir. Depolama maliyetlerini düşürmek için veri ayrıntı düzeyinde değiş tokuş yapın.

Özet:

  • ETL Ayıklama, Dönüştürme ve Yükleme anlamına gelir.
  • ETL, verileri çeşitli kaynaklardan bir veri ambarına taşımak için bir yöntem sağlar.
  • İlk adımda çıkarımda, veriler kaynak sistemden evreleme alanına çıkarılır.
  • Dönüştürme adımında, kaynaktan çıkarılan veriler temizlenir ve dönüştürülür.
  • Verilerin hedef veri ambarına yüklenmesi, ETL sürecinin son adımıdır.

ELT nedir?

ELT, veri hareketine araç yaklaşımına bakmanın farklı bir yöntemidir. ELT, verileri yazılmadan önce dönüştürmek yerine hedef sistemin dönüşümü yapmasına izin verir. Veriler önce hedefe kopyalanır ve sonra yerine dönüştürülür.

ELT genellikle Hadoop kümesi, veri cihazı veya bulut kurulumu gibi Sql içermeyen veritabanları ile kullanılır.

ANAHTAR FARK

  • ETL, Çıkartma, Dönüştürme ve Yükleme anlamına gelirken ELT, Çıkarma, Yükleme, Dönüştürme anlamına gelir.
  • ETL verileri önce hazırlama sunucusuna ve ardından hedef sisteme yüklerken ELT verileri doğrudan hedef sisteme yükler.
  • ETL modeli şirket içi, ilişkisel ve yapılandırılmış veriler için kullanılırken ELT, ölçeklenebilir bulut yapılı ve yapılandırılmamış veri kaynakları için kullanılır.
  • ETL temel olarak az miktarda veri için kullanılırken ELT büyük miktarlarda veri için kullanılır.
  • ELT veri gölü desteği sağlarken, ETL veri gölü desteği sağlamaz.
  • ETL’nin uygulanması kolaydır, ELT’nin uygulanması ve sürdürülmesi için niş beceriler gerekir.

Data Science Earth

Data Science Earth ekibi, üst düzey Veri Bilim çözümleri üretmek amacı ile toplanmış akademisyenler ve uzmanlardan oluşmaktadır. Öncelikli olarak veri bilincini geliştirmeyi ve küreselleşen rekabet ortamında verinin gücünün doğru kullanılmasını sağlamayı amaçlamaktadır.

Sponsor

QuestionPro 35 farklı soru seçim özelliği ile anket çalışmalarımıza güç katmaktadır.