Impala Bölüm 11: İstatistikler

Cloudera Impala
Okunma süresi: < 1 dakika

Şimdiye kadar işlediğimiz konularda istatistiklerin ne kadar önemli olduğunu anlamışsınızdır. Neredeyse her yaptığımız işi ciddi derecede etiklediği, sorgu performanslarına ve planların çıkarılmasına önemli derecede öncülük ettiği için oldukça önemlidir.

İstatistiklerde tutulan bilgiler, satır sayısı, data fiile sayısı, data file’ların toplam boyutu ve file formatı gibi fiziksel özellikleri içerir. Partitioned tablolar için, istatiskler partition başına ve tüm tablo için toplamlar olarak hesaplanır. İstatistikler Metastore database’inde saklanır, Hive ve Impala tarafından güncellenebilir. Eğer istatistikler hesaplanmadıysa değeri -1 olarak görülür.

Bir tablonun istatistiklerini görmek için:

Bir tablonun sütunlarına ait istatistikleri görmek için:

Impala üzerinde bir tablonun istatistiklerinin hesaplanması için:

Compute Stats komutu ile hem tablo hem de sütun istatistikleri toplanmış olur, yani ayrıca bir komut çalıştırmanız gerekmez.

Büyük boyutlu tablolarda istatistikleri hesaplamak oldukça zor olabilir veya başarısız olabilir. Eğer bu tablo partitioned bir tablo ise incremental olarak bu işlemi yapmak daha doğru olacaktır. Incremental yalnızca partitioned tablolar için geçerlidir, bu yüzden normal tablolarda işi gerçekleştiremezsiniz. Kullanımı:

Belirli partitionlar için için yapalım:

Belirli bir aralıktaki partitionlar için yapalım:

Veya belirli bir partition hariç, diğerlerini yapalım:

Önemli: COMPUTE STATS kullandığımız bir tablo için incremental kullanmamalısınız. Elbette tam tersi şekilde incremental kullandıysanız normalini kullanmayın. Eğer böyle bir geçiş yapmak istiyorsanız:

Komutunu çalıştırarak istatistiklerini temizlemeniz gerekir. Aksi halde çok sorun yaşarsınız.

+2
+2

Veri Bilimci Yetiştirme Programı

Her yerde geçerli @datasciencearth sertifikası

Bu program ülkemizde büyük işgücü açığı bulunan Veri Bilimi konusunda çalışabilecek yeterliliklerde Veri Bilimciler yetiştirmek için kurgulanmıştır.

Ücretli ve Ücretsiz Eğitimler

Türkiye'nin en büyük veri bilimi topluluğu ile kariyerinizi inşa edin.

Gruplarımıza katılın!

Data Science Earth

Data Science Earth ekibi, üst düzey Veri Bilim çözümleri üretmek amacı ile toplanmış akademisyenler ve uzmanlardan oluşmaktadır. Öncelikli olarak veri bilincini geliştirmeyi ve küreselleşen rekabet ortamında verinin gücünün doğru kullanılmasını sağlamayı amaçlamaktadır.

Sponsor

QuestionPro 35 farklı soru seçim özelliği ile anket çalışmalarımıza güç katmaktadır.