Impala Bölüm 10: Parquet Dosyalarında Insert Performasını Artırmak

Cloudera Impala
Okunma süresi: < 1 dakika

Parquet dosyalarında Insert veya CTAS ile veri yüklemek istediğinizde, yüklenecek veri boyutlarına göre bazı performans problemleriyle karşılaşmanız olası. Bu durumlarda kullanabileceğimiz optimizer hint’ler bulunuyor.

Eğer partitioned bir tabloda bu problemi yaşıyorsanız /* +SHUFFLE */ hint’ini kullanabilirsiniz. Shuffle, verileri yazmadan önce hedef tablonun partition sütununa göre Select sonucunu re-partition yapan bir Exchange Node ekler. Bununla birlikte her bir bölüm yalnızca bir node üzerine yazılır, bu da concurrent (eş zamanlı) yazma sayısını ve bu iş için kullanılacak memory buffer sayısını düşürür. Bunun sonucunda da fragment azaldığı için daha az sayıda dosya oluşmasına neden olur. Bu işlem kaynak kullanımını düşürdüğü için de normalde başarısız olacak Insert veya CTAS işlemlerini başarıyla sonlandırabilirsiniz.

Eğer non-partitioned (partition oluşturulmamış) bir tabloda veya static partition bulunan bir tabloda Shuffle kullanırsanız, bütün yazma işlemleri Coordinator Node üzerinde gerçekleşir. Bu tür bir senaryoda /* +NOSHUFFLE */ kullanmak daha doğru olabilir. NoShuffle, Exchange Node eklemez ve re-partition işlemini devre dışı bırakır. Bu tabii daha hızlı işlemlerin gerçekleşmesine neden olabilir; ama aynı zamanda yazılan dosya sayısını artırabilir ve kapasite sınırını aşmasına da yol açarak işlemin başarısız olmasına neden olabilir.

Burada en önemlisi tablo istatistiklerinin hesaplanmış olmasıdır. Eğer güncel bir istatistie sahipse Impala uygun olan seçeneği kendisi değerlendirecektir.

0
0

Veri Bilimci Yetiştirme Programı

Her yerde geçerli @datasciencearth sertifikası

Bu program ülkemizde büyük işgücü açığı bulunan Veri Bilimi konusunda çalışabilecek yeterliliklerde Veri Bilimciler yetiştirmek için kurgulanmıştır.

Ücretli ve Ücretsiz Eğitimler

Türkiye'nin en büyük veri bilimi topluluğu ile kariyerinizi inşa edin.

Gruplarımıza katılın!

Data Science Earth

Data Science Earth ekibi, üst düzey Veri Bilim çözümleri üretmek amacı ile toplanmış akademisyenler ve uzmanlardan oluşmaktadır. Öncelikli olarak veri bilincini geliştirmeyi ve küreselleşen rekabet ortamında verinin gücünün doğru kullanılmasını sağlamayı amaçlamaktadır.

Sponsor

QuestionPro 35 farklı soru seçim özelliği ile anket çalışmalarımıza güç katmaktadır.