Impala Bölüm 12: Paralel Sorgular

Cloudera Impala
Okunma süresi: < 1 dakika

Impala, teorik olarak Daemon başına concurrent (eş zamanlı) 64 sorgu kabul etmektedir. Pratikte ise concurrent sorgu sayısı arttıkça, sorgu sonuçlarının dönme süresi uzamaktadır.

Impala’nın en büyük açmazlarından biri concurrent sorgu sınırıdır. Bir production ortamında, Warehouse olarak Big Data ortamını kullanacaksanız, şirketin çalışan sayısı büyükse, analitik, data science, iş zekası gibi görevlerde konumlanmış kişilerin aktif olarak kullanacağını düşündüğümüzde kullanıcı sayısı rahatlıkla yüzün üzerine çıkar.

Bu tür bir durumda node sayısı artırmak ve bununla beraber bir load balancer arkasına taşımak gerekecektir. Aksi halde kullanıcılar tek bir node üzerine yığılma eğilimde olacaktır ve hizmet veremez hale gelecektir.

Tabii ki 64 kullanıcı üzerinden hesap yaparak sakın node sayınızı buna göre belirlemeyin. Çünkü 64 sayısını gördüğünde çalışan tüm işler oom (Out Of Memory) hatası alacaktır. Her bir node için 10 – 15 kişi olacak şekilde planlamayı yapmak hayat kurtarıcı bir etken olacaktır.

Node sayısını artırdık ve load balancer koyduk, peki sorunumuz çözülüdü mü? Hayır. Başta söylediğim gibi, paralel sorgu sayısı arttıkça, sorgu sonuçlarının dönme süresi ciddi şekilde uzamaktadır. Bu da daha fazla sayıda node eklemenizi gerektiriyor. Peki bu efektif mi?

Bence hayır. Böyle bir durumda en uygun çözüm yapınıza göre değişir; ama bir OLAP engine kullanmak daha iyi bir seçenek olacaktır. Vertica, Clickhouse, Apache Kylin vb. bir seçeneği değerlendirebilirsiniz.

Diğer bir seçenekte Hive’ı Tez engine ile kullanmak. Paralel sorgular arttıkça Tez bariz şekilde Impala’dan çok daha hızlı sonuç üretiyor. Cloudera CDP sürümlerinde Tez desteği geldi ve CDP geçişi yaptıysanız veya yapacaksanız bu tür bir problemle baş etmek için tercih edebilirsiniz.

0
0

Veri Bilimci Yetiştirme Programı

Her yerde geçerli @datasciencearth sertifikası

Bu program ülkemizde büyük işgücü açığı bulunan Veri Bilimi konusunda çalışabilecek yeterliliklerde Veri Bilimciler yetiştirmek için kurgulanmıştır.

Ücretli ve Ücretsiz Eğitimler

Türkiye'nin en büyük veri bilimi topluluğu ile kariyerinizi inşa edin.

Gruplarımıza katılın!

Data Science Earth

Data Science Earth ekibi, üst düzey Veri Bilim çözümleri üretmek amacı ile toplanmış akademisyenler ve uzmanlardan oluşmaktadır. Öncelikli olarak veri bilincini geliştirmeyi ve küreselleşen rekabet ortamında verinin gücünün doğru kullanılmasını sağlamayı amaçlamaktadır.

Sponsor

QuestionPro 35 farklı soru seçim özelliği ile anket çalışmalarımıza güç katmaktadır.