BIGQUERY NEDİR?

Büyük veri, herkes için bir şeyler çağrıştırabilen bir konu. Fakat somut halinde “bir şeyler” den çok daha fazlası aslında. Öncelikle akılda büyüklüğünü tasvir edebilmek adına veri boyutlarını hatırlatalım.

Görüldüğü gibi günümüzdeki en büyük veri boyutu yottabyettır. Oldukça büyük bir sayıdır. Tüm evrendeki parçacıkların toplam sayısının 10 üzeri 77 ila 10 üzeri 82 arasında olduğu düşünülüyor. Bu bilgi göz önüne alındığında büyük veriyi işlemenin zorluğunu sezebiliriz. Neyse ki çeşitli araçlar, uygulamalar ve platformlarla büyük veriyi işlemek çok kolay hale gelmekte. BigQuery de bunlardan biri.

 

Nedir BigQuery?

BigQuery Mayıs 2010 tarihinde sunulmuş bir bulut bilişim hizmetidir. Google altyapısının işlem gücünü kullanarak süper hızlı SQL sorguları sağlayarak bu sorunu çözen bir kurumsal veri deposudur (Hoffa, 2017). Büyük veri kümelerini interaktif olarak analiz etmek için oluşturulmuş olup MapReduce’dan da gerçek zamanlı analiz yapması ile ayrılmaktadır.

Neden BigQuery Kullanmayı Tercih Edebiliriz?

Çünkü büyük verileri excel gibi programlarda çalıştırmak yavaş bir süreç içinde işlemekte. Geleneksel veri tabanı sistemlerinde de satır bazlı depolama yapıldığı için büyük veri yer alan tablolarda arama yavaşlar ve bazı kolonlar üzerinde indis (index) dediğimiz istatistiksel yapılar oluşturmak zorunda kalınır. Dremel sisteminden doğmuş olan BigQuery ise verilerin kolon bazlı saklanmasını sağlar. Kolon bazlı kayıtlarda ise indis oluşturulması gerekmez. Sorgular paralel olarak birlikte çalışarak sonuca varılır. Aynı zamanda veri sıkıştırma bakımından da geleneksel yöntemlerden performans olarak başarılıdır. Böylelikle iş yükü süreci oldukça kısalabilir.

Nasıl Kullanılır?

BigQuery’yi bir web ara yüzü olan tarayıcı aracı (BigQuery browser tool), Python’a dayalı komut hattı aracı ile veya REST API, üçüncü taraf araçlarla (veri yükleme, veri görselleştirme..) kullanabilirsiniz.

BigQuery Ücretsiz Midir?

Hizmet çeşidine göre fiyatlar değişkenlik göstermektedir.

  • Aktif: Tablo veya bölümlerde depolanan ve son 90 gün içinde değiştirilmiş olan veriler için alınan bir aylık ücret.
  • Uzun süreli: Tablo veya bölümlerde depolanan ve son 90 gün içinde değiştirilmemiş olan veriler için alınan daha düşük bir aylık ücret.

Sorgu maliyetleri için iki fiyatlandırma modelinden birini seçebilirsiniz:

  • İsteğe bağlı: Bu, en esnek seçenektir. İsteğe bağlı fiyatlandırma, çalıştırdığınız her sorgu tarafından işlenen veri miktarına bağlıdır.
  • Sabit ücret — Bu fiyatlandırma seçeneği maliyetlerini öngörebilmek isteyen müşteriler için idealdir. Sabit ücret fiyatlandırması kullanan müşteriler sorgu işleme için özel kaynaklar satın alır ve tek tek sorgular için ücretlendirilmez.

Ayrıntılar için; https://cloud.google.com/bigquery/pricing?hl=tr

BigQuery’e Giriş ve Bir Örnek

 

BigQuery için Google Cloud Platrform’a giderek soldaki araçlar kısmından “Big Data” bölümünden BigQuery’e girebiliriz.

 

 

 

  1. kısımda Query history eğer önceden bir sorgu yaptıysanız bunun ayrıntılarını verir böylece son kaldığınız yeri, hangi sorguları yaptığınızı kolaylıkla bulabilirsiniz. Saved query ise sizin daha sonraları da kullanmak için saklayabileceğiniz sorguları kaydeder. Job history seçeneği de sorgulanmamış işleri listelemek için kullanılır.
  2. kısımda ise proje oluşturup bunu sabitleyebiliriz ya da önceki projemiz üzerinde çalışmaya devam edebiliriz.

Pin a project ile gelen kısımda yeni bir proje oluşturabilir veya eski bir proje üzerinde devam edebiliriz. Pin’e tıkladıktan sonra sol kısımda sabitlenecektir. Sabitlenen projeye girip artık veri yükleyebilir ve sorgularımızı yapabiliriz. Create Table’a tıkladıktan sonra gelen sayfada source kısmından verilerimizi kendimiz oluşturabiliriz, cloud storagedan alabiliriz, bilgisayarımızdaki dosyaları yükleyebiliriz, drivedan ya da cloud bigtable’ı da kullanabiliriz. Ben oluşturduğum örnekte kaggledan aldığım 18249 satırlık avokado satışlarının yer aldığı csv dosyasını kullandım.

Burada en önemli nokta csv formatını koruması için Shema seçeneği seçilmelidir. Böylelikle şema ve giriş parametreleri veri kaybı ya da bozulması olmadan otomatik olarak oluşturulur. Son olarak create table’a tıklanarak veri sorgulanmaya hazır hale gelir. Preview ile önizlemesini görebiliriz.

 

2015 yılından 2018 yılına kadarki bir adet avokado için ortalama fiyat bilgisini ve o gün için satılan toplam avokado sayısını kullanarak yıllara göre toplam avokado fiyat sorgusunu yapabiliriz.

 

 

 

 

 

 

Başka bir sorgu ile 18249 satır içerisinde avokado türlerini kolayca saydırabilir ve bunu Explore Data ile görselleştirebiliriz.

18249 avokado organik ve geleneksel olarak neredeyse yarı yarıya dağılım göstermiştir. Verinize uygun grafikten yararlanarak analizlerinizi görselleştirebilir ve düzenleyebilirsiniz.

Data Science Earth

Data Science Earth ekibi, üst düzey Veri Bilim çözümleri üretmek amacı ile toplanmış akademisyenler ve uzmanlardan oluşmaktadır. Öncelikli olarak veri bilincini geliştirmeyi ve küreselleşen rekabet ortamında verinin gücünün doğru kullanılmasını sağlamayı amaçlamaktadır.

Sponsor

QuestionPro 35 farklı soru seçim özelliği ile anket çalışmalarımıza güç katmaktadır.