Big Data (Büyük Veri)

Büyük Veri

İşin Felsefesi

Büyük Veri üzerine yazılmış, çizilmiş çok sayıda kaynağın yanında, birçoğumuz pek çok yerde bu terimle karşılaşıyoruz ve çoğu zaman ilgimizi çekmeyi başarmıştır Büyük Veri. Revaçta olmasının kendine has pek çok sebebi vardır bu terimin. Gerek teknoloji, gerek dijital ortam veya internet, gerekse küresel hareketlilik Büyük Veri konusunu bu denli etkili kıldı. Her şeyin çıkış noktası da bir dijital hammadde, “veri”.

Gündelik yaşantımızda her bir hareketimiz bir karbon ayak izi oluşturur. Dijital yaşantımızda ise ayak izimiz verilerle ölçülür duruma geldi. İnternet ortamındaki hareketlerimiz, bir üretim tesisindeki bilgi alışverişleri, kullandığımız cihazlar ve daha niceleri hareketlilik sonucunda izler bırakır. Bu izler inanılmaz hızda oluşur ve kolay kolay kaybolmaz. Gerektiği yerde toplanır, işlenir, anlam çıkarılmaya çalışılır. Temelde İnsanlar, Makineler ve Şirketler günümüz verilerinin oluşmasında büyük pay sahibidir.

Büyük Verinin Tanımı

Büyük Veri, insanlar, makineler ve diğer araçlar tarafından oluşturulmuş; dinamik, geniş çaplı, farklı hacimlerde ve farklı türlerdeki verilerdir. Büyük veri sadece onun hacimsel olarak bir karşılığı değildir. Farklı türlerdeki verilerin dönüştürülüp, değer katma işlemidir. Diğer yandan, veriler muazzam bir hızda, sürekli ve çeşitli bir şekilde akarken, değer katma işlemi de zorlaşabilmekte ve eski sistemlerin yerine yeni sistemleri de gerekli kılmaktadır. Büyük veri sistemi içinde işleri kolaylaştıracak araçlar ve uygulamalar yine Büyük verinin tanımı içerisindedir.

Elimdeki veriye ne zaman Büyük Veri gözüyle bakabilirim?

Bazen elinizde 100 bin satırlık veri setleri, bazen de milyonluk, milyarlık verileriniz olabilir. Bu sizin veriyi toplama, çekme yöntem ve sıklığınıza göre değişmektedir. Hacim burada tek önemli olgu değildir. Zira büyük veri ortamında artık zettabyte, petabyte,exabyte gibi seviyelerde işlemlerden bahsediliyor. Bu seviyelerde işlemlere İlişkisel Veri tabanları sistemlerimiz cevap veremeyebiliyor.

Yukarıda sorduğumuz sorunun cevabı “Büyük Verinin V’leri” adı altında cevaplanıyor. Büyük Verinin V’leri onun karakteristiği hakkında bilgi edinmek için bir kılavuz. Burada kısaca değinmekte fayda var.

Sahip olduğunuz verinin;

Hızı(Velocity):Süreçler durmadığı sürece veri akışı da durmaz. Global bir dünyadan bahsediyoruz ve her saniye muazzam hızlarda muazzam hareketlilik mevcut. Sahip olduğunuz verileri ne sıklıkla ve ne hızda elde ediyorsunuz sorusu burada karşılığını bulur.
Hacmi(Volume): Bir deniz düşünün. Metreküp başına ne kadar su barındırıyor. Bunu veriye uyarlayalım. Sistemimizde veriler ne kadar yer kaplıyor, büyüklüğü nedir? Hacim bize bunu açıklar.
Çeşitliliği(Variety): Temelde 3 tür veri tipi mevcut. Yapısal veri(structured data), yapısal olmayan veri(unstructured data) ve yarı yapısal veriler(semi-structured data).
Yapısal verilere örnek olarak İlişkisel veri tabanlarımızda muhafaza ettiğimiz veriler iyi bir örnektir. Verilerimiz tablolarda, belirli bir düzende ve sıralı şekildedir. Veriler sorgulanmak için nispeten kolaydır, saklanması ve analizde kullanılması diğer veri türlerine göre daha kolaydır.

Yapısal olmayan verilere örnek olarak: internette gezinen videoların barındırdığı veriler, dosyalar, sosyal medya hareketleri, sensörler, loglar, uzay keşiflerinde kullanılan uyduların elde ettiği veriler örnek olarak verilebilir. Yapısal olmayan veriler, tüm verilerimizin yüzde 80’e yakınını kapsar ve veri patlaması bu veri türünde çok hızlı gerçekleşmektedir. Satır ve sütun formatında bu verileri saklamak ve analiz etmek mümkün değildir. Yapısal olmayan veriler diğer veri türlerine göre daha değerlidir çünkü analiz edilip işlenmesi zordur. Bunun için Yapay zeka ve onun alt dalları(Machine Learning) ile işlemler yapmak gerekir. Bu yolla yapılan işlemler değeri oluşturur. Bu tip veri yapıları çoğunlukla “Data Lake” gibi sistemlerde muhafaza edilir.

Semi-structured data ise yapısal ve yapısal olmayan verilerin bir kombinasyonudur. XML ve JSON gibi veri tipleri iyi bir örnektir. Semi structured veri tipleri NoSQL gibi sistemlerde tutulur. Structured Data tipine göre daha esnek bir veri yapısıdır.
Doğruluğu,güvenilirliği(Veracity): Verilerinizi elde ettiğiniz kaynak size güvenilirlik sunuyor mu? Alt yapınız verilerinizi çekmek için yeterli kabiliyette mi? Sistemim bana veri tutarlılığı kazandırıyor mu gibi sorulara cevap aramak gereklidir.
Değeri(Value): Verinizi değere dönüştürebiliyor musunuz? Örnek olarak, müşteri kalitesi için kullanıyorsanız bunu başarabildiniz mi? Daha fazla satış gerçekleştirebiliyor musunuz? İleriye dönük tahminlerle kar edip, maliyetlerinizi kısmak mı istediniz? Verinizi sosyal bir fayda için mi kullanacaksınız? Bu sorular size değer katmanın amacını sorgulatabilir. Verinize değer katmak size kalmış.

İşte bu gibi özelliklerini sorgulamak, veriniz hakkında nasıl bir tavır almanız gerektiği sorusuna cevap verebilecek nitelikte.

Büyük Veriye katkı yapan olaylar:

Önceden belirttiğimiz gibi dijital dönüşüm bu alana en büyük katkıyı yapmış durumda. Özellikle üretim alanında makinelerin rol alması ile birlikte ağırlıklı olarak sensör verileri yüksek hız ve hacimde değirmene su taşır halde. Üretim alanında Endüstri 4.0(Industry 4.0) çalışmaları ile bu ivme daha da artmış durumda. Makineler Real-time(eş zamanlı) akan veriler üzerinden haberleşebilmekte ve akan veri üzerinde büyük veri analitiğini makine öğrenmesi, optimizasyon teknikleri gibi yaklaşımlarla destekleyebilmekteyiz. Her şeyin temelinde verinin olduğunu söylemek gerekiyor. İyi bir makine öğrenmesi modeli verinin kalitesiyle desteklenir, iyi bir algoritma uygun veriler üzerinde çalışarak oluşturulur.

IoT devrimi:

Internet of Things, yine bu alana en çok katkıyı sunmuş uygulama olarak karşımıza çıkmakta. Nesnelerin internete bağlanarak akıllı hale getirilmeye çalışılması ve bu nesnelerden sürekli olarak veri akışı sağlanmakta. IoT tarafında “Hard Data” akışı söz konusu ve bu akış saniyenin de altı seviyelerde ve çok hızlı gerçekleştiği için inanılmaz derecede veri oluşumu söz konusu.

Nesnelerin İnterneti
Kaynak:unsplash.com

Cloud Computing(Bulut Bilişim):

Büyük verinin potansiyelini en çok arttıranlardan biri de “cloud computing”. Sadece potansiyeli arttırmakta kalmıyor ayrıca Büyük veriye akıllıca çözüm bulmak içinde birebir sistemler. Büyük veriden bahsediyorsak eski usul veri işleme ve saklama yöntemlerinden bahsedemiyoruz. Bahsetsek bile verinin bu denli artışı bizi yeni yollar aramaya itiyor. İşte burada Cloud Computing devreye giriyor. Bu sistemi kullanan şirketler artan veri sıklığına, çeşitliliğine çözüm olarak scalable(ölçeklenebilir) hizmetleri kullanarak cevap veriyor. Yani cloud computing sistemler büyük veri setlerini ihtiyaca göre şekillendirebiliyor ve veri işleme hızları da makul seviyede tutabiliyorlar. Bulut bilişim değirmene su taşırken, çözümde bulabiliyor. Büyük yazılım şirketleri hem kendi problemlerine çözüm bulmak hem de bunun pazarlamasını yapmak için bulut sistemlerine sahipler.

Sosyal Medya, Tarayıcı Geçmişleri:

Bu yazıyı siz okurken, telefonda sosyal medya hesabımızı kontrol ederken, araştırma yaparken arkada internet logları dediğimiz izler bırakıyoruz. Örnek olarak internet siteleri hizmet geliştirmek için “cookies” kullanır. Sitede gezinme sıklığınıza, hareketlerinize göre çıkarım elde etmeye çalışırlar. Twitterda attığımız tweetler bile istenildiği zaman amaca göre analiz edilebilir. Bunların hepsi bizim ürettiğimiz dijital iz sayesinde.

CRM Uygulamaları(Customer Relationship Management):

Verinin odağında olan bir başka uygulamada CRM yani müşteri ilişkileri yönetimidir. Yegane amaç, hizmet verdiğiniz kişi üzerinden deneyimleri içselleştirmek ve buna göre harekete geçmektir. Hizmet verdiğiniz, hitap ettiğiniz müşteriler hakkında tuttuğunuz veriler üzerinde öngörü ve çıkarım elde etmek istersiniz. Bu gayet normal. Günden güne müşteri verileri üzerinde geçirilen vakit artmakta. Burada da veri devreye giriyor. Müşterinizi elde tutmak, kaybetmemek istersiniz. Bunun içinde bir şeyler yapmak gerekiyor ve burada da CRM uygulamaları devreye giriyor. Bunun yanında CRM ile ilişkili olan “360-degree complete view of customer” denilen yaklaşım, işletme için, müşterinize en iyi hizmeti ve seçeneği sunmak için gereken bir strateji olarak tanımlanıyor. Özellikle “Churn” analizlerinde büyüyen veri üzerinde bu tip yaklaşımlarla analizler yaparak, müşteri hakkında belki de kendisinin bile farkında olmadığı çıktılar elde edebilirsiniz.

Customer Relationship Management
Fotoğraf:unsplash.com

Büyük Veri Teknolojileri

Başlı başına başka bir yazıda olmayı hak eden bir konu. Kısaca özetlemek istiyorum.
Büyük verileri analiz etmek zahmetli, verinin sistemleri zorlamasıyla birlikte maliyetler artar, işleyiş sekteye uğrar. Bunların önüne geçmek, maliyeti azaltmak, performans sorunlarına çözüm getirmek için uygun çözümlerde mevcut.
Analiz edebilmek için farklı yaklaşımları kullanmak ve benimsemek gerekiyor. Örnek olarak Büyük veri setleri ile çalışabilmek ve onları dağıtık bir şekilde tutmak için tasarlanan Hadoop. Hadoop Büyük Veri teknolojilerinde bel kemiği görevi görür. Yapılan bir çalışmada 2017 itibariyle verilerin %75’e yakını Hadoop ortamında tutulduğunu göstermektedir. Ayrıca, Real-Time Data Analysis yapabilmek için Apache Spark. Apache Spark bu teknolojiler arasında en hızlı çalışanlardan biridir. İlişkisel veri tabanlarından farklı olarak yapısal veriden ayrı bir de yapısal olmayan verileri de tutmak ve analiz etmek için NoSQL tipi(Cassandra,MongoDB) veritabanları. Hortonworks, Cloudera gibi sanal makinelerde Ambari üzerinden bilgisayarınızda bir Büyük Veri ortamı kurmak gibi bir seçeneğiniz de mevcut. Ayrıca Büyük veri ortamı içerisinde ilişkisel veri tabanları içinde çözümler mevcut(Apache Hive). Apache Hive “Facebook” tarafından geliştirilen bir teknoloji. Devasa Facebook verileri Hadoop ortamında saklanıp Hive ile işlenebiliyor. Yüksek performansla dağıtık bir şekilde SQL sorguları da yazabiliyorsunuz(Presto). Bu konuda esneklik üst düzeyde. Burada en önemli nokta ihtiyaca ve projeye göre seçim yapmak olacaktır. Hali hazırda büyük veri çözümleri için birçok araç var ama dikkatli bir şekilde karar verilip kullanılması gerekiyor.

Kullanacağım Aracı Nasıl Seçebilirim?
Kullanacağız araçlar ya da teknolojiler çalıştığınız yerin altyapı uygunluğuna, yetkinlik derecesine(her araç kendi farklılıklarıyla gelir), ve uygulanabilirliğine göre değişir. Veri setinizin büyüklüğü, ücretlendirme yapısı, yapılacak analiz türü, veriyi çekmek için kullandığınız sistem gibi bir çok dinamik, kullanılacak teknolojiye cevaptır.

Mehmet Ali KAYA

Data Science Earth

Data Science Earth ekibi, üst düzey Veri Bilim çözümleri üretmek amacı ile toplanmış akademisyenler ve uzmanlardan oluşmaktadır. Öncelikli olarak veri bilincini geliştirmeyi ve küreselleşen rekabet ortamında verinin gücünün doğru kullanılmasını sağlamayı amaçlamaktadır.

Sponsor

QuestionPro 35 farklı soru seçim özelliği ile anket çalışmalarımıza güç katmaktadır.