Bir Bakışta Veri Bilimi

Veri (İng. ve Lat. datum; ç. data), ham (işlenmemiş) gerçek enformasyon parçacığına verilen addır.[1] Temelde nitel ve nicel olarak ayrılan veriler, sembolik gösterimlerde olduğu gibi bir durumun soyutlanmasında yardımcı olur fakat tek başlarına bir anlam ifade etmedikleri için ilgilendiğimiz konuyla ilgili doğru veriyi topladıktan sonra gruplara ayırarak ve özetleyerek, işlenip enformasyona dönüştürülür. Dönüştürülen veriler bu şekilde anlam kazanmış olur.

Veri bilimi ise yapılandırılmış ve yapılandırılmamış verilerden bilgi ve öngörü elde etmek için bilimsel yöntemleri, süreçleri, algoritmaları ve sistemleri kullanan çok disiplinli bir alandır.[2]

Temelinde üç ana bileşenden oluşan veri bilimi bu bileşenlerin birleşimi sonucunda zamanla farklı bileşenler doğurmuştur.[3] Bu konuyla ilgilenen her birey aşağıdaki Venn diyagramını mutlaka görmüştür.

Veri Bilimi
Şekil 1

Veri bilimini anlamak için öncelikle elimizdeki veriyi anlamak ve bu mevcut veriden işimize yarayacak olan veriyi seçmek gerekir. Evet verimizi seçiyoruz çünkü bir konu hakkındaki her bilgi bazen problemi çözme yolunda karışıklığa sebep olur ve problem için o veriyi kullanmaya gerek yoktur. Bütün bunları ele almadan önce ne istediğimizi sormalıyız. Problemimizi oluşturduktan sonra amaca uygun temel ve yan etkenleri katıp analizlerimiz ile çözüme ulaştırabiliriz.

Şimdi veri bilimini anlamak için gelin bir örnek üzerinden gidelim. Veriyi bir ağaç kökü olarak düşünelim. Veriler kökte uca doğru iletilirken pek çok aşamadan geçer. Ağacımızın topraktan aldığı vitamin, su ve mineralleri Makine Öğrenmesi (Machine Learning) adı altında toplayalım. Makine Öğrenmesi dediğimiz şey elimizde bulunan verinin bilgisayar bilimleri, istatistik ve matematikle işlenmesidir. Bilgisayar bilimleri için ise program dillerini bilmemiz gerekir. İstatistik bilimini en temel ihtiyaç olan su, bilgisayar bilimlerini birden fazla program dili ve kodu içeren mineral ve matematiği ise her canlının hayata tutunmasını sağlayan vitamin olarak ele alalım. Şimdi ağacımızın kökü yani verilerimiz; topraktan aldığımız istatistik, matematik ve bilgisayar bilimleriyle harmanlanıp bir yapay zeka örneği oluşturur yani ağacımızın yaprakları…Veri bilimi bu işin neresinde diyecek olursak da ağacımızın verdiği birden fazla tohumlu meyvemiz bizim veri bilimi olarak adlandırdığımız şeydir. İş alanındaki konu uzmanlığımız ise bu ağacımızın bakımından sorumlu olan insandır yani çiftçi… Çiftçimiz problemi anlamak adına ağacın iç yüzünü düşünüp (mantık, analiz, eleştirel düşünce) -yani veriyi düşünüp- ağaca en iyi veya en iyiye yakın olan bakımı bulup tohumdan ağaca dönüştürmek ve büyütmek için doğru adımları izleyerek (karmaşık model, kod yazma vb.) sonunda istediğine ulaşmıştır.

Peki istatistik bilimi neden en temel ihtiyaç olan su olarak ele alınmıştır? Bu noktada başa dönelim yani “veri nedir?” sorusuna. Veri, her şeydir. İstatistik bilimi ise verilerin toplanmasından sunumuna kadar geçtiği süreçte veriyi asla yalnız bırakmayan verilerle adeta dans eden en temel bilimdir. Dolayısıyla iş ve üretimde en önemli ve tek güvenilir araç istatistiktir.

Veri bilimi, veri madenciliği ve büyük verilerle de ilgilidir. Alışılagelmiş veri işleme uygulama yazılımı tarafından ele alınan çok büyük veya karmaşık veri kümeleriyle başa çıkan, analiz eden, sistematik olarak bilgi çıkaran alana Büyük Veri (Big Data) denmektedir.[4] Bu büyük veri kümelerindeki kalıpları keşfetme sürecine ise veri madenciliği denmektedir.[5] [6] Aslında “Veri Madenciliği” terimi yanlış bir isimdir. Çünkü amaç, verilerin kendisinin çıkarılması (madenciliği) değil, büyük miktarda veriden desen ve bilginin çıkarılmasıdır.[7]

1 Ocak 2001’de William S. Cleveland “Veri Bilimi: İstatistik Alanının Teknik Alanlarını Genişletmek için Bir Eylem Planı” makalesini yayınladı.[8] Bu plan istatistik alanının teknik çalışmalarının önemli alanlarını büyütmek içindi. Plan iddialı ve önemli bir değişiklik ima ettiği için, değişmiş alan “Veri Bilimi” olarak adlandırılacaktı. Bu yazısında en dikkat çeken ve tartışmalara sebep olan kısım ise şöyledir:

…Veri analizi projeleri günümüzde veri tabanlarına, bilgisayar ve ağ donanımına, bilgisayar ve ağ yazılımlarına dayanmaktadır. Veri analizi için bir model ve yöntem koleksiyonu yalnızca koleksiyon, modelleri ve yöntemleri yeterli derecede verimli kılan bir hesaplama ortamında uygulandığında kullanılacaktır. Rakip modelleri ve yöntemleri seçerken, analistler kullanım etkinliği için etkililiğe sahip olacaklardır…

William S. Cleveland yayınladığı bu makalede altı alanı ve her biri için odak yüzdesini özetlemiş olup seneler boyunca farklı bilimciler tarafından yeni şeyler üretilmeye devam edilmiştir. Tam da bu noktada bir diğer adımı Eylül 2010’da Hilary Mason ve Chris Wiggins “Veri Biliminin Taksonomisi”nde yazdığı yazılar ardından Veri Bilimi Venn Şeması’nın temelini atmış ve yine Eylül 2010’da Drew Conway, “The Data Science Venn Diagram”da tam olarak ilişkileri açıklamıştır.[9] 

Peki veri bilimci kimdir? “Ne var sanki bunda birkaç model öğrenir algoritma oluşturur az da istatistik ve matematik becerilerimi geliştirdiğim zaman veri bilimcisi olabilirim, sonuçta artık her şeyi programlar yapıyor, bilgiye sahip olsam yeter” diye düşünüyor olabilirsiniz fakat Veri Bilimi Hiyerarşi ’sine baktığımız zaman iyi bir veri bilimci olmanın o kadar da kolay olmadığını görebiliriz [10] (Şekil 2).

Veri Bilimi Hiyerarşisi
Şekil 2

İlk aşamada veri toplamayı ve oluşturmayı bilmeliyiz. Günümüz dünyasında bu çok daha zor çünkü herhangi bir konu hakkında bile elinizin altındaki internetten bir sürü veriye ulaşabilirsiniz lakin hangi kaynağın doğru ve güvenilir olmasını saptamak ve hangi verinin ilgilenilen problem için yararlı olacağını belirlemek zor iştir.

Ardından verilerimizi düzenlemek gerekir. Verilerimizi analiz için uygun bir biçimde almamız gerekiyor. Bu, veri dönüştürme, temizleme ve depolama gibi temel veri organizasyonu görevleriyle başlar. Bunları yaptıktan sonra veriler ETL (Extract Transform Load) ardışık düzen, veri ambarı veya veri gölü oluşturabilir (veri depolama).

Organizasyonumuzda neler olduğunu ve neden olduğunu açıklamak için verilerimizi kullanmamız gerekiyor. Bu genellikle raporlar, panolar ve anahtarlar (Key Performance Indicator) gibi temel veri analizi araçlarıyla başlar.

Dördüncü aşamada, tahminler yapmak için bir ihtiyaç var. Gelecekte ne olacağını ve bu potansiyel senaryolara nasıl tepki vermemiz gerektiğini bilmek istiyoruz. Bu genellikle daha gelişmiş veri analizi türlerini içerir. Örneğin, kuruluş, veri bilimi boru hattında tahmini analitik, kuralcı analitik ve makine öğrenimini dahil etmeye başlayabilir.

Son aşamaya geldiğimizde ise veri bilimci olma yolunda aşamaları neredeyse tamamlamış bulunmaktayız. Veri-bilim süreçlerimizi otomatikleştirmeye ihtiyacımız var. Bu, veri-bilim döngüsünü kapattığımız ve insanı süreçten çıkardığımız yerdir. Yapay zeka (Artificial Intelligence), derin öğrenme (Deep Learning) ve takviye öğrenimi (Reinforcement Learning) gibi ileri teknolojileri içerir. Veri odaklı AI şeklinde veri bilimi süreçlerinin otomasyonu, veri odaklı kuruluşların hedefidir. Doğru şekilde uygulandığında, veri odaklı AI maliyetlerimizi en aza indirebilir ve gelirimizi en üst düzeye çıkarabilir. Bu tür AI, endüstri liderlerini herkesten ayıran şeydir.

Bütün bu aşamaları doğru ve yerinde kullanımı sonucunda amacınıza ulaşmış bulunmaktasınız. Bununla birlikte teknolojinin sürekli geliştiğini, yeni tekniklerin ve programların ortaya çıktığını göz ardı etmemeliyiz ki her seferinde kendimizi daha çok geliştirip daha iyi sonuçlara ulaşalım.[11]

Son olarak “Veri Bilimi” ve “Veri Bilimci” için yapılan bazı tanımlamalara[12]  bakalım:

  • “Veri Bilimciler: Seksiliğin Tanımı” Forbes, 2012
  • “Bir veri bilimcisi, verileri elde edebilen, manipüle edebilen, araştırabilen, modelleyen, yorumlayabilen, sızma becerileri ile birleştirebilen, istatistikleri ve makine öğrenmesini harmanlayan bir kişidir. Veri bilimcileri sadece veri ile çalışmanın yanı sıra, birinci sınıf bir ürün olarak verilere değer katıyorlar.” Hilary Mason
  • “Veri Bilimi, büyük bilgi koleksiyonlarının toplanması, hazırlanması, analizi, görselleştirilmesi, yönetimi ve korunması ile ilgili yeni bir çalışma alanı anlamına gelir.”, Jeffrey Stanton, An Introduction to Data Science

 

Kaynakça