Veri Bilimini Oluşturan Disiplinler!

veri bilimi oluşturan şeyler

Veri bilimci olmak için ihtiyaç olan genel bilgiler konulu yazı dizimizin  üçüncü bölümüne gelmiş bulunmaktayız. Daha önceki ilk yazımızda “Yeni başlayanlar için Veri bilimci olma kılavuzu”   

ve ikinci yazımızda ” Veri bilimci olma koşulları” 

başlıkları altında temel bilgiler vermeye çalıştım.  Bu yazımızın  ana konusu ise Veri Bilimi alanını oluşturan disiplinler ve bu disiplinler arasındaki ilişkiler nelerdir anlamaya çalışacağız. Devamında ise işin biraz algoritma ve matematik alanlarını en temel örneklerle  anlatarak yazıyı tamamlamayı planlıyorum.

Veri bilimi alanı hangi becerilerin toplamıdır dediğimizde, karşımıza en temel hali ile aşağıda belirteceğim konuların çıktığını görüyoruz;

1 – İstatistik : İstatistik veri bilimi bileşenlerini oluşturan ana alanlardan biridir. Çünkü verinin dilinden anlamak istatistiksel yöntemleri kullanarak elde edebileceğimiz bir durum,  en temel hali ile , mod, medyan, ortalama değer vb. gibi istatistiksel bilgileri kullanarak veriyi yorumlayabilir ve olması gereken değerler noktasına erişmek için gerekli iyileştirmeleri yapabiliriz.

2 – Alan bilgisi uzmanlığı : Her ne kadarda çalışılan ve işlenen değer veri olsada verinin görsele yansıttığı bilgileri yorumlayabilmek, olabilecek değerleri anlayabilmek, çıkan değerlerin kabul edilebilir yada kabul edilemez olduğu noktasında karar verebilmek, veriden aldığımız bilgiyi deneyim dediğimi alan bilgi birikimi ile değerlendirebilmek için  çalışılan alanda uzmanlıkta önemli bir konudur.  Bu sebeple veri ile çalışırken konunun uzmanlığı ve alan bilgisine sahip olmak çok önemli bir yeterliliktir.

3 – Veri Mühendisliği: Veri mühendisliği veri biliminin bir parçasıdır.  Verileri almak, depolamak, işlemek, dönüştürmek gibi işlemlerin teknik anlamda yapıldığı alandır.

4 – Görselleştirme:  Verilerin insan tarafından değerlendirilebilmesi verilerin bir görselini almakla mümkün olabilir, bu sebeple verileri insan taraflı değerlendirmek için arka planda oluşan örüntülerin ve veriler arasındaki ilişkilerin değerlendirilmesi için verilerin çıktılara yani görselleştirilmeye ihtiyacı vardır, bu bağlamda görselleştirmede veri bilimi alanının olmazsa olmaz parçasıdır diyebiliriz.

5 – Yüksek seviyeli hesaplama işlemleri:  Verileri aldık, görselleştirme metodları ile çıktıları yansıttık, alan bilgisi ile yorumladık, istatistiksel bilgilerimizle değerlendirdik.  Verilerin yüksek kapasiteli ve hesaplama maliyetlerinin ileri değerece de olması bu işlemlerinde yapılabilmesi için iyi seviyede hesaplama tekniklerine ve bu hesaplama teknikleri ile verileri en optimum seviyede model oluşturma noktasında kullanabilmeyi gerektirmektedir.

6 – Matematik:  Matematik yukarıda saydığımız tüm alanların içerisinde kendine bir yer bulmaktadır. Matematik hayatın her alanında olduğu gibi veri bilimi bileşenlerini oluşturan araçlar noktasında da en önemli yere sahip disiplindir.

7 – Makine Öğrenmesi:  Makine öğrenmesi nasıl ki, insanın öğrenmesini, anlamasını, değerler çıkarmasını sağlayan alan matematik bilgisi ise, bilgisayarların da verinin dilini anlamak ve verileri matematiksel işlemlerlerle, ilişkilendirmek ve verilerden çıkardığı sonuçları değerlendirebilmek için “Makine Öğrenmesi(Machine Learning)” alanı önemli bir bileşendir.  Veri bilimi alanında çeşitli problemin çözümünde makine öğrenmesi algoritmalarından yararlanılmaktadır.

Yukarıda değindiğimiz konuların birleşiminden veri bilimi alanı ortaya çıkabilir, dolayısı ile isimleri ve kısaca açıklamaları belirtilmiş olan bu alanların derinlemesine uzmanlıklarının oluşması için ilgili alanlarda çalışmalar yapılabilir.

Veri Bilimci alet çantası ; 

  • Veri Analiz Araçları : R, Python, Excel, SAS, RapidMiner,  Matlab vb.
  • Veri Barındırma Araçları : SQL, Hadoop, MySQL vb.
  • Veri Görselleştirme Araçları : PowerIB, Tableau, R, Python, JupyterNotebook vb…
  • Makine Öğrenmesi Araçları : Spark, Mahout, AWS, Azure vb.

Veri bilimci olmak için ihtiyaç duyulan/duyulacak olan araçlar yukarıda özet olarak belirtilmiştir, tabi bu araçlar dışında çokça kullanabileceğimiz araçlar mevcut ancak istatistiksel olarak yapılan çalışmalarda  dünya genelinde en fazla kullanılırlık sayıları göz önüne alındığında bu araçlar çokça kullanılan ve bizimde temel olarak sahip olmamız gereken araçlardır diyebiliriz.

Tabi bu noktada zaman zaman yaşadığımız bir yanlış algı mevcut, en iyisi hangisi, en iyisini öğrenmeliyim gibi yanılgılara kapılabiliyoruz, doğal olarak en iyisini istemek en güzel düşünce ancak ondan daha iyi olanı ise ihtiyacımızı çözecek en iyi çözümü üretecek araçları bilmek ve bunları en etkin şekilde kullanabilmek olacaktır.

Her birinden birşeyler öğrenmeye çalışırken hiçbirinden uzmanlaşamamak en büyük hatalardan biri olacaktır. İyi bir uzman şöyle tarif edilir, bir uzman :” Bir şeyden HERŞEY, herşeyden BİRŞEY” bilen kişi şekilinde tanımlamalar yapılır.   Programlama dilleri noktasından da durum çok farklı değildir, sizin ihtiyacınızı çözecek ve isteklerinize cevap verecek esneklik ve kullanışlık seviyesi en iyi olan dil en güzel dildir diyecek konumuzu sonlandırıp yeni bir başlık ile  yazımıza devam edelim.

Veri bilimi için Makine Öğrenmesi; 

Veri bilimci olmaya karar verdik ve bu yolda  eğitimler, görüşmeler, çalışmalar yapmaya başlayacağız, nerden nasıl başlayacağız gibi sorular sormaya başladığınızı duyar gibiyim, her işin en temelinden başlamak elde edeceğimiz neticenin ve oluşacak çıktının en önemli noktasını oluşturmaktadır. bu sebeple de makine öğrenmesi konusu veri bilimi alanının en temel taşlarından biridir, bu alanda kullanılan  makine öğrenmesi algoritmaları ve bunlara temel birer örnek  vermeye çalışalım.

  • Regresyon algoritmaları
  • Karar ağaçları
  • Kümeleme
  • Temel bileşen analizi
  • Destek vektör makineleri
  • Naive Bayes
  • Yapay Sinir ağları
  • Apriori

1 – Doğrusal Regrasyon Algoritmaları(Linear Regression Algorithm) : doğrusal regresyon algoritmaları yapılandırılmış(Supervised) veriler için kullanılan en yaygın algoritma türleridir.  Bu algoritma bağımsız değişkenlere dayalı hedef değerleri modelleme yöntemi olan regresyon üzerinde işlemler yapar. Girdi verileri ile, tahmin edilecek çıktı verileri arasında oluşabilecek bir doğrulsal denklemin oluşumunu temsil eder. bu algoritmalar daha çok tahmin ve öngörü işlemlerinde kullanılır. Girdi ve çıktı değişkeni arasındaki doğrusal ilişkiyi gösterdiğinden, buna doğrusal regresyon denir.

Matematiksel olarak şöyle ifade edilebilir;

Y= mx+c

Y = Bağımlı değişken,

X = Bağımsız değişken,

m= eğim

c = sabit

2 –  Karar Ağaçları:  Karar ağaçları algoritmaları bir diğer yapılandırılmış veriler için kullanılan makine öğrenmesi algoritmasıdır. Bu algoritmalar öğrenme amaçlı kullanılan en önemli algoritmalardan biridir diyebiliriz. Aynı zamanda karar ağaçları algoritmaları hem sınıflandırma (classification), hemde regresyon problemleri için kullanılabilmektedirler.

Karar ağaçları algoritmalarında, her bir düğümün bir özelliği temsil ettiği,  her dalın bir kararı temsil ettiği ve herbir yaprağın ise sonucu temsil ettiği ağaç temsilini kullanarak problemi çözebiliriz.  Aşağıda bir temsili karar ağacı algoritması görselinden konu daha net anlaşılacaktır.

kaynak

Grubumuz değerli üyelerinden  @H.İbrahim ve @Şengül,  karar ağaçları konusunu daha ayrıntılı olarak incelemişler, detaylı bilgiye buradan erişebilirsiniz.

Yukarıdaki görselden karar ağaçlarını anlayacak olursak,

Kök düğümden karar ağacımız başlıyor, ilk değerlendirme sonucu elde edilen sonuca göre kararın verilip bir sonraki düğüme(node) geçmesi ile devam edip en son düğümde oluşan şartlara göre kararın verilip sonuçlandığı bir durum diye basitçe  değinmiş olduk.

3 – K-means Clustering:  K-means kümeleme algoritması, makine öğrenmesi algoritmalarının en önemlilerinden olup, yapılandırılmamış öğrenme (unsupervised learning) için kullanılmaktadır. Adından da anlaşılacağı üzere kümeleme problemlerinin çözümünde faydalanılan makine öğrenmesi algoritmasıdır.

Örneğin elimizde veri seti mevcut, bu veri setinin işlenmesi ve eldeki verilerin kümelenmesi ihtiyaç olduğunda k-means algoritmalarından faydalanırız. Şöyle düşünelim, eldeki veriler birden fazla türü içerebilir, bu verilerin kümelenmesi ve elde edilen değerlerin yorumlanması noktasında k-means algoritmaları ile bu işlemi kolaylıkla yapabiliriz.

Kümeleme analizi konusunu ayrıntılı olarak incelemek isterseniz, Çağrı bey’in yazısından faydalanabilirsiniz.

Temel bilgiler vermeye devam ediyoruz, bir sonraki yazımızda bir veri bilimi döngüsel işlemlerinin nelerden oluştuğu ve hangi aşamalardan geçtiğini örnek bir çalışma üzerinden göstermeyi planlıyorum.

Eğitimsel giriş anlamı taşıyan yazılarımızın bir ışık yakmak adına faydalı olmasını ümit ederek, çalışmalarınızda başarılar dilerim.

Data Science Earth

Data Science Earth ekibi, üst düzey Veri Bilim çözümleri üretmek amacı ile toplanmış akademisyenler ve uzmanlardan oluşmaktadır. Öncelikli olarak veri bilincini geliştirmeyi ve küreselleşen rekabet ortamında verinin gücünün doğru kullanılmasını sağlamayı amaçlamaktadır.

Sponsor

QuestionPro 35 farklı soru seçim özelliği ile anket çalışmalarımıza güç katmaktadır.