Veri Bilimciler İçin Makine Öğrenimi Modelleri

Farkında olsak da olmasak da, yapay zekayı günlük hayatımızda çoğu yerde kullanıyoruz. Hayatımızda yeri olan birçok uygulama, gücünü yapay zekadan alıyor. Siri, Google Asistan, Spotify, Facebook, Instagram ve daha bir çoğu Bu uygulamaların çoğu yapay zekanın bir alt dalı olan makine öğrenimi modellerini  kullanıyorlar. 

Makine öğrenimi, internet sitelerine/uygulamalara/platformlara daha kişiselleştirilmiş içerik sunmaya, süreçleri otomatikleştirmeye ve diğer şeylerin yanı sıra sistemleri sürekli olarak optimize etmeye olanak sağlıyor. Bunu karmaşık algoritmalar aracılığıyla yapıyorlar. İşte bu nedenle, modeller bilgiyi analiz etmek ve bilgi edinmek için büyük öneme sahip oluyor. 

Varsayalım ki; veri bilimcisi olarak bir kariyere başlamaya çalışıyorsunuz veya makine öğrenimi tabanlı bir uygulamanın geliştirilmesini sağlamak istiyorsunuz. Motivasyonunuz ne olursa olsun, veri bilimcisine katkı sağlayabilecek başlıca makine öğrenimi modellerinin temellerini bu içerikten keşfedebilirsiniz.

İçindekiler

1. Temel Yaklaşımlar

1.1 Denetimli Makine Öğrenimi (Supervised Learning)

1.2 Denetimsiz Makine Öğrenimi (Unsupervised Learning)

2. Modeller

2.1 Sınıflandırma (Classification)

2.2 Kümeleme (Clustering)

2.3 Regresyon (Regression)

2.4 Boyutsal Küçültme (Dimensionality Reduction)

2.5 Topluluk Yöntemleri (Ensemble Methods)

Aşağıdaki yaklaşımlar ve modeller bu yazıda bulunmamaktadır.
Bu içeriği takiben araştırmalarınızda kullanabilirsiniz.

3. İleri Okuma Kavramları

3.1 Diğer Yaklaşımlar

3.1.1 Pekiştirmeli Öğrenme (Reinforcement Learning)

3.1.2 Kendi Kendine Öğrenme (Self-Learning)

3.1.3 Temsil Öğrenme (Feature Learning)

3.1.4 Seyrek Sözlük Öğrenimi (Sparse Dictionary Learning)

3.1.4 Anomali Tespiti (Anomaly Detection)

3.1.5 İlişkilendirme Kuralı Öğrenme (Association Rules)

3.2 Diğer Modeller

3.2.1 Yapay Sinir Ağları (Artificial Neural Networks)

3.2.2 Karar Ağaçları (Decision Trees)

3.2.3 Destekli Vektör Makineleri (Support Vector Machines)

3.2.4 Bayes Ağları (Bayesian Networks)

1. Temel Yaklaşımlar

Makine öğreniminde verileri işlemek için temel olarak kullanabileceğiniz başlıca yaklaşımlar denetimli ve denetimsiz makine öğrenimidir. Her iki yaklaşımda da bulabileceğiniz olasılıklar sınırsızdır, çünkü onları hayal edebileceğiniz herhangi bir şekilde kullanabilirsiniz.

1.1 Denetimli Makine Öğrenimi (Supervised Learning)

Denetimli makine öğrenimi yaklaşımı, kalıpları tanımlamak ve sonuçların nasıl ortaya çıktığını anlamak için bilinen girdi ve çıktıları kullanır. Verilen girdi kümesinden istenen çıktı kümesinin elde edilmesi için fonksiyon çözümlenir. Bilginin altında yatan mekanizmayı anlamak için model eğitimini ve veri setleri kullanır. Böylece, veri kümesinin bir parçası olmayan yeni bir girdi eklediğinizde, tanımlanan koşullarda hesaplanmış olası bir sonuç elde etmenizi sağlar.

Genellikle yapay zekaya odaklanan makine öğrenimi geliştiricileri, yazılım dış kaynak şirketleri, kimya, üretim ve pazarlama gibi çeşitli alanlarda denetimli makine öğrenimi kullanır.

1.2 Denetimsiz Makine Öğrenimi (Unsupervised Learning)

Denetimsiz makine öğrenimi yaklaşımı, veri analizi için daha açıklayıcı bir yaklaşımdır. Model eğitimindeki veri ilişkilerini anlamak yerine, daha önce bilmediğiniz potansiyel kalıpları tespit etmek için etiketlenmemiş veriler kullanır. Bunu, benzer girdileri özelliklerine göre gruplayarak yapar.

Birçok mühendis bu yaklaşımı farklı endüstrilerde kullanır. Araştırma için özellikle yararlıdır, ancak satış departmanı, ürün fiyatlandırması veya lojistik için de kullanılabilir.

2. Modeller

Esasında yukarıdaki temel yaklaşımların kullanım alanları tamamiyle hayalinize kalmıştır. Ancak, bunu yapmaya başlamadan önce, mevcut bazı modelleri tanımalı ve ondan sonra kullanmalıyız.

2.1 Sınıflandırma (Classification)

Denetimli makine öğrenimi kategorisinin bir parçasıdır. Temel amacı bir sınıf değerini açıklamak veya tahmin etmektir. Başka bir deyişle, bu model bir veya daha fazla girdiye göre bir şey olma olasılığını tanımlar.

Örneğin, spam filtrelemek için bir e-posta istemcisinde sınıflandırma kullanılabilir. Bu senaryoda, olası iki farklı sonuç vardır: – ilk senaryo- e-posta spam’dir veya değildir. Girişlere ve modelin nasıl eğitildiğine bağlı olarak tahmin edilebilir. Aslında, bir iletiyi e-posta hesabınızda spam olarak işaretlediğinizde – spam’in temel özelliklerini anlamak ve korumasını geliştirmek için modeli eğitiyorsunuzdur.

Kısacası, sınıflandırma, eğitim setine ve değerlerine (sınıf etiketlerini ilk etapta tanımlayan) bağlı olarak bir sınıf etiketi öngören bir yöntemdir. Bu teknik, diğerlerinin yanı sıra lojistik regresyon, karar ağaçları, rastgele ağaçlar, çok katmanlı algılayıcılar ve gradyanla güçlendirilmiş ağaçlar da dahil olmak üzere birçok modeli kapsar.

2.2 Kümeleme (Clustering)

Kümeleme, denetimsiz makine öğrenimi kategorisinin bir parçası olan çeşitli yöntemler içerir. Bu nedenle, değerleri bir veya daha fazla belirli özelliğe göre gruplamak için etiketlenmemiş veri kümelerinde kullanmanıza olanak tanır. Benzer değerlerde gruplar (kümeler olarak adlandırılır) oluşturmanızı sağlar.

Bunun gerçekleşmesi için, bir veya daha fazla özelliğe bakan bir metrik olan bir benzerlik ölçüsü tanımlamanız gerekir. Bu hesaplamaya sahip olduğunduğunda, kümelerin oluşturulması için veri kümesine uygulanabilir. Örneğin, türe, yıla veya ülkeye göre kategorilere ayırabileceğiniz birçok müzik albümünüz olabilir. Her biri farklı kümelerde bulunacaktır, bu nedenle hangisinin daha iyi olduğunu tanımlamak size bağlıdır.

Uygulamaların gürültülü yoğunluk tabanlı uzamsal kümelenmesi (DBSCAN), hiyerarşik kümeleme ve orta kaydırmalı kümeleme gibi kümeleme algoritmaları, aralarından seçim yapabileceğiniz seçeneklerden bazılarıdır. Çeşitli sektörler ve faaliyetler bunları pazar bölümleme, sosyal ağ analizi ve tıbbi görüntüler gibi şeyler için kullanır.

2.3 Regresyon (Regression)

Regresyon, denetimli makine öğreniminin bir parçası olan yöntemdir. En basit şekli, genellikle polinom regresyonu veya sinir ağları gibi daha karmaşık formlardan daha yaklaşık olan doğrusal regresyondur. İki ya da daha çok değişken arasındaki ilişkiyi ölçmek için kullanılan analiz yöntemidir. Eğer tek bir değişken kullanılarak analiz yapılıyorsa buna tek değişkenli regresyon, birden çok değişken kullanılıyorsa çok değişkenli regresyon analizi denir.

Regresyon teknikleri, girdi değerlerine ve bilinmeyen parametrelere dayalı çalışır. Regresyonla başa çıkmak için bir algoritma geliştirirken, algoritmanın gizli parametrelere yaklaşımını hassaslaştırmasına izin veren bir veri kümesi kullanmanız gerekir. Sonuçları düzelttikten sonra, hipotezinizi uygulamak için işlemi gerçek bir veri kümesine alabilirsiniz.

2.4 Boyutsal Küçültme (Dimensionality Reduction)

Denetimli makine öğreniminin bir başka yöntemidir. Veri kümelerinizdeki gürültüyü azaltmak için kullanabilirsiniz. Boyutsalküçültme ile, benzer verileri ayrıntı miktarını azaltan daha büyük gruplara entegre ederek istenmeyen bilgilerin bir kısmını ortadan kaldırabilirsiniz.

Boyutsal indirgeme uygulamak için kullanabileceğiniz, temel bileşen analizi ve komşunun t-stokastik birleşmesi (t-SNE) gibi popüler yöntemler de dahil olmak üzere çeşitli yöntemler vardır. Bu yaklaşımlar doğrusal veya doğrusal olmayabilir ve indirgemeye farklı mantık uygulayabilir. Bu nedenle, verilerinize ve kişisel ihtiyaçlarınıza göre en iyisini düşünmeniz daha iyi olur.

2.5 Topluluk Yöntemleri (Ensemble Methods)

Bu yaklaşım, ortaya çıkan tahminleri hassaslaştırmak için birkaç denetimli makine öğrenimi tahmin modelini bir araya getirir. Topluluk yöntemleri yaklaşımının altında “kurt sürüsü” felsefesi etkilidir.

Farklı modeller kullanmak, ayrı ayrı kullandığınızda bulacağınız zayıflıkları azaltmak için güçlü yönlerini birleştirdiklerinde daha iyi sonuçlara yol açabilir. Ayrıca, kombinasyon öğrenme modelinin yanlılığını ve varyansını azaltır, bu da daha az yanlışlığa yol açar.

Topluluk yöntemlerinin tipik olarak tek bir modelden daha fazla hesaplama gerektirdiğini bilmelisiniz, bu nedenle bazı insanlar bunları hesaplama işlemi yoluyla zayıf öğrenme algoritmalarını telafi etmenin bir yolu olarak görür. Bununla birlikte, yüz tanıma, kötü amaçlı yazılım algılama ve arazi haritalama gibi belirli görevlerde mükemmeldirler.

Final

Temel olarak veri bilimcilere fayda sağlayabilecek yaklaşımlarımızı, modellerimizi kısaca tanıdık.

Siz de aşağıdaki yorum kısmından veri biliminde makine öğrenimi serüvenlerinizi paylaşabilirsiniz. 🙂

 

Data Science Earth

Data Science Earth ekibi, üst düzey Veri Bilim çözümleri üretmek amacı ile toplanmış akademisyenler ve uzmanlardan oluşmaktadır. Öncelikli olarak veri bilincini geliştirmeyi ve küreselleşen rekabet ortamında verinin gücünün doğru kullanılmasını sağlamayı amaçlamaktadır.

Sponsor

QuestionPro 35 farklı soru seçim özelliği ile anket çalışmalarımıza güç katmaktadır.