Makine öğrenmesi, gelişen teknoloji ile birlikte insanların bazı işlerini makinelere devretmek istemeleri sebebiyle, temel istatistiksel analiz yöntemlerini makinelere devretmek istedikleri işleri modellemek için kullanmaları ve bu modelleri programlama dillerini kullanarak makinelere kayıt etmeleri ile ortaya çıkmış bir terimdir.
Temel olarak bu istatistiksel modelleme yöntemleri tekrarlanan olayları ya da birden fazla farklı durumunun olduğu bilinen nesneleri betimleyen veriler ile birlikte modellenmesi düşünülen şeye yakınsayan matematiksel ifadeler üretme üzerine kuruludur.
Basit bir örnek ile açıklamak gerekirse elinizde 10 tane elma 10 tane de armut resmi var ve bu resimlerle bir model oluşturmak istiyorsunuz. Ve bu model ile yeni bir elma ya da armut fotoğrafı için fotoğraftakinin elma mı yoksa armut mu olduğunu bulmak istiyorsunuz. Tabi ki bir bilgisayarın bir fotoğrafı anlamasının temel yolu fotoğrafın sayısallaştırılmasıdır. Bu işlem en basit hali ile aşağıdaki gibi yapılabilir.
Fotoğraflar yukarıdaki resimdeki gibi işaretlenir ve sonra {1,1,1,1,1,-1,-1,1,-1,-1…} şeklinde serilere dönüştürülür. Bu seriyi aslında biliyoruz :
Y=b1X1+b2X2+b3X3+…..
Burada Y’nin alabildiği 2 değer vardır Elma=0 ve Armut=1 değerleri. Bu bilgi ile birlikte elimizdeki fotoğrafların hepsini sayısallaştırdığımızda elimizde aşağıdaki gibi bir veriset olmuş olacaktır.
Elma1= 0 = {-1,1,1,1,-1,-1…} Armut1= 1 ={-1,-1,1,-1,-1,-1…}
Elma2= 0 = {-1,1,1,1,-1,-1…} Armut2= 1 ={-1,1,1,1,-1,-1…}
Elma3= 0 = {-1,1,1,1,-1,-1…} Armut3= 1 ={-1,-1,-1,-1,1,1,-1,-1….}
.
.
.
Daha sonrasında oluşan bu veriseti kullanarak bir benzetim yöntemi ile bir genel denklem elde edilebilir.
Y=0,5X1+4X2-3X3+…..
Bu denklem elde edildikten sonra artık makinemiz yeni gelen fotoğrafların üzerindeki meyvenin elma mı, armut mu olduğunu anlamaya hazır 🙂
Tabi zaman içerisinde bu İstatistiksel yöntemler veri miktarının ve bilgisayarların hesaplama gücünün artması ile evrim geçirmişlerdir.
Örneğin istatistik derslerinde 25-30 satırlık bir veri için anlatılan doğrusal regresyonun testlerini hatırlayın. Neydi bu testlerin amacı? Verinin gerçek dünyayı iyi bir şekilde yansıttığının ortaya konmasıydı. Ve fakat bugün ben 25-30 milyon satırlık verilerle regresyon modeli kuruyorum ve model kurduğum veriset gerçek dünyayı zaten büyük oranda temsil ediyor ve dolayısı ile daha evvel yaptığım testlere ihtiyaç duymuyorum.m
Bu evrim sonrasında bu yeni kullanım yöntemi ile klasik kullanım yöntemini birbirinden ayrı ifade etmek için zamanla bu yeni kullanım yöntemleri topluluğu Makine Öğrenmesi olarak ifade edilmeye başlanmıştır.
Yani Makine öğrenmesi aslında İstatistiktir.
Birçok kaynakta Makine Öğrenmesinin Yapay Zeka olduğu ifade edilir ve bu kesinlikle bilgisizlikten dolayı yapılan bir eşitlemedir. Makine Öğrenmesi Yapay Zeka sistemlerinin bir parçasıdır fakat Makine Öğrenmesi = Yapay Zeka eşitliği yanlıştır.
Ve tabi bir yanlış kullanımda Veri Bilimin Makine Öğrenmesine Eşitlenmesidir ve bu eşitleme de kesinlikle bilgisizlikten kaynaklanmaktadır. Yani Veri Bilim = Makine Öğrenmesi eşitliği de yanlıştır.