Metin Madenciliği Nedir?

metin madenciliği nedir, nasıl yapılır

 

 

Metin madenciliği ya da Text Mining çok temel anlamda metinlerin sayısallaştırılması ve bu sayısallaştırılma ile elde edilen veri üzerinden makine öğrenmesi yöntemleri ile bilgi keşif yapılmasıdır. Burada Doğal dil işlemeyi konu dışı bırakmak istiyorum nedenini yazının sonunda belirtiyor olacağım.

Bu metin sayısallaştırma işlemi kelime temelinde, kelime grupları temelinde, farklı metinlerde bu kelime ya da kelime gruplarının birlikte geçmeleri temelinde yapılabilmektedir. Aşağıdaki görselde basit bir sayısallaştırma örneği görmektesiniz. Yukarıdaki kelimeler metin içerisinde geçiyor ise 1 geçmiyorsa 0 değeri verilerek, metin “0, 1” değerleri ile sayısallaştırılıyor.

 

one hot encoding örneği

Tabi metnin sayısallaştırılmasındaki amaç eldeki metin verisini matematiksel metodolojiler uygulanabilecek bir veri yapısına dönüştürmektir. Bu dönüşümden sonra amaca göre farklı Makine Öğrenmesi teknikleri bu yeni veri seti üzerinde uygulanabilmektedir. Popüler birkaç metin madenciliği uygulamasını incelemek bize daha net bir fikir verecektir.

Örneğin bir sınıflandırma problemini ele alalım. Burada standart bir sınıflandırma analizinden bahsediyoruz aslında. Örneğin bir duygu durum analizi için bu sınıflandırma analizi metin verisi için uygulanabilir.

Bu analiz için öncelikle makine öğrenmesi modelimizi eğiteceğimiz eğitim veri setini yani elimizdeki metinleri etiketlememiz gerekiyor. Yukarıdaki görsel üzerinden gidecek olursak; bizim için olumlu cümlelere “olumlu” bizim için olumsuz olan cümlelere de “olumsuz” etiketini veriyoruz. Burada “olumlu” etiketini 1 ve olumsuz etiketini de 0 olarak sayısallaştıralım. Bu durumda elimizde(yukarıdaki görselin ilk satırına göre)

 

f(0,1,0,1,0)=1

f(1,0,1,1,1)=0

f(0,1,0,1,0)=1

 

gibi eşitlikler olacaktır. Bu eşitliklerden yola çıkarak bir denklem  elde edilir(aşağıdaki denklem uydurmadır).

 

f(X1,X2,X3,X4,X5)= 3X1+4X2/3+X3^2-24X4/7+X5

 

tabi elimde böyle bir denklem olduğunda karşıma yeni çıkan bir metni de sayısallaştırıp bu denklem sayesinde olumlu mu olumsuz mu anlayabilirim.

 

Tabi metin madenciliği deyince akla sadece sınıflandırma problemleri gelmemeli.

 

  • Metinlerden özet çıkartma,
  • metinleri anlamsal olarak kümeleme,
  • metni kimin yazdığının tespit edilmesi,
  • metnin içerisinde geçen telefon numarası, adres, isim gibi nesnelerin tespit edilmesi,
  • video ya da resimlerin birlikte paylaşıldıkları yazılardan yazılardan yola çıkarak etiketlenmesi,
  • Kelimelerin birlikte geçme frekanslarından yola çıkarak, cümlelerin tamamlanması,
  • Bir yazı yazma sürecinde bir sonraki kelimenin tahmin edilip yazıyı yazana önerilmesi

gibi farklı uygulama alanları da vardır.

 

Metin madenci harfler/heceler/kelimeler ya da bunların bir araya gelerek oluşturdukları öbekleri sayısal olarak değerlendirir ve bunlar arasında sayısal olarak ölçülebilen istatistikler üzerinden matematiksel eşitlikler üretir. Doğal dil işleme ise anlamsal olarak bu öbekleri inceler. Bu anlamda her ne kadar benzer görünüyor olsalar da aralarında çok temel bir fark vardır ve Doğal dil işleme ayrıca dil bilgisi, anlam bilgisi gibi uzmanlıklar da gerektirir.

Data Science Earth

Data Science Earth ekibi, üst düzey Veri Bilim çözümleri üretmek amacı ile toplanmış akademisyenler ve uzmanlardan oluşmaktadır. Öncelikli olarak veri bilincini geliştirmeyi ve küreselleşen rekabet ortamında verinin gücünün doğru kullanılmasını sağlamayı amaçlamaktadır.

Sponsor

QuestionPro 35 farklı soru seçim özelliği ile anket çalışmalarımıza güç katmaktadır.