Doğal Dil İşleme +1: 2. Arka Planı, Bileşenleri, Pazar Payı ve Zorlukları

Önceki yazımıza sığmayan, teknik detaya inmeden önce sizlerin okuyarak alan hakkında daha fazla bilgi edinmenizi istediğimiz bazı konuları bu yazımızda tamamlamaya çalıştık. Keyifli okumalar…

1.Doğal Dil İşlemenin Arka Planı

Burada yer alan ifadeler uzmanlığımızın dışında seviyeler olması sebebiyle sizlere yanlış bilgi vermemek adına, bazı ifadeleri olduğu gibi koymayı tercih ettik. Bunları da kaynaklarda belirtmeye çalıştık. Daha fazla ayrıntı isteyenlerin kaynakçaya müracaat etmesini öneririz.

Fonetik (Phonetics) :  Fonetik, konuşulurken, dil, gırtlak, ses telleri, damak, dişler ve dudaklar ile çıkarılan sesleri ve bu seslerin dil ile olan ilişkilerini tanımlamak için kullanılan bir terimdir. Doğal dillerde anlamları ayırmak için kullanılan en küçük ses fondur (phon) dur. Fonetik terimi bu kökten gelmektedir.

Fon kavramı evrensel değildir ve her dilde farklı seslere kaşılık gelir. Farklı dillerdeki fonların tek ortak özelliği ayırıcı temel sesler olmalarıdır. Sesle ifade edilen dili, yani konuşmayı kaydetmek için yazı icad edilmiştir. Konuşmayı yazı ile ifade etmek için fonları harflerle eşleştirmek gerekmektedir. Bazı dillerde, örneğin Türkçe ve Japonca da, sesbirimler doğrudan harflere karşılık gelmektedir. Bu tip dillere fonetik diller denir.İngilizce, Almanca, Fransızca gibi dillerde ise Fonlar harflere kaşılık gelmezler. Bu yaklaşımın yerine uluslararası olarak geçerliliği olan fonetik alfabe fonları(ses birimlerini) ifade etmek için kullanılır. [1]

Fonoloji (Phonology) : İnsanların dili kullanırken ne gibi sesler kullandıklarını ve dili meydana getiren ses birlikteliklerini inceleyen safhadır.

Morfoloji (Morphology) :  Kelimelerin yapılarını inceler

Sentaks (Syntax) : Bir cümle oluşturmak için kelimeleri düzenlemeyi ifade eder. Aynı zamanda kelimelerin cümle ve cümle içindeki yapısal rolünün belirlenmesini de içerir.

Semantik (Semantics) : Cümle yapıları ile ilgilenir. Edimbilim (Pragmatics) ise dilin kullanıldığı bağlamı inceler.

2.Doğal Dil İşlemenin Bileşenleri

Dil bilgisi ve Dilbilimin alt dallarını ele aldığımıza göre artık Doğal Dil İşlemenin bileşenlerine de değinmeliyiz. Doğal dil anlama (NLU) ve doğal dil oluşturma (NLG) üzerine ele aldığımız 2 bileşen doğal dil işleme alanını oluşturmaktadır.

NLU (Doğal Dil Anlama)(Natural Language Processing):

Doğal dil işlemenin ilk gelişen alanıdır. Bir önceki yazıda bahsettiğimiz üzere, 1960’larda bilgisayarların gelişmesi ile metin, ses gibi verilerin yapay zekâ ile anlamlandırılması olarak adlandırılabilir. Dilin farklı yönlerinin incelenmesinde de kullanılmaktadır. Alex’a, Siri gibi yardımcı dijital asistanlar bunu kullanmaktadır.

NLG (Doğal Dil Üretme)(Natural Language Generation):

Verilerden anlamlı ifadeler, cümleler ve içerik üretme sürecidir.  Hikâyeler oluşturabilir, anlatabilir,

makaleler yazabilir. Birçok kurum bu teknolojiyi büyük oranda benimsemiştir.

3.Pazar Boyutu

ŞOK! ŞOK! ŞOK!

Bu kadar bilgiden sonra haber niteliğindeki konulara da değinmeden geçmek istemedik.

2019’da 10.93 milyar dolar olan NLP Pazar’ı 2025 34.80 milyar dolar olması bekleniyor.

Ayrıca 2020 yılına kadar Chatbotların küresel çapta kuruluşlara 8 milyar doların üzerinde tasarruf sağlayacağı tahmin ediliyor.

Pek çok endüstri uzmanı, tüm işletmelerin% 25’inin 2020’nin sonuna kadar müşteri hizmetlerine NLP teknolojilerini kullanan bir chatbot veya sanal müşteri asistanı dahil edeceğini iddia ediyor.

Artan nüfus, sosyal medya ağlarının kullanımının artması ve son olarak ta pandemi ile beraber, insanlar düzenli veya düzensiz, eskisine göre daha fazla yazılı metin ortaya çıkarmaya başladı. Buna ek olarak, görüntü işleme ve ses algılama teknolojilerinin gelişmesi ile de bu ortamlardaki yazıların algılanması, seslerin yazıya dönüştürülmesi kolaylaştı. İşte bu ve daha fazla sebepten dolayı NLP’nin önü çok açık.

Zengin içeriğiyle çok faydalı olabilecek bu raporu okumanız için buraya bırakıyoruz.

https://www.mordorintelligence.com/industry-reports/natural-language-processing-market

4.Genel Zorluklar

Ana dilimizde anlamak, konuşmak ve yazmak her ne kadar kolay gibi görünse de, yeni bir dil öğrenmek,  edindiğimiz dilllerde girdi almak ve çıktı üretmek karmaşık bir süreçtir. Buna yabancı dili ne gibi süreçler atlatarak öğrendiğimizi veya öğrenemediğimizi örnek olarak verebiliriz.

Gündelik dilde bile zamana ve mekana göre değişen birçok kelime ve durum ifadesi vardır. Doğal dili anlama, doğal dilde düşünebilme ve çıktı üretebilme süreci beyin içinde bu kadar karmaşık bir yapıya sahipken, bunu sadece 0 ve 1’lerden anlayan bilgisayara anlatmak ve anlamlı sonuçlar elde etmek tabi ki de kolay değildir.

NLP alaycı konuşmaları, deyimleri, mecazları kolayca algılayamaz. Bu konular genellikle kullanılan kelimelerin ve kullanıldıkları bağlamın anlaşılmasını gerektirir. Bu saydıklarımızı soyut ifadeler başlığı altında toplayabiliriz aslında. Bilgisayarların hayalgücünün olmadığını düşündüğümüzde bunu anlamak kolay olacaktır. Onlar somutlar, biz de onlara somut davranmalıyız 🙂

Başka bir örnek olarak, bir cümle, konuşmacının vurguladığı kelimeye bağlı olarak anlamını değiştirebilir. NLP, dilin ve insanların onu kullanma şeklinin sürekli olarak değiştiği gerçeği karşısında da zorluk çekmektedir.

 

NLP deki diğer zorluklara örnekler vermek gerekirse;

Kuralsız ve Anlamsız Konuşmalar:

Birçoğumuz günlük hayatta dil kurallarını kullanmayız. Bu da mesajlaşırken, konuşurken oluşmuş verilerin bilgisayar ortamında işlenmesinde büyük sorunlar yaratmaktadır çünkü bu günlük konuşmamız çok büyük hızda değişmektedir de. Öyle ki 2000’li yıllarda doğmuş nesil 7 sene önce ‘uff tmm çkta önmli dgl .s .s’ diye mesaj atardı. Ya da bölgelere göre değişik konuşma tarzı ve ağızlar. Örneğin;

  • Hocam böön ders var?
  • Nabün la?
  • Gelmeecem.

gibi konuşmalarımızı bilgisayarın algılaması zordur.

Muğlaklık(Belirsizlik): Birden fazla olasılığın olabileceği durumlar, birden fazla anlamı olabilecek kelimeler(eş sesli).

Bu durumlarda ortama göre hangi cevabın doğru olabileceğini bulmak bir bilgisayar için büyük bir sorundur. Özelikle az verinin olduğu durumlarda çözülmesi zor bir problem, meydan okumadır.

Örnek Cümleler:

  • Çorbayı porselen kaselere koyun.
  • Bizim köydeki koyunların rengi siyah.

Cümlelerde görüldüğü gibi aynı kelimeler farklı anlamlarda kullanılmıştır.

Eş Anlamlılık: Çoğu zaman birbirlerini yerine konulabilen kelimeler, öbekler.

Çoğu zaman birbirleri yerine kullanılabilen bu ifadeler, bazı zamanlarda birbirleri yerine kullanılamazlar ve böyle işlemler gerçekleştiğinde anlamı yanlış ifadeler ortaya çıkarırlar.

Bu sorunu, eş anlamlı kelimeleri birbiri yerine kullanmayalım diyerek çözmek isteyebilirsiniz, ancak daha kompleks, büyük ve üst düzey projelerde bunların kullanılması ve analizinin yapılması gerekebilir.

Örnek: Eş Anlamlılar : Siyah ve Kara

  • Kara kaşlı kara gözlü (doğru)
  • Siyah kaşlı siyah gözlü (yanlış)

Özdeşlik Çözümleme: İşlem yapılan metin içerisinde aynı varlığa gönderme yapan tüm ifadeleri bulma işlemine denir.

Derin Öğrenme’nin NLP alanında eski yöntemlere göre daha iyi sonuçlar vermesi, bu konu için de umut ışığı olmaktadır.

Örnek:

  • Ali Bey gittiği ülkelerde fotoğraf çekmeyi çok severdi. O bunu adeta bir görev bilinciyle yapardı.
  1. cümlede “O” zamiri ilk cümledeki “Ali Bey” yerine kullanılmıştır. 2.cümleyi, ilk cümle olmadan analiz ettiğimizde bu durumun yakalanması söz konusu olamaz. Bu da bilgisayar için büyük bir sınavdır.

Çok fazla uzatmamak için son bir örnekle bu konuyu şimdilik kapatmak istiyoruz.

Son örneğimiz ise mesaj atan kişilerin duygularını az da olsa gösterebilmek için gün içerisinde defalarca kullandığı emojiler.

Emojiler, mesajların o sessiz duygusuzluğunu, üzerlerinden bir nebze de olsa almak için geliştirilmişlerdir. Bunu da siz değerli okuyucularımızdan merak edenler için araştırma konusu olarak bırakıyoruz 🙂

5.Türkçe deki Zorluklar

Köken bakımından dil ailelerini özetleyen bir görsel.

Türkçe, 85+ milyon konuşanı ile dünyada 20’nci sırada yer alıyor. Türk dilleri ise yaklaşık 12 milyon kilometrekarelik alanda yaklaşık 220 milyon insanın konuştuğu diller olarak öne çıkıyor.

Sondan eklemeli ve biçim bilimsel yönden çok zengin bir dil olan Türkçe, yapısı itibari ile doğal dil işleme alanında üzerinde en çok çalışılan dil olan İngilizceden çok farklı. Bu nedenle İngilizce üzerine geliştirilen yeni teknikler Türkçeye doğrudan uygulanmaya çalışıldığında İngilizcede gösterdikleri başarımları gösterememektedir.

İlerleyen yazılarda örnekler ile göstermek istediğimiz bu konuya, bu yazıda da değinmeden geçmek istemedik. Ural-Altay dil ailesinden gelen, sondan eklemeli ve birçok dilden esinlenerek oluşturulan türkçe’nin zorluklarına kısaca bir bakalım.

1-Sondan Eklemeli bir dil olması.

Sondan eklemeli diller, kelime köklerinin değişmeyip sonlarına veya başlarına ekler konarak farklı kelimelerin türetebildiği diller. Bu tür dillerde her bir hece, kelime anlamını değiştiren bir görev görebilmektedir. Türkçe, Fince, Japonca, Korece, Macarca gibi diller morfolojik olarak bu gruba dahildir.

Türkçe sözlüklerinde ingilizce, almanca gibi batı dillerinden az, arapça, farsça gibi tarihli dillerden çok daha az kelimeye sahipken, sondan eklemeli (post-fix) bir dil olması sebebiyle bu eklerin, kelimelerin sonlarına gelmesi sonucunda sayısız kelime oluşturma imkanı tanıyor bizlere. Gerçekten de belli ifadeleri batı dillerinde söylemek için çok standart kalıplar varken türkçe’de kelimelerin son eklerini düzeltmekle yıllarınızı harcayabilirsiniz.

2-Cümle Yapısı

Dünya geneline baktığımzda Doğal Dil İşleme alanında çok sayıda çalışma var. Öncü dil ise İngilizce. Fakat İngilizce üzerinde yapılan bu kadar çalışma, ona benzer dilleri olumlu yönde etkilerken, Türkçe gibi cümle yapısı farklı olan dilleri etkilememekte ve İngilizce için geliştirilen tekniklerin uygulanamamasına yol açmakta. Tabi ki tek sebep cümle yapısının farklı olması değil ancak en önemli sebeplerden biri de bu.

Ek olarak diğer dillerden çok etkilenmiş olmasıyla birlikte bazı sözcüklere uygulanan kuralların bazısında uygulanamamasını örnek olarak verebiliriz.

Bu yazımızda sizin için Doğal dil işlemenin terminolojisini, bileşenlerini, pazar boyunu, türkçedeki ve dünyadaki zorluklarını anlatmaya çalıştık. Bundan sonraki yazılarımız ise artık Doğal Dil işleme’nin daha çok teknik tarafına eğileceğiz. Takipte kalın !

Serinin Diğer Yazıları;
Doğal Dil İşlemeye Giriş
Doğal Dil İşleme ve String İşlemleri

Yazarlar: Mustafa Selim ÖZEN, Saygın YILDIZ

Kaynaklar:

Doğal Dil İşlemeye Genel Bakış.

Doğal Dil İşlemenin Piyasa Değeri.

Doğal Dil İşleme ve Yapay Zeka.

DilBilim Nedir? (Pdf)

Dil Ailelerini ve Dil Ailelerini Anlatan Resim.

Doğal Dil İşleme Çalışmalarında Karşlaşılan Zorluklar.