Optimal veri nedir?

Veri Bilimi ve Makine Öğrenmesi için Optimal veri nedir? Nereden nasıl elde edilir?

Veri Bilimi ve Makine Öğrenmesinde Optimal yani “En Uygun” veri nedir?

Tabi burada uygunluk kavramını irdelemek gerekir öncelikle. Bir verisetin uygunluğu ya da uygunsuzluğu hangi metrikler üzerinden ölçülebilir. Ben çok temelde aşağıdaki 4 maddeyi inceleyerek elimdeki verinin optimal olup olmadığına karar veriyorum.

  • Veri setinin kaç satır kaç sütun olduğu
  • Sütunlar arasında bir ilişki olup olmadığı
  • Eksik değerler olup olmadığı
  • Aykırı değerler olup olmadığı

Verinin Fiziksel Boyutları

Veri setleri değerlendirirken iç güdüsel olarak ilk önce kaç satır kaç kolon olduğuna bakarız. Çünkü öncelikle bizi ilgilendiren elimizin altındaki işlem gücü ile bu veri seti işleyip işleyemeyeceğimizdir.

Demek ki veride bir optimallikten söz edecek isek ilk bakacağız yer kendi işlem kapasitemiz yani kullandığımız bilgisayarın gücü. Bakmayın bilgisayar dediğime sadece masaüstü ya da dizüstü bilgisayarınızdan bahsetmiyorum. Belki de bir şirketinizin bir sunucusu var belki de bir bulut hesaplama aracı kullanıyorsunuz. Her ihtimalle veri işlemenin bir maliyeti olduğunu unutmayın. Dolayısı ile verinin küçüğü bizim için daha makbuldür.

Optimal Veri için veri set kaç sütun olmalı?

Öncelikle bunun için çalışan bir formül olmadığını belirtmek isterim. Burada dikkat edilmesi gereken şey eldeki sütunlar(bağımsız değişken ya da öznitelik) eğer bir hedef değişken(bağımlı değişken) içeriyor ise bu hedef değişkendeki değişimi açıklayabiliyor olması gerekir. Yani hedef değişkendeki değişim için elde kolonlardan farklı bir desen elde edilebiliyor olması lazım. Bu durum elbetteki sadece kolon sayısına bağlı değildir.

Optimal Veri için veri set kaç satır olmalı?

Optimal veri için bir önemli konu da satır(örnek ya da gözlem) sayısıdır. Elimizdeki veri setin modellemeye çalıştığımız olayın gerçek dünyada farklı şekilde ortaya çıkabileceği her farklı durumu içermesi bizim için en istenilen şeydir. Böyle bir durum olsa idi işimiz ne kadar kolay olurdu değil mi?

Fakat bu çok mümkün değildir. Çünkü olayların farklı ortaya çıkma durumlarını etkileyen bildiğimiz ya da bilmediğimiz sayısız etken olabilir. Bilmediğimiz ya da gözlemleyemediğimiz durumlar için örnek toplamak mümkün olmayacağından biz toplayabildiklerimiz ile elmizdeki probleme bir çözüm bulmaya çalışırız.

Burada bir tercih yapmak gerekiyor;

  • ya gerçek dünyayı en iyi yansıttığını düşündüğümüz seçilmiş ve düzenlenmiş bir veriset kullanacağız,
  • ya da karşımıza çıkan tüm örnekleri toplayıp elde ettiğimiz veri setin gerçek dünyayı  erişemediğimiz farklı ortaya çıkma durumları dışında temsil ettiğini kabul edip kullanacağız.

Eğer birinci seçeneği seçmek istiyorsak burada Örnekleme Teorisi üzerinden ilerlememiz gerekiyor. Yani hazırladığımız verisetin bir örneklem olduğunu kabul edip bu örneklem üzerinden kitle parametrelerinin tahmin edicilerini belirlememiz gerekir. Tabi burada iyi bir istatistik alp yapısı gerekli, bu çalışmaları eksiksiz yapmak için.

İkinci seçenek ise bizi Makine Öğrenmesi tekniklerine götürüyor. Eldeki veri ile bir Makine Öğrenmesi modeli inşa ederiz ve veri set içerinde eksik olan farklı ortaya çıkma durumlarını bu modelin eldeki örnekler üzerinden tahmin edeceğini var sayarız. Burada modelimiz elde edilmeyen farklı durumların bir kısmı için doğru çalışsa da bir kısmı için doğru sonuç vermeyecektir. Burada doğruluk (accuracy) ya da R kare parametrelerimizin gerçek test ortamında iyi sonuçlar vermesi için farklı teknikler uygulanır veri set üzerinde. Örneğin veriye gürültü katmak gibi.

Sütunlar arası ilişki

Verilerimizi gerçek dünyadan topladığımız zaman sütunlar arasında bir ilişki olmasını bekleriz. Bu ilişki topladığımız verilerin; belli nesne, olay ya da bunların arasındaki ilişkilerin özellikleri olmasından kaynaklanır.

Örneğin “yaş” ve “kazanç” diye iki özniteliğim olsa idi; normal hayat şartları içerisinde aralarında bir pozitif ilişki olmasını beklerdim. Çünkü “bu içinde yaşadığımız hayat içerisinde de gözlenen bir durumdur” diye düşünürdüm. “Yaş arttıkça gelir artar.” Fakat bu genellemenin işe yaraması için eğitim, yaşanılan yer gibi faktörlerinde birbirine benzer olmuş olması gerekir. Fakat rastgele toplanan örnekler içerisinde bu benzerlik durumu sağlanamaz. Dolayısı ile bu farklı durumlar iki değişken arasındaki ilişkiyi zayıflatır.

Eğer topladığım veri içerisindeki sütunlar arasındaki ilişki pozitif veya negatif anlamda çok kuvvetli ise verilerimi toplarken rastgelelik varsayımının yanlış olabileceği kuşkusu ortaya çıkar. Bu durumda bu kuşku istatistiksel olarak test edilmeli ve güçlü bir ilişki var ise değişkenlerin arasında bu değişkenlerden birini ver setten çıkartmam gerekir.

Eksik değerler

Veri setim içerisinde eksik değerlerin olması durumu oldukça can sıkıcı ve çözülmesin bazen çok zor olduğu bir durumdur. Bakmayın siz uydurma Veri Bilimi/Makine Öğrenmesi yazı/video/kitaplarına öyle yerlerine ortalamayı atayıp kurtulamazsınız bu problemden.

Burada eksik veri içeren sütün ya da satırların veri setinden çıkarılması bir çözüm fakat sildiğimiz her satır her sütun farklı ortaya çıkma durumlarından birini ya da bir faktörünü analizinizin dışarısına çıkarmanız demektir.

Eksik değerleri doldurmak ise eksik değerler yerine koyduğunuz verilerin özniteliklerin(sütunların) dağılımını bozabileceği tehlikesini ortaya çıkartır. Bu elde ettiğiniz sonucu tartışmalı kılar.

Burada öncelikle eksik verilerin tamamlanması mümkün ise tamamlanması gerekir. Tamamlanamıyor ise bu verilerin bir kısmının silinmesi bir kısmınında çok değişkenli fonksiyonel yaklaşımlarla doldurulması gerekir. Burada elbetteki nümerik verilerden bahsediyorum kategorik eksik verilerinde doldurulması büyük sıkıntılar içerir.

Eksik veriler konusunu detaylı incelemek için şu yazıma bakabilirsiniz.

Aykırı Değerler

Aykırı değerler istatistiki ve Makine öğrenmesi modellerini yanıltabilecekleri için veri setinden çıkarılmaları gerekir.

Bu konuda detaylı bilgi içinde şu yazımı inceleyebilirsiniz.

 

Data Science Earth

Data Science Earth ekibi, üst düzey Veri Bilim çözümleri üretmek amacı ile toplanmış akademisyenler ve uzmanlardan oluşmaktadır. Öncelikli olarak veri bilincini geliştirmeyi ve küreselleşen rekabet ortamında verinin gücünün doğru kullanılmasını sağlamayı amaçlamaktadır.

Sponsor

QuestionPro 35 farklı soru seçim özelliği ile anket çalışmalarımıza güç katmaktadır.