Numerai’de Veri Bilimcisi Olmak

Veriler, Yapay Zeka ve Veri Biliminin gelişmesiyle birlikte hemen her alanda kullanılır hale gelmektedir. Eğitim, sağlık, iş süreçleri, finans, satış, pazarlama ve daha birçok alanda oluşan ve kullanılan veriler bulunmaktadır. Bu yazıda, veri çeşitlerinden biri olan ‘finansal verilerin’ Makine Öğrenmesi probleminde kullanılması için oluşturulmuş bir veri bilimi sisteminden bahsedeceğim. Numerai oluşturduğu verisetiyle birlikte hem veri bilimcilere hem de verileri elde ettiği şirketlere hizmet etmektedir. Tahminlenmesini istedikleri hisse senedi değerlerini tüm veri bilimcilerle açık ve eşit olarak paylaşıyorlar.

Yazının sonunda aşağıdaki sorulara cevap bulacağız:

Numerai nedir?

Numerai’de nasıl Veri Bilimcisi olunur?

Numerai’nin sunmuş olduğu veriseti yapısı nasıldır?

Problemin çözümünde hangi yöntemler kullanılmaktadır?

Numerai Nedir?

Numerai, Ekim 2015’te Güney Afrikalı girişimci Richard Craib tarafından kurulmuş yapay zekâ tabanlı bir finansal yatırım şirketidir. Sistemlerini “finansal riskten korunma fonu” olarak açıklamaktadırlar. Veri Bilimcileri için özel olarak tasarlanmış kendi dağıtılmış araştırma platformuna sahip dünyanın ilk riskten korunma fonudur. Oluşturdukları kripto para birimini (NMR), dünyanın her yerinde kendileri için çalışan on binlerce anonim veri bilimcisini en iyi tahmin modellerini oluşturmak için teşvik etmek amacıyla kullanmaktadırlar. https://numer.ai/tournament

Numerai çeşitli şirketlerden elde ettiği verilere, bünyesindeki veri bilimcileri sayesinde, bir çeşit normalleştirme ve standartlaştırma uygulamaktadır. Bunun sebebini verinin güvenliği ve gizliliğiyle beraber önyargısız sonuçlar alabilmek olarak açıklamaktadırlar. Yani kısaca elimizde büyük bir veri bilimi problemi bulunmakta ama veri hakkında bilgimiz minimum düzeydedir.

Numerai Veri Bilimi Turnuvası

Şirket problem çözümündeki rekabeti artırmak amacıyla haftalık olarak Veri Bilimi Turnuvası düzenlemektedir. Haftalık olarak paylaşılan verilerle birlikte oluşturulan modeller metamodel tarafından başarılarına göre sıralanmakta ve ödüllendirilmektedir. Dağıtılan ödül numerai’nin etherium tabanlı oluşturduğu “NMR” kripto para birimindedir. Numerai’yi ilk keşfettiğimde 5 dolar olan 1 NMR karşılığı şu sıralarda 21 dolar değerindedir.

Numerai Veriseti Yapısı

Veriseti, numer.ai internet sitesinde her veri bilimciye eşit ve aynı anda paylaşılıyor. Veriseti Makine Öğrenmesi problemlerinde hazır olarak kullanabilecek format ile paylaşılmaktadır. Haftalık olarak paylaşılan Train ve Test verisi olarak iki farklı veriseti paylaşılan haftanın turnuvasında kullanılıyor. Elde ettiğimiz sonuçları, o haftanın sonuna kadar ya sitedeki “upload csv” kısmından ya da ‘api’ler aracılığıyla numerai’ye ulaştırıyoruz.

Verisetimizde 310 öznitelik bulunuyor. Öznitelik, veri bilimi problemlerinde elde etmek istediğimiz hedef değerimizi etkileyen niteliklere verilen isimdir. Yukarıda belirttiğim gibi bu özniteliklerin tam olarak karşılığını bilemiyoruz. Problemin can alıcı noktası da burası fikrimce. Öznitelikler 6 gruba ayrılmış durumda bu sebeple istatistikte korelasyon hesaplamaları ve öznitelik mühendisliği ile bu gruplamanın mantığı ve veri yapısı incelenebilir. 500 binin üzerinde train ve 1.5 milyon üzerinde test verisi bulunmakta ve her hafta yeni verilerle test verisi güncellenmektedir.

Öznitelik ve hedef değerlerimiz [0,1] aralığında sürekli değerler alıyor. Bu değerler numerai tarafından standartlaştırılmış ve normalleştirilmiş değerlerdir. Aşağıda veriye dair temel kısımlar maddeleştirilmiştir:

•Train ve Test Veriseti

•Veriseti Büyüklüğü: 501.809 satır eğitim, 1.544.871 satır test verisi

•310 öznitelik 6 gruba ayrılmıştır.

•Intelligence, Charisma, Strength, Dexterity, Constitution, Wisdom

•Eğitim verisetinde 120 farklı dönem, Test verisetinde 300’den fazla dönem bulunmaktadır.

Numerai Veriseti Yapısı

Problemin çözümünde hangi yöntemler kullanılmaktadır?

Problemin tanımını “Hisse Senedi Değerlerinin Tahminlenmesi” olarak verebilirim. Bu türden finansal tahminleme problemlerinde genelde kullanılan 2 yöntem bulunuyor. Sezgisel Algoritmalar ve Makine Öğrenmesi Algoritmaları. Kendi çalışmamda makine öğrenmesi yöntemi ve algoritmalarıyla sonuca ulaşmaya çalıştım. Siz tabii ki yapay sinir ağları, genetik algoritma gibi sezgisel yöntemlere de başvurabilirsiniz. Özellikle kullanacağımız Python ve R dillerinin makine öğrenmesi için özelliştirilmiş kütüphaneleri varken sezgisel yollardan ilerlemek vakit alacaktır. Bu kütüphanelere örnek olarak da ‘scikit-learn, numpy, pandas’ vs. verilebilir.

Problem üzerine çalışan veri bilimciler Python veya R programlama dillerini kullanıyorlar. İki programlama dilinin de kendine özgü özellikleri ve kolaylıkları bulunmaktadır. Veri Biliminin uygulanmasında en çok kullanılan diller de zaten Python ve R olarak bilinmektedir.

Problemin çözümünde makine öğrenmesi yöntemini kullanacaksak her problemde olduğu gibi problem tipini belirlememiz gerekiyor. Bunu belirlemeden önce makine öğrenmesi yöntemlerine bir göz atalım.

Makine Öğrenimi yöntemleri temel olarak iki kısma ayrılıyor; Gözetimli Öğrenme ve Gözetimsiz Öğrenme yöntemleri. Gözetimli Öğrenme, içerisinde etiketli eğitim verisi bulunan problemlerde kullanılır. Daha detaylı olarak, tahmin yapabilmek için hedef değişkeni belli olan (etiketlenmiş) geçmiş verilerden yararlanarak oluşturulan tahminleme modeline hedef değişkeni belli olmayan verilerin verilmesiyle bu sonuçların tahmin edilmesidir. Etiket, geçmiş verilerde bilinen ve tahmininde bulunduğumuz verilerde tahmin sonucumuz olacak hedef değişkenlerdir.

Gözetimli Öğrenme yöntemi, tahmin edeceğimiz hedef değişkene göre sınıflandırma ve regresyon olarak iki bölümde ele alınmaktadır. Hedef değişken ikili değerler (0 veya 1 gibi) alıyorsa problem, sınıflandırma problemi olarak ele alınır. Hedef değişken belli değerler arasında sürekli bir değer (örneğin [0,1] aralığında 0.4) alabiliyorsa problem regresyon problemi olarak incelenmektedir. Gözetimsiz Öğrenme ise etiket bilgisi mevcut olmayan verilerin hangi sınıfa dahil olabileceğinin (clustering) araştırıldığı makine öğrenimi yöntemidir. Bu yöntemde ise problemimiz bir kümeleme problemi olmaktadır.

Ele aldığımız problem, etiketli eğitim verisi içermektedir. Bu sebeple kullanacağımız yöntem Gözetimli Öğrenme yöntemi olacaktır. Eğitim verisinde bulunan hedef değişken değerlerimiz 1 ve 0 arasında sürekli değerler almaktadır. Problem türümüzü de açıkça regresyon problemi olarak açıklayabiliriz.

Bu yazımda finansal makine öğrenmesi problemlerine güzel bir örnek olan Numerai’yi inceledim. Yazı dizisinin devamında hem problemi derinlemesine inceleyeceğiz hem de çözümü için farklı yöntemleri kullanacağız. Şimdiden keyifli okumalar diliyorum.

Data Science Earth

Data Science Earth ekibi, üst düzey Veri Bilim çözümleri üretmek amacı ile toplanmış akademisyenler ve uzmanlardan oluşmaktadır. Öncelikli olarak veri bilincini geliştirmeyi ve küreselleşen rekabet ortamında verinin gücünün doğru kullanılmasını sağlamayı amaçlamaktadır.

Sponsor

QuestionPro 35 farklı soru seçim özelliği ile anket çalışmalarımıza güç katmaktadır.