Karar Ağaçlarında Algoritma Seçimi

Şengül Gedleç ve Halil Burak Yılmaz ‘ın beraber hazırladığı “Karar Ağaçlarında Algoritma Seçimi” konulu çalışmayı görebilirsiniz burada.

Karar Ağaçlarında Algoritma Seçimi

Algoritma, mevcut bir problemi çözümlemek ya da belli bir amaç doğrultusunda belli bir düzende mantıksal adımlar içeren bir çözüm yoludur. Yani, bir problemi çözmek için uygulanacak adımların çözüm yoludur. Veri madenciliği çalışmalarında algoritmaların temel kullanım amacı milyonlarca veri yığını arasında anlamlı örüntülere ulaşmayı sağlayacak kuralları oluşturmasıdır. Algoritmaların seçimi başta uygulanacak modelin ve veri setinin özelliklerine bağlıdır. Algoritmaların seçimi model başarısını önemli ölçüde etkilemektedir. Bazı algoritmalar sadece nicel veriler üzerinde bazıları ise sadece nitel veriler üzerinde de çalışmaktadır. Bazı algoritmalar 0 ve l değerlerinden oluşan veri setleri üzerinde çalışmaktadır. Bir yapay sinir ağı çalışmasında nitel değişkenin var-yok şeklinde değerlendirilmesi ya da bir karar ağaçları çalışmasında nicel bir değişkenin kategorilere ayrılması modelin performansını arttırmaktadır. Bu örnek durumlardan hareketle, algoritmaların yöntemlere göre avantajları ve dezavantajları mevcuttur.

Karar ağaçları algoritmaları; AID, CHAID, CART, ID3, C4.5, C5.0, MARS, E-CHAID, SLIQ, SPRINT  ve QUEST  şeklindedir. Karar ağaçları algoritmaları kök, düğüm ve dallanma kriterlerinin seçiminde izlenen yollar ile birbirinden ayrılır. 

AID

1970’li yılların başlarında Morgan ve Sonquist adlı uzmanlar tarafından ileri sürülen AID algoritması, karar ağacı tabanlı hem ilk algoritma hem de ilk yazılımdır. AID, en iyi tahmini gerçekleştirmeye ve en kuvvetli ilişkiye sahip bağımsız değişkeni bulmaya dayanıyor. AID değişken değerlerine göre ikiye ayrılır. Bu süreç bölünmeler sonlanıncaya kadar devam etmektedir. Bağımsız değişkenlerin türleri sınıflayıcı ve sıralayıcı özellikte olabilmektedir. Sonuçları ikli ağaç yapısında sunun AID’nin regresyon analizinden farkı değişkenlerin arasından anlamlılığı hakkında güvenilir bir bilgi vermemesidir.

CHAID

Sınıflandırma ve regresyon amacı taşıyan ve istatistik tabanlı olan CHAID algoritması G. V. Kass tarafından 1980’de geliştirilmiştir. CHAID ile oluşturulacak bir regresyon denklemi normal dağılım, doğrusallık ve homojenlik gibi bilinen klasik varsayımlardan ayrı tutulmaktadır. Çünkü güçlü bir iterasyon algoritmasıyla bütün olan anakütle kararlı alt düğümlere bölünebilmektedir. Bu durum verilerin dağılımında normallik ve homojenlik varsayımlarını sağlayabilmektedir. Bu nedenle CHAID parametrik ve nonparametrik ayrımını kaldırmakta ve yöntem algoritmasında istatistiksel olarak yarı parametrik bir özellik taşımaktadır. CHAID algoritması, bağımsız değişkenlerin, birbirleriyle olan ilişki, etkileşim ve kombinasyonlarını bulan bir tekniktir. Dolayısıyla değişkenler arasındaki ilişkiler de test edilmektedir. Bu yapılan testlerle değişkenler arasındaki bağımlılık durumları da incelenmektedir.

CHAID algoritması dallanma kriterinde bağımlı değişken kategorik ise ki-kare testine, sürekli ise F testine başvuru yapmaktadır. Algoritma, bağımlı değişkeni baz alarak istatistiksel anlamda homojen sayılabilecek değerleri bir araya toplamakta ve diğer kalan değerleri ise heterojen olarak kabul etmektedir. Sonrasında karar ağacında oluşan ilk dal yapısına göre en uygun ön kestirici değişken belirlenir. Her bir düğüm noktası belirlenen değişkene ait homojen değerlerden bir grup oluşturur. Bu süreç bölünmeler sonlanıncaya kadar devam etmektedir.

Kategorik ve sürekli tüm değişken tipleriyle çalışabilmesi ve ağaçtaki her düğümü ikiden fazla alt gruba ayırabilmesi ile CHAID algoritması çok tercih edilen bir algoritma olmuştur. CHAID algoritmasında sürekli olan değişkenler otomatik olarak analizin amacına uygun bir şekilde kategorize edilmektedir. CHAID, ilişki düzeyine göre farklılığa rastlanan grupları ki-kare testiyle ayrı ayrı sınıflamaktadır. Bundan dolayı ağacın yaprakları sadece ikili değil, verideki farklı yapı sayısı kadar dallanmaktadır. Bu algoritmanın ki-kare ismini almasının nedeni algoritma içinde birçok çapraz tablonun kullanılması aynı zamanda istatistiksel önem oranlarıyla çalışmasıdır. Değişkenler arasındaki ilişki, doğrusal yapıdan daha karmaşıksa veride gizli kalan bu ilişkiyi bulmak amacıyla verinin belli kısımlarını eleyen CHAID algoritması kullanılır. Modelin gerçek yapısal formunda belirlenen varsayımları dikkate almadığı için ikili ve multinominal lojistik regresyon modellerine alternatif bir parametrik olmayan ağaç diyagramı olarak kullanılabilir. CHAID analizi bağımlı değişkendeki varyasyonu bölümler içi minimum, bölümler arası maksimum olacak şekilde farklı alt gruplara veya bölümlere tekrarlı olarak parçalayan bir tekniktir.

 

CHAID ve CART Algoritmalarının Karşılaştırması

CHAID algoritması CART algoritmasına benzemekte ancak veriyi bölümlere ayırırken farklı bir yol kullanmaktadır. CHAID en uygun bölümleri seçmek için diğer algoritmalar da kullanılan Entropi ya da Gini indeks kriteri yerine ki-kare testi kullanılmaktadır. CART ikili ağaçlar yapısı üretirken, CHAID çoklu ağaçlar yapısı üretmektedir. CHAID algoritması veri setinde yer alan tüm değişkenlerin birbiri ile ilişkilerini ortaya çıkarmaktadır. Burada dikkat edilmesi gereken durum ise kategoriler birleştirilirken kullanılan anlamlılık (p) değeridir. Bunun için de bağımlı değişken türüne bakılmaktadır. Eğer bağımlı değişken sürekli değerse F testi, nominal kategorik değerse pearson ki-kare testi, ordinal kategorik değerse en çok olabilirlik testi kullanılmaktadır. Her birleştirilmiş kategori için de bulunan p değerinin anlamlılığına bakılır. Bu süreç anlamlı olmayan kategori birleşmesi bulununca son bulmaktadır.

CART

1984 yılında Breiman ve ark. tarafından çalışmalarında bir karar ağacı algoritması olan CART algoritması kullanılarak, literatüre kazandırılmıştır. Hem sınıflandırma hem de regresyon amacıyla kullanılan CART algoritması entropiye dayalı olup, dallanma kriterinin hesaplanmasında Twoing ve Gini tekniklerinden faydalanmaktadır. CART algoritması her adımda ilgili grubun, kendinden daha homojen olan iki alt gruba ayrılmasını sağlanmaktadır. Yani her dal ikili alt gruplara ayrılarak büyümektedir. Ayırma işleminde bağımlı değişken kategorik ise gini veya twoing, sürekli ise en küçük kareler sapmasından yararlanmaktadır. Bağımlı değişkene ait mümkün en homojen grupları üretmek için en iyi bağımsız değişken safsızlık ve değişim ölçülerindeki (gini, twoing, en küçük kareler sapması) değişkenliği kullanmaktadır.Tüm veri tipleri ile çalışabilen CART algoritmasında temel nokta, karar noktalarında ikili seçim ile birimlerin homojen sınıflar oluşacak şekilde ayrılmasıdır.

CART algoritması her değişken tipine uygulanabildiği için normallik, dönüşüm gibi işlemleri gerektirmemektedir. CART algoritması kayıp olan değerler için temsili bir değişken atayabilmektedir. Otomatik bir makine öğrenim yöntemi olan CART algoritması diğer çok değişkenli yöntemlere göre karmaşık yapılarda araştırmacıya göreceli olarak az sayıda girdi yeterli olmaktadır. Teorisi zamanla geliştirilen bu algoritma ile bir veri seti için ortaya çıkan farklı ağaç yapılarından çıkarsama yapılabilecek ağacın seçiminde dikkatli olunması gerekmektedir. Olasılık modeline bağlı olmadığında CART analizinin sonuçlarına güçlü testler uygulanamamaktadır.

Gini Ayırma Kriteri

Nitelik değerlerini iki parçaya ayrılarak bölümleme yapan gini kriteri, bölünme noktalarında 𝐺𝑖𝑛𝑖𝑠𝑎ğ ve 𝐺𝑖𝑛𝑖𝑠𝑜𝑙 değerlerini hesaplanmaktadır. Her bölümlemeden sonra da Gini değeri en küçük olan seçilmektedir. Amacı, her adımda en büyük veri kümesini oluşturmaktır. Bu şekilde en iyi bölünme gerçekleşmiş olmaktadır

Her j niteliği için, eğitim veri setindeki satır sayısı n olmak üzere Gini endeks değeri aşağıdaki gibi hesaplanmaktadır.

Twoing Ayırma Kriteri

Twoing ayırma kriteri tek bir sınıfı diğerinden ayırmak yerine, düğüme ait verilerin %50’sini içeren ve birbirine göre heterojen sınıflar oluşturmaktadır. Bu sebeple, Twoing kriteri Gini kriterine göre daha dengeli bir yapı sunarken, işlem süresi de uzamaktadır. Twoing yönteminde niteliklerin içerdiği değerler göz önüne alınarak eğitim kümesi aday bölünme olarak adlandırılan iki ayrı dala ayrılmaktadır. Bir t düğümünde sağ 𝑡𝑠𝑜𝑙 ve sağ 𝑡𝑠𝑎ğ şeklinde iki dal bulunur. Regresyon ağacı oluşturulmasında kullanılacak her bir veri sağ ve sol dala bölünmeye adaydır. Twoing kriterinde ilk aşama her bir aday için sağ ve sol taraftaki dalda bulunma olasılıkları hesaplanmasıdır. Olasılıkların her biri için açıklamalar aşağıdaki gibidir.

Yukarıda ifade edilen değerlere göre t düğümündeki s aday bölünmelerinin uygunluk ölçüsü aşağıda gösterilmektedir.

Bu işlem sonucunda bulunan en büyük uygunluk ölçüsü seçilmektedir. Bu uygunluk ölçüsüne göre kök düğümde oluşacak niteliğin hangisi olacağına karar verilmekte ve dallandırma işlemi yapılmaktadır. Ağacın aşağıya doğru tüm yapraklarına ulaşıncaya kadar aynı işlem tekrar edilmektedir.

En Küçük Kareler Sapması (LSD)

CART yönteminde hedef değişken bağımlı olduğunda yani regresyon ağacı sorunlarında kullanılan ve safsızlık fonksiyonuna dayalı bölme kriteri en küçük kareli sapma yöntemidir. Sürekli bağımlı değişkenler için kullanılan en küçük kareli sapma heterojenlik ölçüsüdür. Bu ölçü R(t), t düğümü için basit (ağırlıklandırılmış) düğüm içi varyansıdır ve düğüm için risk tahminine eşit olmaktadır.

ID3

J. Ross Quinlan tarafından 1986 yılında ID3 adlı bir karar ağacı algoritması geliştirilmiştir. Bu algoritma sadece ayrık yerlerde üzerinde çalışabilmektedir. ID3, sayısal öznitelikler veya eksik durumdale işlem yapmamakta ayrıca bir budama işlemi uygulamamaktadır. Temel olarak algoritma kategorik nitelikleri sınıflandırmaktadır.

C4.5

J. Ross Quinlan yayınladığı kitap ile “ID3 algoritmasının ileri bir sürümü olan C4.5 karar ağacı algoritmasına literatür kazandırmıştır. ID3 algoritmasının eksik yönlerini gidermek üzere Quinlan tarafından, 1993 yılında mevcuttur. ID3’e göre en büyük farkları sayısal ortamda üzerinde çalışabilmesi ve eksik verilerin işleyebilmesinden. C4.5 algoritmasının ID3’ten daha farklı bir ‘kazanım’ oranı içindir. ID3 algoritması kazanç ölçütünü kullanmaktadır. C4.5 algoritması bölünmüş bilgisi kavramıyla kazanç ölçütü seçmek hesaplanan kazanç oranını kullanmaktadır.

C5.0

J. Ross Quinlan tarafından C4.5 algoritması geliştirilerek, C5 algoritması elde edilmiştir. Kategorik hedef değişkenleri tahmin etmede kullanılan C5.0 algoritmasının C4.5 algoritmasına göre üstünlükleri daha hızlı olması, daha az bellek kullanması, daha kesin kurallar oluşturması, ağacın budanabilmesi, değişkenlerin ve yanlış sınıflandırma türlerinin ağırlıklandırılabilmesi ve ağacın oluşumuna katkı sağlamayan değişkenleri dışlayabilmesidir. Ayrıca, doğruluk oranını artırıcı bir yöntem olan boosting kullanılabilmektedir. Aynı zamanda hafızayı daha verimli kullanabilmekte, her iki algoritma sonuçları aynı olsa da biçim olarak bu algoritma ile daha düzgün karar ağacı elde edilmektedir. C5.0 algoritması daha küçük karar ağaçları oluşturabilir, verinin ayrıştırılması ve kirli verilerin iyileştirilmesinde daha etkilidir. Diğer yöntemlerden farklı olarak bilgi kazanımı (information gain) ölçütüyle ağacı büyütmektedir. Kayıp değerleri ağaç büyütme hesaplamalarında dikkate almamaktadır. C5.0 sadece sınıflandırma amacıyla kullanılmaktadır. C5.0 kayıp verilerin ve çok miktarda bağımsız değişkenin yer aldığı veri setlerinde oldukça sağlam tahminler sağlamaktadır. Bununla birlikte uzun öğrenme zamanına ihtiyaç duymamaktadır. C5.0 modellerinin anlaşılması ve yorumlanması da kolaydır.

ID3, C4.5 ve C5.0 Algoritmalarının Karşılaştırılması

J. Ross Quinlan, ID3, C4.5 ve C5 karar ağacı algoritmalarını makine öğrenmesi ve bilişim kuramına göre geliştirmiştir. Bu algoritmaların temeli, bir sistemdeki belirsizliğin değeri olarak tanım entropiye dayanmaktadır. Bu neden bu iki algoritma aynı sonucu neden. Aralarındaki tek fark, algoritmanın daha hızlı olması ve uygulama şeklinin daha özenli karar odalarında sunabilmesidir.

SLIQ

Mehta, Agrawal ve Rissanen uzmanlarının 1996 yılında geliştirdiği SLIQ algoritması, nitel ve nicel veri tiplerinde kullanılabilmektedir. Bu algoritma, dallanma kriterinin hesaplanmasında “Gini tekniği” nden faydalanmaktadır.

Sayısal verilerle işlem yaparken maliyeti azaltmak için ağacın oluşturulması noktasında önceden sıralama tekniği kullanmaktadır. En iyi dallara ayırma kriterini bulmak için ise SLIQ algoritmasında verileri sıraya dizme önemli bir faktördür. Burada kullanılan teknik ise, verileri sıraya dizme işlemini her düğümde yapmak yerine öğrenme verilerini ağacın büyüme aşamasının başlangıcında sadece bir kere yapılmasına dayanmaktadır.

SLIQ, önce genişlik ilkesiyle çalıştığı için aynı anda birçok yaprağı oluşturmaktadır. Bu algoritmanın öne çıkan özelliği ise hızlı olması ve iyi sonuçlar veren karar ağaçları üretmesidir.

SPRINT

1996 yılında Shafer, Agrawal ve Mehta tarafından geliştirilen SPRINT algoritması, entropiye dayanmaktadır. Bu algoritma, ağaç yapısında optimum dallanmayı sağlayabilmek için her bir değişkene ait verileri bir kez sıraya dizmekte ve ağaç yapısını bu şekilde oluşturmaktadır. Dallandırma kriteri olarak Gini indeksini kullanmaktadır. Büyük veri kümeleri için uygun olan bu algoritmanın ilk adımı tüm değişkenler için ayrı bir değişken listesi hazırlamaktır. Değişken sayısı kadar tablo oluşturulmakta ve her bir tabloda kullanılacak olan değişken, sınıf ve sıra numarası yer almaktadır. Farklı veri yapıları kullanılarak SLIQ algoritmasından ayrılmaktadır.

 

QUEST

1997 yılında Loh ve Shih uzmanları tarafından geliştirilen QUEST algoritması, dallanma sürecinde optimum bölünmeyi sağlayacak değişkene ve optimum bölünme sağlanacak noktanın karar verilmesine ayrı zamanlar ayırmaktadır. Bu yönüyle CART ve CHAID algoritmalarından ayrılmakta ve sınıflandırma modellerinde daha hızlı sonuç sağlamaktadır. Regresyon modellerinde bir karar ağacı uygulamasında açıklanan değişkenin sürekli olması durumunda bu algoritmadan yararlanılamamaktadır.QUEST tahmin edici, değişkenlerin kullanılıp kullanılmayacağına karar verirken istatistiksel testlerden yararlanmaktadır. Bağımsız değişken seçimi değişken kategorik ise ki-kare testi, sürekli ise F testi ile yapılmaktadır.

Ağacın dallanması sırasındaki ön yargılı seçimin daha genel hale getirilmesi ve hesaplama maliyetinin düşürülmesi amacıyla bu algoritma geliştirilmiştir. Bağımsız değişkenler sürekli ya da kategorik olabilir ancak bağımlı değişken kategorik olmalıdır. Algoritma da hedef değişken kategorik ve yansız ağacın önemli olduğu durumda, büyük ve karmaşık bir veri seti varsa ve ağaç ikili bölünmeyle sınırlandırıldığı durumlarda tercih edilmektedir. Algoritma her ayırma için her bağımsız ve bağımlı değişken arasındaki ortaklık Anova F testi ya da Levene testi ya da Pearson Ki-Kare değeri hesaplanarak bulunmaktadır. Değişken seçimi için minimum p değerine sahip olan değişken seçilmektedir. Ayırma işleminde eğer bağımlı değişken ikiden fazla kategoriye sahipse iki ortalamalı kümeleme algoritması iki süper sınıf bulabilmek için kullanılmaktadır. Aksi takdirde bağımsız değişkenin en iyi bölünmesini bulmak için Kuadratik Diskriminant Analizi (QDA) kullanılmaktadır. Bu süreç herhangi bir durdurma kuralına rastlayıncaya kadar devam eder.

MARS

1990’ların başında istatistikçi Friedman tarafından geliştirilen Mars algoritması nonparametrik ve lineer olmayan bir yöntemdir. MARS yöntemi regresyon modellemesinde yeni bir yaklaşım olup, geleneksel yöntemlere göre son derece zor olan, çok boyutlu verilerin içinde gizlenmiş karmaşık veri yapısını, en uygun veri dönüşümlerini ve verilerin karşılıklı etkileşimlerini belirleyebilme avantajına sahip bir yaklaşımdır. MARS yöntemi hem sürekli hem de ikili olan bağımlı değişkenler için geliştirilmiştir. Bağımlı değişkeninin sürekli olması durumunda kestirim amacına, bağımlı değişkeninin ikili olması durumundaysa, sınıflandırma amacına sahiptir. Bağımlı ve bağımsız değişkenlerin dağılımları üzerine herhangi bir varsayım gerektirmemektedir. Ayrıca değişken tipi de önemli değildir. MARS yöntemi bağımlı ve bağımsız değişkenler arasındaki doğrusal olmayan ilişkileri doğrusal hale getirme amacıyla uygun dönüştürme teknikleri kullanmaktadır. MARS yöntemiyle çok karmaşık veri yapıları ve geniş veri tabanları için regresyon modelleri kolaylıkla geliştirilebilmektedir. Ayrıca doğrusal yöntemlerin aksine değişkenlerin alt kümelerini dikkate almaktadır. Yöntem, regresyon düzenlemelerindeki performansı geliştirmek için, adımsal regresyonun ve tekrarlamalı ayırma mantığına dayanan CART yönteminin modifikasyonunun genelleştirilmiş bir hali olarak düşünülebilmektedir. Buna göre yöntem değişkenlerin en iyi dönüşümleri ve etkileşimleri hesaplanıp yüksek boyuttaki verilerin içinde var olan karmaşık ilişkilerin üstesinden gelinebilmektedir. Yürütmüş olduğu bu süreçle de diğer yöntemler için açıklanması zor olan veri birimlerini ve ilişkilerini yorumlayabilmektedir.

Exhaustive CHAID

Exhaustive CHAID algoritması, CHAID algoritmasının geliştirilmiş halidir. Kullandığı istatistiksel testler ve kayıp verileri değerlendirme durumları bakımından CHAID algoritmasına benzemektedir. Ancak algoritmanın hesaplanması uzun zaman almakta ve her bir ön kestirici için mümkün tüm bölünmeleri araştırmaktadır. CHAID algoritması bazı durumlarda bir değişken için en uygun bölünmeyi bulamayabilmekte ve böyle durumda tüm kalan kategoriler istatistiksel olarak farklı olacağından algoritma kategorileri birleştirmeyi durdurmaktadır. Exhaustive CHAID algoritması ise buna çözüm olarak yalnızca iki kategori kalana kadar kestirim değişkeninin kategorilerini birleştirmeyi sürdürmektedir. Bundan sonra ön kestirici için birleşim serilerini incelemekte ve bağımlı değişkenle en güçlü ilişkiye sahip kategori kümesini bulmaktadır. Ardından bu birliktelik için düzeltilmiş p değerini hesaplar. Bu nedenle algoritma, her bir ön kestirici için en iyi bölünmeyi bulmakta ve bölünme için hangi ön kestiricinin seçileceğine de düzeltilmiş p değerlerini karşılaştırarak ulaşmaktadır. Zaman sıkıntısı olmadığı durumlarda bu algoritmanın kullanılması daha faydalı görülmektedir. Nedeni ise algoritma bazı durumlarda kullanışlı bölünmeler bulabilmektedir. Verilere bağlı olsa da bu iki algoritmanın sonuçları arasında önemli farklılık bulunmayacağı söylenebilir.

KAYNAKÇA

Akpınar, H. (2000, Nisan). Veri Tabanlarında Bilgi Kesfi ve Veri Madenciliği. İ.Ü. İşletme Fakültesi Dergisi, 29 (1), 1-22.

Albayrak, A.Ş. ve Yılmaz, Ş. K. (2009). Veri Madenciliği Karar Ağacı Algoritmaları ve İMKB Verileri Üzerine Bir Uygulama. Süleyman Demirel Üniversitesi İktisadi ve İdari Bilimler Fakültesi, 14 (1), 31-52.

Alpaydın, E. (2000). Zeki Veri Madenciliği. Bilişim 2000 Eğitim Semineri.

Altunkaya, H. İ. (2013). Ülkelerin Uzun Dönem Kredi Notlarının Önemli Değişkenlerin Veri Madenciliği Teknikleri Kullanılır Belirlenmesi. Yayınlanmamış Yüksek Lisans Tezi. Ankara: Hacettepe Üniversitesi, FBE. Anadolu Üniversitesi. (2017). AKEDEMA: http://avuo.anadolu.edu.tr

Atılgan, E. (2011). Karayollarında Meydana Gelen Trafik Kazalarının Karar Ağaçları ve Birliktelik Analizi ile İncelenmesi. Yayınlanmamış Yüksek Lisans Tezi. Hacettepe Üniversitesi, FBE.

Breiman, L., Friedman, J., Olshen, R. ve Stone, CJ (1987). Sınıflandırma ve Regresyon Ağaçları.

Çalış, A., Kayapınar, S. ve Çetinyokuş, T. (2014). Veri Madenciliğinde Karar Ağacı Algoritmaları ile Bilgisayar ve İnternet Güvenliği Üzerine Bir Uygulama. Endüstri Mühendisliği Dergisi, 25 (3-4), 2-19.

Demirel, Ş., Karar Ağacı Algoritmaları ve Çocuk İşçiliği Üzerine Bir Uygulama. Yüksek Lisans Tezi. Marmara Üniversitesi.

Diler, S. (2016). Veri Madenciliği Süreçleri ve Karar Ağaçları Algoritmaları ile Bir Uygulama. Yayınlanmamış Yüksek Lisans Tezi. Van: Yüzüncü Yıl Üniversitesi, FBE.

Dolgun, M. Ö. (2014). Veri Madenciliği Sınıflama Yöntemlerinin Başarılarının; Bağımlı Değişken Prevelansı, Örneklem Büyüklüğü ve Bağımsız Değişkenler Arası İlişki Yapısına Göre Karşılaştırmanız. Yayınlanmamış Doktora Tezi. Ankara: Hacettepe Üniversitesi, SAE.

Friedman, JH (1991). Çok Değişkenli Uyarlamalı Regresyon Kamaları. Yıllıklar İstatistikleri, 19 (1).

Gedleç, Ş., Çok Boyutlu Birliktelik Kuralları Analizi ve İşletme Uygulaması. Yüksek Lisans Tezi. Marmara Üniversitesi.

Gökay Emel, G. ve Taşkın, Ç. (2005). Pazarlama Stratejilerinin Oluşturulmasında Bir Karar Destek Aracı: Birliktelik Kuralları Madenciliği. Dokuz Eylül Üniversitesi Sosyal Bilimler Enstitüsü Dergisi, 7 (3), 30-59.

Gülpınar, V. (2008). Avrupa Birliği Ülkeleri ile Türkiye’nin Ekonomik Göstergelerinin Karar Ağacı Yöntemi ile Karşılaştırılması. Yayınlanmamış Yüksek Lisans Tezi. İstanbul, Marmara Üniversitesi, SBE.

Güner, ZB (2015). Veri Madenciliğinde Cart ve Lojistik Regresyon Analizinin Yeri: İlaç Provizyon Sistemi Verileri Üzerine Örnek Bir Uygulama. Sosyal Güvence (6), 53-99. http://dergipark.gov.tr/sosyalguvence/issue/16499/172290

Haciefendioğlu, Ş. (2012, Ağustos). Makine Öğrenmesi Yöntemleri ile Glokol Hastalığının Teşhisi. Yayınlanmamış Yüksek Lisans Tezi. Konya: Selçuk Üniversitesi, FBE.

Kavzaoğlu, T., Şahin, EK ve Çölkesen, İ. (2012). Heyelan Duyarlılığının İncelenmesinde Regresyon Ağaçlarının Kullanımı: Trabzon Örneği. Harita Dergisi, 147 (3), 21-33.

Kayri, M. ve Boysan, M. (2007). Araştırmalarda Chaid Analizinin Kullanımı ve Baş Etme Stratejileri ile İlgili Bir Uygulama. Ankara Üniversitesi Eğitim Bilimleri Fakültesi Dergisi, 40 (2), 133-149.

Koyuncugil, AS ve Özgülbaş, N. (2008). İMKB’de İşlem Gören KOBİ’lerin Güçlü ve Zayıf Yönleri: CHAID Karar Ağaçları Uygulaması. Dokuz Eylül Üniversitesi İktisadi ve İdari Bilimler Fakültesi Dergisi, 23 (1), 1-21.

Köktürk, F. (2012). K-En Yakın Komşuluk, Yapay Sinir Ağları ve Karar Ağaçları Yöntemlerinden Sınıflandırma Başarılarının Karşılaştırılması. Yayınlanmamış Doktora Tezi. Zonguldak: Bülent Ecevit Üniversitesi, Sağlık Bilimleri Enstitüsü.

Köse, Y. (2015). Değerli Müşterilerin Ürün Kategorileri Arasındaki Satış İlişkilerinin Veri Madenciliği Yöntemlerinden Birliktelik Kuralları ve Kümeleme Analizi ile Belirlenmesi ve Ulusal Bir Parekendecide Örnek Uygulama. Yayınlanmamış Yüksek Lisans Tezi. Konya: Selçuk Üniversitesi, SBE.

Larose, DT (2005). Verilerdeki Bilgiyi Keşfetmek: Veri Madenciliğine Giriş. New Jersey: John Wiley & Sons, Inc.

Oğuzlar, A. (2004, Eylül). CART Analizi ile Hanehalkı İşgücü anketi Sonuçlarının Özetlenmesi. Atatürk Üniversitesi İİBF Dergisi, 18 (3-4), 79-90.

Pehlivan, G. (2006). CHAID Analizi ve Bir Uygulama. Yayınlanmamış Yüksek Lisans Tezi. İstanbul: Yıldız Teknik Üniversitesi, FBE.

Saitoğlu, YS (2015). Sınıflama ve Regresyon Ağaçları. Yayınlanmamış Doktora Tezi. İstanbul: Marmara Üniversitesi, SBE.

Silahtaroğlu, G. (2013). Veri Madenciliği Kavram ve Algoritmaları. Papatya Yayıncılık Eğtim.

Temel, GO, Ankaralı, H. ve Yazıcı, AC (2010). Regresyon Modellerine Alternatif Bir Yaklaşım: MARS. Türkiye Klinikleri Biyoistatistik Dergisi, 2 (2), 58-66.

Yılmaz, H. (2014, Ocak). Rasgele Ormanlar Yönteminde Kayıp Veri Probleminin İncelenmesi ve Sağlık Alanında Bir Uygulama. Yayınlamamış Yüksek Lisans Tezi. Eskişehir Osmangazi Üniversitesi, SBÜ.

Yücel, YB (2017). Yaşam Memnuniyetini Etkileyen Faktörlerin Sınıflama ve Regresyon Ağacı ile Belirlenmesi. Yayınlanmamış Yüksek Lisans Tezi. İstanbul, İstanbul Ticaret Üniversitesi, FBE.

0
0

Patreon

üzerinden bize destek olabilirsiniz!

.

Birlikten kuvvet doğar! Sizde #patreon üzerinden bizim yanımızda olabilirsiniz. Yaptığımız gönüllü çalışmaları arttırmak için bize destek olun.

Ücretli ve Ücretsiz Eğitimler

Türkiye'nin en büyük veri bilimi topluluğu ile kariyerinizi inşa edin.

Data Science Earth

Data Science Earth ekibi, üst düzey Veri Bilim çözümleri üretmek amacı ile toplanmış akademisyenler ve uzmanlardan oluşmaktadır. Öncelikli olarak veri bilincini geliştirmeyi ve küreselleşen rekabet ortamında verinin gücünün doğru kullanılmasını sağlamayı amaçlamaktadır.

Sponsor

QuestionPro 35 farklı soru seçim özelliği ile anket çalışmalarımıza güç katmaktadır.