Knime ile Veri Bilimi : Model Değerlendirmesi

Model Değerlendirmesi

Merhaba, Knime yazı dizisinin sonuna geldik. Bu yazı da modelimizin başarısını nasıl ölçeceğimizi inceleyeceyeceğiz. Knime bize değerlendirme işlemi için farklı düğümler sunmakta. Bu düğümlere ‘Node Repository’ penceresinden ulaşabilirsiniz.

Cross Validation 

Cross validation işlemini gerçekleştirirken iki düğüm kullanılır. 

  1. X-Partitioner
  2. X-Aggregator

X-Partitioner düğümü, çapraz doğrulama döngüsündeki ilk düğümdür. Döngünün sonunda, her yinelemenin sonuçlarını toplamak için bir X-Aggregator olmalıdır. Bu iki düğüm arasındaki tüm düğümler, yinelemelerin kaç kez gerçekleştirilmesi gerektiği kadar yürütülür.

  1. X-Partitioner Konfigürasyon

  1. Number of validations: Gerçekleştirilmesi gereken çapraz doğrulama yinelemelerinin sayısı.
  2. Linear sampling: İşaretlendiğinde, giriş tablosu ardışık parçalara kesilir.
  3. Random sampling: İşaretlenirse bölümler giriş tablosundan rastgele örneklenir.
  4. Stratified sampling: İşaretlenirse bölümler rastgele örneklenir ancak aşağıda seçilen sütundan sınıf dağılımı korunur.
  5. Random seed: Rastgele ve katmanlanmış örnekleme için yeniden üretilebilir sonuçlar elde etmek amacıyla rastgele sayı oluşturucu için bir tohum seçebilirsiniz. Aksi takdirde her seferinde farklı bölümler elde edersiniz.
  6. Class column name: Sınıf etiketli sütunun adı.
  7. Leave-one-out: Bir bırakma çapraz doğrulaması gerçekleştirir; yani, veri noktası kadar çok yineleme vardır ve her tekrarda kalan tüm noktalar eğitim seti olarak kullanılarak başka bir noktanın hedef değeri tahmin edilir.

2. X-Aggregator Konfigürasyonu

  1. Target column: Gerçek sınıf etiketini içeren sütun
  2. Prediction column: Tahmin etiketini içeren sütun
  3. Add column with fold id: Seçilirse, satırın üretildiği katlama kimliğini içeren ilk çıktı tablosuna ek bir sütun eklenir.

Scorer

Scorer düğümünü daha önce de kullanmıştık. Scorer, öznitelik değer çiftleriyle iki sütunu karşılaştırır ve karışıklık matrisini, yani hangi özniteliğin kaç satırının eşleştiğini ve bunların sınıflandırma eşleşmesini gösterir. Ayrıca, Altta yatan satırları belirlemek için bu matrisin alacakaranlık hücrelerini belirlemek mümkündür. Bu iletişim kutusu, karşılaştırma için iki sütun seçmenize olanak tanır; ilk seçilen sütundaki değerler karışıklık matrisinin satırlarında ve ikinci sütundaki değerler karışıklık matrisinin sütunlarında gösterilir. Düğümün ilk çıkışı, her hücredeki eşleşmelerin sayısı ile karışıklık matrisidir.

İkinci çıkış noktası True-Positives, False-Positives, True-Negatives, False-Negatives, Recall, Precision, Sensitivity, Specificity, F-Measure ve Cohen Kappa gibi bir dizi doğruluk istatistikleri bildirir.

Numeric Scorer

Bu düğüm, A sayısal sütununun değerleri ve tahmin edilen değerleri arasındaki belirli istatistikleri hesaplar. 

ROC Curve

Bu düğüm, iki sınıf sınıflandırma sorunları için ROC eğrileri çizer.

Referanslar