Dayanıklı Konum Kestiricileri ve Simülasyon Çalışması

“Verilere yeterince işkence edersen, itiraf eder!”

Ronald H. Coase

Ortalama (mean), ortanca (median) ve tepe değeri (mode) gibi kestiriciler yeterli mi? Bu kestiricileri kullanarak aslında uygulama anlamında bazı sorunları çözebiliyoruz. Örneğin elimizdeki bir veri setinde kayıp gözlemler (missing values) var ve biz bu kayıp gözlemlere değerler atamak istiyoruz. Genellikle atadığımız değer o veri setinin ortalama ya da ortancasını bularak elde ettiğimiz değer oluyor. Peki bunu nasıl yapıyoruz? İlk olarak veri setinin dağılımına bakılarak normal dağılıyorsa ya da normal dağılıma yakınsa ortalama, normal dağılımdan uzaklaştıkça ortanca gibi değerleri tercih ederiz. Tepe değeri ise genellikle nitel verilerden oluşan veri setlerindeki kayıp gözlemleri gidermek için kullanılmaktadır. Peki bu kestiricilere alternatif olacak bazı dayanıklı kestiriciler de olabileceğini hiç düşündünüz mü? Şimdi bu kestiricilere değinelim…

Dayanıklı (robust) kestiricilere neden dayanıklı denmektedir? Ortalama veya ortancadan daha iyi sonuçlar verdiği için mi? Aslında bu sorunun iki cevabı var, hem evet hem de hayır. Hayır, çünkü normal dağılan ve normal dağılıma yakın veri setlerinde ortalama hala güvenilir sonuçlar vermektedir. Evet, çünkü normallikten uzaklaştıkça dayanıklı konum kestiricileri daha iyi sonuçlar veriyor, özellikle aykırı gözlemlere karşı… Şimdi isterseniz bu dayanıklı konum kestiricilerine ve nasıl hesaplandığına bir göz atalım.

Budanmış Ortalama (Trimmed Mean)

Budanmış ortalama, adından da anlaşılacağı üzere veri setini budama yoluyla bir kestirimde bulunur. Bunun için bir budama yüzdesi belirlenir, bu budama yüzdesi genellikle %20’dir. İlk olarak veri seti küçükten büyüğe doğru sıralanır ve toplam veri sayısının %20’si alınır. Veri setinin en küçük ve en büyük değerlerinden başlanarak budama yapılır. Şöyle bir örnek verelim:

Veri seti aşağıdaki gibi olsun:

“10,15,30,25,20,22,32,40,14,11”

Şimdi bu veri setini küçükten büyüğe doğru sıralayalım ve toplam veri sayısının %20’sini elde edelim:

“10,11,14,15,20,22,25,30,32,40”  ==> %20’si = 10*(20/100)=2

10 gözlemin %20’si 2 olarak belirlendi. Şimdi; veri setini budayarak ilk 2 ve son 2 gözlemi çıkaralım ve geriye kalan 6 gözlemin ortalamasını hesaplayalım:

“14,15,20,22,25,30”

Şimdi bu gözlemlerin ortalaması alınarak budanmış ortalama elde edilir: (14+15+20+22+25+30)/6=21

Bu veri setinin budanmış ortalaması 21 olarak bulunmaktadır. Bunu R programlama dilinde yapabilmek için kodlar aşağıda gösterilmektedir.

“mean” fonksiyonunun içerisinde “tr” parametresi budama yüzdesini belirlemek için kullanılmaktadır. %20 budama için bu değer “0.2” olarak belirlenmelidir. Böylece R’da budanmış ortalamanın nasıl hesaplanacağını öğrenmiş olduk. Şimdi diğer konum kestiricisine geçebiliriz.

Winsorized Ortalama (Winsorized Mean)

Ortalama, aykırı değerlerden çok çabuk etkilenmektedir, bu yüzden aykırı değerlere karşı etkili olabilecek diğer kestiricilerden birisi de winsorized ortalamadır. Bu kestiricide de budanmış ortalamada olduğu gibi veri setindeki gözlem saysının yüzdesi alınarak kestirim yapılmaktadır. Ancak burada budamadan farklı olarak en küçük ve en büyük değerlere winsorized yüzdesi kadar veri setindeki değerlerin eklemesi yapılmaktadır. Şimdi bunu bir örnek üzerinde görelim. Az önceki örnek üzerinde gösterebiliriz.

Yine aynı şekilde veri seti küçükten büyüğe doğru sıralanır ve yüzdesi hesaplanır:

“10,11,14,15,20,22,25,30,32,40”  ==> %20’si = 10*(20/100)=2

Şimdi ilk iki gözlemi “14” değeri, son iki gözlemi ise “30” değeri ile değiştirelim:

“14,14,14,15,20,22,25,30,30,30”

Şimdi bu gözlemlerin ortalaması alınarak winsorized ortalama hesaplanmış olur: (14+14+14+15+20+22+25+30+30+30)/10=21.4

Bu veri setinin winsorized ortalaması “21.4” olarak bulunmaktadır. Bunun için R’da “winmean” fonksiyonu kullanılmaktadır. Bu fonksiyon ise “WRS2” paketinin içinde bulunmaktadır:

“winmean” fonksiyonunun içerisinde “tr” parametresi winsorized yüzdesini belirlemek için kullanılmaktadır. %20 winsorized için bu değer “0.2” olarak belirlenmelidir. Böylece R’da winsorized ortalamanın nasıl hesaplanacağını öğrenmiş olduk.

Tek – Adım M – Kestiricisi (One-Step M-Estimator)

Huber tarafından 1981 yılında geliştirilmiş kestiricidir. Yine aykırı değerler ve geniş örneklem özelliklerinde daha güvenilir sonuçlar vermesi amaçlanmaktadır. Bu kestirici için formül aşağıda gösterilmektedir:

Burada, “MADN” normalleştirilmiş medyan mutlak sapma değerini belirtmektedir. MAD/0.6745 ile hesaplanmaktadır. Burada MAD ise medyan mutlak sapma değeridir, MAD=|X1-M|,…,|Xn-M| ile hesaplanmaktadır ve M ise medyan değerini göstermektedir.

“i1”, (Xi-M)/MADN<-1.28 olmak üzere Xi gözlemlerinin sayısı, “i2” ise (Xi-M)/MADN>1.28 olmak üzere Xi gözlemlerinin sayısıdır. Burada 1.28 değeri aykırı değer tespit değeridir.

Tek – Adım M – Kestiricisini hesaplamak için R kodları aşağıda gösterilmektedir. Yine “WRS2” paketinin kurulması gerekir.

Az önce yaptığımız örnek üzerinden tek – adım M – kestiricisi hesaplanmış ve 21.57579 olarak bulunmuştur.

Değiştirilmiş Tek – Adım M – Kestiricisi (Modified One – Step M – Estimator)

Aykırı değerlere karşı dayanıklı olan diğer yöntem değiştirilmiş tek – adım M – kestiricisidir. Bu yöntemde normallik altında da makul derecede iyi verimlilik elde etmek için aykırı gözlem tespit değeri değiştirilmiştir.

(Xi-M)/MADN<2.24 ve (Xi-M)/MADN>2.24 olarak ayarlanmıştır.

Değiştirilmiş tek – adım M – kestiricisi için “WRS2” paketi içerisinde “mom” fonksiyonu kullanılabilir:

Böylece daha önce yaptığımız örnek için Değiştirilmiş tek – adım M – kestirici değeri 21.9 olarak bulunmuştur.

Tau Konum Ölçüsü (Tau Measure of Location)

Diğer bir kestirici Tau konum ölçüsüdür. Tau kestiricisi bir veri setindeki kestirim değerini bulmak için ağırlıkları kullanmaktadır. Bu kestirici için formül aşağıda gösterilmektedir:

Burada gösterge fonksiyonu (indicator function), eğer |x|<=c oldığunda I(|x|<=c)=1, diğer durumlarda I(|x|<=c)=0 olmaktadır. Ağırlıklar

formülü ile hesaplanmaktadır. Burada c değeri “4.5” olarak belirlenmiştir ve kestirim değeri aşağıdaki formül ile hesaplanmaktadır.

Böylece Tau kestiricisinin nasıl hesaplandığını görmüş olduk. R’da ise “WRS2” paketinin içerisindeki “tauloc” fonksiyonu kullanılabilir:

Daha önce de gösterilen örnek üzerinden bakıldığında Tau kestiricisi ile değerimizin “21.11821” olarak hesaplandığını görüyoruz.

Bu aşamaya kadar klasik kestiricilere alternatif olabilecek, özellikle çarpık dağılım ve uç değerlere karşı daha dayanıklı olan konum kestiricileri üzerinde durduk. Bu yöntemlerin nasıl hesaplanacağını öğrenmiş olduk. Şimdi, bir simülasyon çalışması yaparak bu yöntemleri karşılaştıralım:

SİMÜLASYON ÇALIŞMASI

Simülasyon çalışması için rastgele örneklemler üretilmektedir. Tabii burada örneklemleri üreteceğimiz veriler uç değerler de içeren çarpık dağılımlardan oluşmaktadır. Bunun için kullanacağımız dağılım g-ve-h dağılımı olabilir. Şimdi g-ve-h dağılımını açıklayalım:

g-ve-h dağılımı Hoaglin tarafından 1985 yılında önerilmiştir ve normal dağılımın özel bir halidir. Bu dağılımdan rassal veriler üretmek için g ve h değerleri kullanılır ve bu değerler 0 ile 1 arasında olmaktadır. Şimdi bu değerleri belirterek dağılımın şekline bakalım:

g=0 ve h=0 değerini aldığında dağılımın şekli aşağıda gösterilmektedir:

Standart normal dağılıma ait histogram grafiği
Standart Normal Dağılım (g=0, h=0)

Şekilde de görüldüğü üzere g ve h değerlerini 0 olarak belirttiğimizde üretilen veriler normal dağılımdan gelmektedir. Şimdi, farklı değerlerde dağılımın şeklini inceleyelim:

g=0 ve h=0.5 değerini aldığında dağılımın şekli aşağıda gösterilmektedir:

Simetrik ve ağır kuyruklu dağılıma ait histogram grafiği
Simetrik ve Ağır Kuyruklu Dağılım (g=0, h=0.5)

Bu değerlerle birlikte dağılımın simetrik ve ağır kuyruklu olduğunu söyleyebiliriz.

g=0.5 ve h=0 değerini aldığında dağılımın şekli aşağıda gösterilmektedir:

Asimetrik ve hafif kuyruklu dağılıma ait histogram grafiği
Asimetrik ve Hafif Kuyruklu Dağılım (g=0.5, h=0)

Burada dağılımın şekli için asimetrik ve hafif kuyruklu olduğunu söyleyebiliriz.

g=0.5 ve h=0.5 değerini aldığında dağılımın şekli aşağıda gösterilmektedir:

Asimetrik ve ağır kuyruklu dağılıma ait histogram grafiği
Asimetrik ve Ağır Kuyruklu Dağılım (g=0.5, h=0.5)

g ve h, “0.5” değerlerini aldığında dağılımın şekli için asimetrik ve ağır kuyruklu olduğunu söyleyebiliriz.

Burada görüldüğü gibi bu dağılımdan üretilen rastgele veriler özellikle g ve h değerleri arttıkça çarpık dağılımdan üretilmektedir. Ayrıca aykırı değerler de bulunmaktadır. g-ve-h dağılımı için R’da “WRS2” paketinin içerisinde ki “ghdist” fonksiyonu kullanılmaktadır:

“ghdist” fonksiyonunun içerisindeki “n” parametresi rastgele üreteceğimiz gözlem sayısını göstermektedir. “g” ve “h” parametreleri ile g ve h değerleri belirtilmektedir.

Şimdi bu dağılımı kullanarak ve farklı örneklem genişliklerinde, 1000 tekrarlı simülasyon çalışması yapalım:

Kullanacağımız dağılımlar ==> (g=0,h=0), (g=0,h=0.5), (g=0.5,h=0), (g=0.5,h=0.5)

Üreteceğimiz rastgele örneklem genişlikleri ==> 10, 25, 50, 100, 500, 1000

Simülasyon tekrarı ==> 1000

Karşılaştırma yapacağımız kriter ==> Hata kareler ortalaması (Mean squared error)

Evet, hazırsanız başlayalım 🙂

İlk olarak standart normal dağılımdan verileri üretelim ve kestiricileri MSE kriteri açısından karşılaştıralım:

Şimdi çıktıya bakalım ve sonuçları yorumlayalım:

Standart normal dağılımdan üretilen veriler için simülasyon sonuçları
Simülasyon Sonuçları (g=0, h=0)

Burada ortalama ve tek-adım M-kestiricisinin iyi sonuçlar verdiğini söyleyebiliriz. Örneklem genişlikleri arttıkça kestiricilerin MSE değerleri de birbirine yaklaşmaktadır. Sonuç olarak normal dağılan bir veri setinde tercih edilebilecek kestiriciler için ortalama ve tek-adım M-kestiricisi olduğunu söyleyebiliriz.

Şimdi R kodlarında “g=0, h=0.5” olarak değiştirelim ve sonuçlara bakalım:

Simetrik ve ağır kuyruklu dağılımdan üretilen veriler için simülasyon sonuçları
Simülasyon Sonuçları (g=0, h=0.5)

Simetrik ve ağır kuyruklu dağılımda ortalamanın diğer kestiricilerle karşılaştırıldığında kötü sonuç verdiğini söyleyebiliriz. En iyi sonuçları median ve budanmış ortalama vermektedir. Örneklem genişliği arttıkça MSE değerleri birbirine yaklaşmaktadır. Böyle bir dağılımda tercih edilmesi gereken kestiriciler median ve budanmış ortalama olmalıdır.

Şimdi R kodlarında “g=0.5, h=0” olarak değiştirelim ve sonuçlara bakalım:

Asimetrik ve hafif kuyruklu dağılımdan üretilen veriler için simülasyon sonuçları
Simülasyon Sonuçları (g=0.5, h=0)

Burada kestiricilerin değerleri birbirine çok yakın olarak görülmektedir. Budanmış ortalama, winsorized ortalama ve tek – adım M – kestiricisi tercih edilebilir.

Şimdi R kodlarında “g=0.5, h=0.5” olarak değiştirelim ve sonuçlara bakalım:

Asimetrik ve ağır kuyruklu dağılımdan üretilen veriler için simülasyon sonuçları
Simülasyon Sonuçları (g=0.5, h=0.5)

Asimetrik ve ağır kuyruklu dağılımlarda ortalamanın kötü sonuçlar verdiğini söyleyebiliriz. Özellikle 50 birimlik örneklemde diğer kestiricilerle karşılaştırıldığında ortalamanın MSE değeri yüksek olarak görülmektedir. Diğer kestiriciler ise birbirine yakın sonuçlar vermektedir. Median, budanmış ortalama, tek – adım M – kestiricisi ve modified M – kestiricisi tercih edilebilir.

Son olarak daha çarpık bir dağılım olan lognormal dağılımdan veri üretelim ve sonuçları karşılaştıralım. R kodları aşağıda gösterilmektedir:

Şimdi çıktıya bakalım ve sonuçları karşılaştıralım:

Lognormal dağılımdan üretilen veriler için simülasyon sonuçları
Simülasyon Sonuçları (Lognormal dağılım)

Burada yine ortalamanın çarpık dağılımlar ve uç değerlerden oluşan veri setlerine karşı dayanıklı olmadığını söyleyebiliriz. Bu tür dağılımlarda dayanıklı konum kestiricileri tercih edilmelidir.

SONUÇ

Aykırı gözlemlerden oluşan veri setlerinde kullanılması gereken kestiricilerin hangileri olduğuna değindik. Ayrıca çarpık dağılımlardaki kestiriciler arasında performans karşılaştırması yaparak tercih edilmesi gereken kestiricilere karar verdik. Yani elimizdeki bir veri setinin dağılımına ve aykırı gözlemlerine bakarak kullanılması gereken kestiriciler hakkında detaylı bilgi sahibi olduk. Bir sonraki yazımda görüşmek üzere…

Burak Dilber

Diğer yazılarıma ulaşmak için tıklayınız.

KAYNAKÇA

  • Rand Wilcox (2017), Introduction to Robust Estimation and Hypothesis Testing (4th edition), Elsevier, Los Angeles.
  • Rand Wilcox (2017), Modern Statistics for the Social and Behavioral Sciences (2nd edition), Taylor & Francis, Los Angeles.

2 thoughts on

Dayanıklı Konum Kestiricileri ve Simülasyon Çalışması

Bir cevap yazın

Data Science Earth

Data Science Earth ekibi, üst düzey Veri Bilim çözümleri üretmek amacı ile toplanmış akademisyenler ve uzmanlardan oluşmaktadır. Öncelikli olarak veri bilincini geliştirmeyi ve küreselleşen rekabet ortamında verinin gücünün doğru kullanılmasını sağlamayı amaçlamaktadır.

Sponsor

QuestionPro 35 farklı soru seçim özelliği ile anket çalışmalarımıza güç katmaktadır.