Herkes İçin Veri Okuryazarlığı #3

Bölüm 3:

Herkes İçin Veri Okuryazarlığının bir önceki bölümünde temel kavramlardan ziyade teorik olarak merkezi eğilim ölçülerinden bahsedilmişti. Daha önceki bölümlerde ifade etmiş olduğum gibi serinin temel akışı için yararlandığım kaynak; Turkcell’in Geleceği Yazanlar  web sitesindeki Vahit Keskin’in Veri Okuryazarlığı eğitim programıdır. Dağılım Ölçüleri olarak tek bir başlık altında toplanmasının doğru olmayacağına karar verdim bu nedenle en çok bilinen Tanımlayıcı İstatistiklerden konumuz dahilinde;

Değişkenlik Ölçüleri (Measures of Variation):

  • Değişim Aralığı (Range)
  • Standart Sapma (Standard Deviation)
  • Varyans (Variance)

Çarpıklık ve Basıklık Ölçüleri (Measures of Skewness and Kurtosis) olarak bahsedilecektir.

* Kullanılan formüllerin teorik olarak detaylandırılması serinin temel amacını karşılamayacağından dolayı sadece gösterim olarak yer verilecektir.

Değişkenlik Ölçüleri (Measures of Variation): 

Merkezi eğilim ölçüleri, verileri tanımlamak için yeterli değildir. Birimlerin birbirlerinden ne kadar farklı olduğu (büyük ya da küçük), ortalamadan uzaklık dereceleri hakkında bilgi vermezler. Verileri açıklamak için değişkenlerin kapsamını bilmek gereklidir. Bu nedenle, birimlerin ilgili değişken bakımından ne ölçüde farklı olduklarını ifade etmek için değişkenlik ölçüleri kullanılmaktadır.

1- Değişim Aralığı (Range): 

Hesaplanacak en basit değişkenlik ölçülerinden biridir. En büyük ve en küçük örneklem değeri arasındaki fark olarak tanımlanır. Yalnızca uç değerlere bağlıdır ve kalan veriler hakkında bilgi vermez.

Değişim Aralığı = Maksimum Değer – Minimum Değer olarak ifade edilir.

Örneğin;

14, 22, 20, 24, 19, 36, 21 şekilde veri seti verilmiş olsun verilerin maksimum ve minimum değerleri kullanılarak formülde yerine yazılırsa,

Değişim Aralığı = Maksimum Değer – Minimum Değer

Maksimum Değer = 36

Minimum Değer = 14

Değişim Aralığı’ nın cevabı 36 – 14 = 22 olacaktır.

Bir başka örnek de https://www.slideshare.net/drzzahidkhan/measures-of-dispersion internet adresinden alınmıştır.

20 danışanın bir danışman doktora görünmesi için beklediği dakika sayısı aşağıda verilmiştir.

Hastaların X ve Y danışman doktorların görünmesi için beklediği sürenin ortalaması 14.6 dk’ dır ve bu süre ikisi için de eşittir. İki seri arasındaki fark nedir?

Bu soru “Serilerin değişim aralığı kaçtır?” sorusuyla aynı anlama gelmektedir.

X serisinin değişim aralığı: 37 – 03 = 34 olur.

Y serisinin değişim aralığı: 18 – 12 = 6 olur.

X serisinin değişim aralığı yüksektir ve tutarlılığı düşüktür.

Y serisinin değişim aralığı düşüktür ve tutarlılığı yüksektir.

2- Standart Sapma (Standard Deviation):

Standart sapma, her bir gözlemin ortalamadan farklılıklarının özet bir ölçüsüdür.

Standart sapmanın formülü örneklem ve anakütle hesabı için birbirinden farklıdır.

Anakütle (Popülasyon) İçin Standart Sapma Formülü:

Örneklem İçin Standart Sapma Formülü:

Standart Sapma ve Ortalamanın simgesel gösterimi

Bir örnekle gösterilecek olursa;

Bir internet sitesinin kitap kulübünün aylık kitap okuma istatistikleri tutulmak istenmektedir. Kitap kulübündeki 15 kişiden rassal olarak seçilmiş 5 kişinin istatistikleri verilmiştir.

Standart sapmayı formül kullanarak hesaplayınız.

Serinin aritmetik ortalaması = (9+12+5+10+4)/5 = 8′ dir.

15 kişiden rassal olarak 5 kişi seçildiğine göre örneklem standart sapmasını hesaplamalıyız.

Örneklem Standart Sapması;

 

Formülü kullanılarak bulunur.

 

 

Cevap: 3.39 olarak alınabilir.

Formülün detaylarına Khan Academy web sitesindeki ” Population and Sample Standard Deviation Review” bölümünden ulaşabilirsiniz.

3- Varyans (Variance): 

Kısa bir şekilde standart sapmanın karesi olarak ifade edilebilir. O halde ifade edildiği gibi, standart sapmanın hesabında kullanılacak olan formüllerin karesi alınarak formül tekrardan yazılabilir;

Anakütle İçin Varyans Formülü:

Örneklem İçin Varyans Formülü:

 

Standart sapma konusunda kullanılan örneği şimdi de varyansı bulmak için kullanırsak;

Örnekteki açıklama örneklem varyansı formülünü kullanmayı gerektiriyor. O halde kullanılacak olan formül:

Olacaktır.

Cevap: 11.5’ tir.

Çarpıklık (Skewness):

Çarpıklığın Wikipedia’daki genel tanımı “bir reel-değerli rassal değişkenin olasılık dağılımının simetrik olamayışının ölçülmesidir.” şeklinde ifade edilmiştir.

https://www.macmillanhighered.com/BrainHoney/Resource/22292/digital_first_content/trunk/test/griggs4e/asset/ch01/c01_fig05.html

Pearson Çarpıklık Katsayısı:

Olarak ifade edilmiştir.

Pearson Çarpıklık Katsayısı (P.Ç.K) < 0 : sola çarpık, negatif çarpık (left-skewed)

Pearson Çarpıklık Katsayısı (P.Ç.K) > 0 : sağa çarpık, pozitif çarpık (right-skewed)

Eğer sıfıra eşit olursa dağılım simetriktir denir. Mod, medyan, aritmetik ortalama birbirlerine eşittir.

 https://www.sigmamagic.com/blogs/how-to-interpret-skewness-and-kurtosis

Konuyla ilgili videolu anlatım için detaylı bilgiye Khan Academy Turkce YouTube kanalından ulaşabilirsiniz.

Örnek:

Bir internet sitesinin aylık kitap okuma istatistikleri ile ilgili örneği çarpıklık ölçüsünü bulmakta da kullanırsak;

Pearson Çarpıklık Katsayısı:

Olarak verilmişti. Standart sapma ve aritmetik ortalamayı biraz önce hesaplamıştık, sorunun cevabı için geriye sadece medyanı bulup formülde yerine koymak kalıyor.

Medyandan daha önceki yazımda bahsetmiş olduğum gibi serinin tam ortasındaki değer anlamına gelmektedir. Terimden yararlanarak;

Öncelikle serideki birimleri küçükten büyüğe doğru sıralamamız gerekmektedir. Serinin birim sayısı (n=5) tek olduğundan ortanca (medyan) kolaylıkla görülebilmektedir.

4, 5, 9, 10, 12 medyan bu seride 9 olarak bulunmuştur. Pearson Çarpıklık Katsayısı formülünde;

Aritmetik ortalama 8 ve standart sapma 3.39 bir önceki örneklerde bulunmuştu. Medyan = 9 ifadesi yerine yazılarak sorunun cevabına ulaşmış olacağız. Virgülden sonra iki basamak alacak olursak -0.88 olarak karşımıza çıkacaktır.

Cevap= -0.88 olduğu için dağılım sola çarpıktır. Ve çarpıklığın şiddetinin yüksek olduğu söylenebilir.

Basıklık (Kurtosis): 

Prof. Dr. İmdat KARA’ nın Olasılık kitabında;

“X rassal değişkeninin aritmetik ortalamaya göre dördüncü momentinin,  ‘e oranına basıklık ölçüsü denir ve  ile gösterilir. Basıklık, özellikle iki dağılımın (kuramsal veya gözlemsel) karşılaştırmada başvurulan bir ölçüdür.” Şeklinde verilmiştir.

İhtiyaca göre değişik biçimlerde basıklık formülleri kullanılabilmektedir. Bizim kullanacağımız formül;

ve  = Standart sapmanın 4. kuvvetini temsil etmektedir.

Basıklık Katsayısı (BK) = 3 ise dağılım standart normal dağılıma uygundur.

BK > 3 ise dağılım sivridir.

BK < 3 ise dağılım basıktır.

https://www.slideshare.net/inandit/dalm-ltleri

Yazıda bahsedilen konuların iyice anlaşılması için eğer uygulama imkanınız var ise SPSS programıyla aşağıdaki örneği yapmanızı tavsiye ederim. SPSS’in videolu türkçe anlatımı için linkteki videoya bakabilirsiniz. https://www.youtube.com/watch?v=9oJ9xgTFSkg&t=340s

Örnek:

Küçük bir lokantaya belirli bir günde öğle yemeği için gelen müşterilerin lokantada bulunma süreleri dakika olarak aşağıda verilmiştir.

34, 19, 27, 44, 31, 29, 38, 17, 26, 30, 35, 21, 36, 24, 31, 27, 25, 41, 15, 26, 30, 28, 21, 32, 25, 39, 18, 22, 29, 32, 26, 24

Bu verilerin dağılım ölçülerini bulalım.

Verileri programa girdikten sonra;

 

Frequencies bölümünden Statistics kısmına tıklanır ve oradan;
Dispersion ve Distribution bölümlerinden dağılım ölçüleriyle ilgili bilgileri verecek olan kutucuklar işaretlenir. Continue tuşu ile ilerletilerek OK ile analiz gerçekleştirilir. Ve çıktı sayfasında istenilen analizlerin sonuçları ile karşılaşırız.

Ok işareti ile gösterilen dağılım ölçülerinin değerleri bulunmuştur. Bir de verileri görsel olarak histogram grafiği ile analiz edersek;

Karşımıza böyle bir grafik çıkacaktır.

Basıklık (Kurtosis) Değeri: -0.207

Çarpıklık (Skewness) Değeri: 0.267

Aritmetik ortalama (Mean), Medyan (Median) ve Mode (Mod) birbirlerine yakın değerler aldığı görülmektedir.

  • Müşterilerin lokantada bulunma süreleri ortalama olarak 28 dk’dır.
  • Müşterilerin lokantada bulunma süreleri min 15 dk, max 44 dk’dır.
  • Müşteriler lokantada ağırlıklı olarak 26 dk bulunurlar.

Gibi sonuçlar çıkarabiliriz.

Tanımlamalar İçin Kullanılan Kaynaklar:

Eskişehir Osmangazi Üniversitesi – İstatistik bölümü ders notları (Prof. Dr. Hatice ŞAMKAR)

Prof. Dr. Fikri AKDENİZ – Olasılık ve İstatistik kitabı

Prof. Dr. İmdat KARA – Olasılık kitabı

https://iridl.ldeo.columbia.edu/dochelp/StatTutorial/Dispersion/index.html#Range

 

 

 

 

 

 

 

 

Data Science Earth

Data Science Earth ekibi, üst düzey Veri Bilim çözümleri üretmek amacı ile toplanmış akademisyenler ve uzmanlardan oluşmaktadır. Öncelikli olarak veri bilincini geliştirmeyi ve küreselleşen rekabet ortamında verinin gücünün doğru kullanılmasını sağlamayı amaçlamaktadır.

Sponsor

QuestionPro 35 farklı soru seçim özelliği ile anket çalışmalarımıza güç katmaktadır.