İstatistik Nedir? Nerelerde Kullanılır?

hipotez testleri güven düzeyi ve red bölgeleri

İstatistik temel olarak nesneler, olaylar ve durumlar ile ilgili bunların birbirleri ile ilişkilerinin kayıt altına alınması ile oluşan verilerden betimsel ya da tahminsel bilgiler elde etmek için matematiksel modeller üretmektir.

Klasik istatistik 1800’ler öncesi Olasılık, Korelasyon, Bayes Teoremi gibi olgularla ortaya çıkmış, sonraki yıllarda regresyon, zaman serileri gibi metodolojiler ile gelişmiştir. İstatistik 1950’lere geldiğimizde Modern İstatistik teorisi ile yeni bir boyuta geçmiştir. Ve son olarak 1990’larda İstatistik, kendi içerisinden Makine Öğrenmesini çıkartmıştır.

Günümüzde İstatistik 2 ana başlık altında tanımlanmaktadır.

1- Betimsel İstatistik

Betimsel istatistik elimizdeki veriden elde ettiğimiz bilgilerle verisetinin alakalı olduğu şeyleri tanımaya çalışırız. Betimsel istatistik, verilerin organize edilip, özetlenip en uygun şekilde analize hazır hale getirilmesi süreçlerinin bütünüdür, elimizdeki veri setini tanımamızı sağlarlar.

Örneğin bazı veri kaynakları bilgisayarların anlayabileceği yapıda değildir. Örneğin metin madenciliği yaparken analiz edeceğimiz metini algoritmaya olduğu gibi tanıtamayız. Yazılan bir kitabın hangi yazar tarafından yazıldığını tahmin etmek istiyorsak. Metin içerisinde geçen kelimelerin ve kelime gruplarının istatistiklerini bulup algoritmaya bu istatistikleri öğretiriz.

Yada bir sepet analizi yapacağımız zaman ürünlerin frekanslarını kullanırız. Hangi ürün kaç sepette var. Ürünlerin birlikte bulunma oranları gibi. Bu anlamda betimsel istatistik hem bizim veriyi anlamamızı sağlar hem de bilgisayarın veriyi anlamasını sağlar.

Aşağıda çok kullanılan bazı betimsel istatistikler sıralanmıştır.

  • Veri sayısı(Count)
  • Standart Sapma(Standard Deviation)
  • Frekans Tablosu(Frequency Table)
  • En küçük değer(Minumum)
  • Varyans(Variance)
  • Çeyreklikler(Quarters)
  • En büyük değer(Maximum)
  • Çarpıklık(Skewness)
  • Korelasyon(Correlation)
  • Ortalama(Avarage)
  • Basıklık(Kurtosis)
  • Dağılım(Distribution)
  • Ortanca(Median)
  • Tepe Değer(Mod)

2- Çıkarımsal İstatistik

Çıkarımsal istatistik ile temel olarak elimizde bulunan veriden yola çıkarak elde olmayan bilgilere ulaşmaya çalışırız. Yani veriyi analiz ederiz.

Hipotez testleri, Tahmin için kullanılan metodolojiler(örn: regresyon) bu başlık altında değerlendirilir.

İstatistik için kullanılan programlar nelerdir?

Son yıllarda R dili istatistikçilerin neredeyse vazgeçilmezi durumuna gelmiştir. Bu dili kullanarak aklınıza gelen her türlü istatistiksel analizi yapabilirsiniz.

Python R diline göre istatistikçiler tarafından istatistiksel analizler için daha az tercih edilen bir dildir. Daha çok makine öğrenmesi için tercih ediliyor.

Knime içerisinde birçok istatiksel analiz yapılabilecek node lar var. Kolay kullanımı ve bedava bir veri analiz aracı olması sebebiyle son yıllarda oldukça popülerleşti.

Sas fiyatı dolayısı ile çok tercih edilmese de bankalarda çok yaygın kullanılan bir istatistik araçtır.

IBM Statistics yani eski adıyla SPSS hala en popüler istatistik aracıdır. Bunda akademik tarafta çıktılarının kabul görmesinin önemi büyük.

 

Bana sorarsanız hepsinde aynı şeyler yapılabildiği için hepsini de kullanmayı öğrenmek gerekir. Çünkü neredeyse her gittiğiniz kurumda farklı bir aracın kullanıldığını görebilirsiniz. Ama ücretsiz seçeneklerin zaman içerisinde öne çıkacağı da ortadadır.

Data Science Earth

Data Science Earth ekibi, üst düzey Veri Bilim çözümleri üretmek amacı ile toplanmış akademisyenler ve uzmanlardan oluşmaktadır. Öncelikli olarak veri bilincini geliştirmeyi ve küreselleşen rekabet ortamında verinin gücünün doğru kullanılmasını sağlamayı amaçlamaktadır.

Sponsor

QuestionPro 35 farklı soru seçim özelliği ile anket çalışmalarımıza güç katmaktadır.