Ki-kare (x²) testi hesaplaması

İki yönlü çapraz tablolar, istatistiksel test ve analizler için temel oluşturur. İki kategorik değişkende  en yaygın olarak kullanılan testlerden biri Ki-kare testidir. Bu test, iki kategorik değişkenin bağımsız olup olmadığını incelemek için kullanılır.
Ki-kare (x²) testi, iki kategorik değişken arasındaki ilişkinin istatistiksel olarak anlamlı olup olmadığını değerlendirmek amacıyla kullanılan temel bir istatistiksel yöntemdir. Bu test, gözlenen frekanslar ile değişkenlerin bağımsız olması durumunda beklenen frekanslar arasındaki farkları inceleyerek, değişkenlerin birbirinden etkilenip etkilenmediğini ortaya koyar. Ki-kare testi, özellikle nominal veya ordinal ölçekteki kategorik değişkenler için uygundur ve araştırmacılara değişkenler arasında ilişki olup olmadığını güvenilir bir şekilde gösterir.
Testin hesaplama mantığı, her hücredeki gözlenen frekans ile beklenen frekans arasındaki farkın karesinin, beklenen frekansa bölünmesi ve tüm hücreler için bu değerlerin toplamının alınması şeklindedir. Beklenen frekanslar, iki değişkenin bağımsız olması durumunda, satır ve sütun toplamlarının çarpımı ile genel toplamın bölünmesi yoluyla hesaplanır.  Örneğin, bir okulda erkek ve kız öğrencilerin spor yapma durumunu inceleyen bir araştırmayı ele alalım. Bu araştırmaya göre erkek öğrencilerden 30’u spor yaparken 20’si yapmamaktadır; kız öğrencilerden ise 25’i spor yapmakta 25'i de spor yapmamaktadır. Bu veriler çaproz tabloda gösterilir. Bu tabloda her hücre için beklenen frekans hesaplanır; örneğin erkek ve spor yapanlar için beklenen frekans, toplam erkek sayısı ile toplam spor yapan sayısının çarpımının genel toplamın bölümüyle bulunur. Gözlenen ve beklenen frekans arasındaki farklar, test istatistiğine katkıda bulunur. Tüm hücreler için hesaplamalar yapıldıktan sonra bulunan x² değeri, istatistiksel tablolar veya yazılımlar aracılığıyla p-değeri ile karşılaştırılır. P-değeri belirlenen anlamlılık düzeyinden (genellikle 0,05) küçük ise, iki değişken arasında istatistiksel olarak anlamlı bir ilişki olduğu sonucuna varılır; aksi takdirde değişkenler bağımsız kabul edilir. 
Ki-kare testi, eğitim araştırmalarında öğrencilerin performans ve tercihleri, sağlık araştırmalarında hastalık durumu ile risk faktörleri, sosyal bilimlerde demografik özelliklerle davranış ilişkilerini incelemek gibi pek çok alanda kullanılmaktadır. Bu yönüyle, kategorik verilerin analizi ve ilişkilerin değerlendirilmesi için güvenilir ve etkili bir yöntem olarak kabul edilir.
Konuyu bir çapraz tablo üzerinden basit bir örnekle açıklayalım ve Ki kare hesaplamasını bir hücre üzerinden yapalım:

İki yönlü çapraz tablolar

İki yönlü çapraz tablo, diğer bir adıyla iki boyutlu kontenjans tablosu, istatistiksel araştırmalarda iki kategorik değişken arasındaki ilişkiyi görselleştirmek ve analiz etmek için kullanılan temel araçlardan biridir. Bu tablolar, bir değişkenin kategorilerini satırlarda, diğer değişkenin kategorilerini ise sütunlarda gösterir ve her hücrede iki değişkenin kesişimine ait gözlem sayısı, yani frekans değeri yer alır. Böylece, araştırmacılar değişkenler arasındaki olası ilişkileri hem sayısal hem de görsel olarak değerlendirme imkânı bulurlar. 
İki yönlü çapraz tabloların en önemli özelliklerinden biri, iki kategorik değişken arasındaki ilişkiyi ortaya koymalarıdır. Tabloyu inceleyerek hangi kategorilerin birlikte daha sık veya daha az gözlendiği görülebilir. Örneğin, bir araştırmada cinsiyet ile spor yapma durumu arasındaki ilişki inceleniyorsa, tablo sayesinde erkeklerin ve kadınların spor yapma alışkanlıkları karşılaştırılabilir. Hücrelerde sadece gözlem sayıları değil, aynı zamanda yüzde veya oran değerleri de gösterilebilir. Bu, özellikle farklı büyüklükteki grupların karşılaştırılmasında anlamlı bilgiler sağlar. Örneğin, bir okulda erkek ve kız öğrencilerin spor yapma oranlarını karşılaştırmak istiyorsanız, hücrelerdeki yüzdeler gruplar arasındaki farklılıkları daha net bir biçimde gösterir. 
Çapraz tabloların bir diğer avantajı, verileri görselleştirerek yorumlamayı kolaylaştırmasıdır. Tablodaki sayısal dağılımlar, hangi kategorilerin birbirine bağlı olabileceğini görsel olarak gösterir ve araştırmacının ilişkileri hızlıca değerlendirmesine imkân tanır. Örneğin, erkek ve kadınlar arasında spor eğilimleri hakkında bir araştırma kapsamında toplanan verilere göre oluşturulan çapraz tabloya bakarak, erkeklerin spor yapma eğiliminin kadınlara göre daha yüksek veya düşük olduğunu gözlemlemek mümkündür. Tabloya dönüştürülen veriler arasında hızlı bir şekilde istatistiksel analiz ve yorumlama yapılabilir. Çapraz tablo sayesinde araştırmacı, “Erkekler mi, kadınlar mı daha fazla spor yapıyor?” gibi soruları hızlıca inceleyebilir ve istatistiksel analiz yapabilir. 
İki yönlü çapraz tablolar, istatistiksel test ve analizler için temel oluşturur. İki kategorik değişkende en yaygın olarak kullanılan testlerden biri Ki-kare testidir. Bu test, iki kategorik değişkenin bağımsız olup olmadığını incelemek için kullanılır. Çapraz tabloda yer alan frekanslar ve hücrelerdeki gözlemler, Ki-kare testi hesaplamalarına temel teşkil eder ve araştırmacıya değişkenler arasındaki ilişkinin anlamlı olup olmadığını gösterir. 

Ki-kare (x²) testi, iki kategorik değişken arasındaki ilişkinin istatistiksel olarak anlamlı olup olmadığını değerlendirmek amacıyla kullanılan temel bir istatistiksel yöntemdir. Bu test, gözlenen frekanslar ile değişkenlerin bağımsız olması durumunda beklenen frekanslar arasındaki farkları inceleyerek, değişkenlerin birbirinden etkilenip etkilenmediğini ortaya koyar. Ki-kare testi, özellikle nominal veya ordinal ölçekteki kategorik değişkenler için uygundur ve araştırmacılara değişkenler arasında ilişki olup olmadığını güvenilir bir şekilde gösterir.
Testin hesaplama mantığı, her hücredeki gözlenen frekans ile beklenen frekans arasındaki farkın karesinin, beklenen frekansa bölünmesi ve tüm hücreler için bu değerlerin toplamının alınması şeklindedir. Beklenen frekanslar, iki değişkenin bağımsız olması durumunda, satır ve sütun toplamlarının çarpımı ile genel toplamın bölünmesi yoluyla hesaplanır.  Örneğin, bir okulda erkek ve kız öğrencilerin spor yapma durumunu inceleyen bir araştırmayı ele alalım. Bu araştırmaya göre erkek öğrencilerden 30’u spor yaparken 20’si yapmamaktadır; kız öğrencilerden ise 25’i spor yapmakta 25'i de spor yapmamaktadır. Bu veriler çapraz tabloda gösterilir. Bu tabloda her hücre için beklenen frekans hesaplanır; örneğin erkek ve spor yapanlar için beklenen frekans, toplam erkek sayısı ile toplam spor yapan sayısının çarpımının genel toplamın bölümüyle bulunur. Gözlenen ve beklenen frekans arasındaki farklar, test istatistiğine katkıda bulunur. Tüm hücreler için hesaplamalar yapıldıktan sonra bulunan x² değeri, istatistiksel tablolar veya yazılımlar aracılığıyla p-değeri ile karşılaştırılır. P-değeri belirlenen anlamlılık düzeyinden (genellikle 0,05) küçük ise, iki değişken arasında istatistiksel olarak anlamlı bir ilişki olduğu sonucuna varılır; aksi takdirde değişkenler bağımsız kabul edilir. 
Ki-kare testi, eğitim araştırmalarında öğrencilerin performans ve tercihleri, sağlık araştırmalarında hastalık durumu ile risk faktörleri, sosyal bilimlerde demografik özelliklerle davranış ilişkilerini incelemek gibi pek çok alanda kullanılmaktadır. Bu yönüyle, kategorik verilerin analizi ve ilişkilerin değerlendirilmesi için güvenilir ve etkili bir yöntem olarak kabul edilir.
Konuyu bir çapraz tablo üzerinden basit bir örnekle açıklayalım ve Ki kare hesaplamasını bir hücre üzerinden yapalım:
Bu örnekteki bütün hücreler için geçerli ki-kare testi sonuçları için ayrıntılı olarak aşağıdaki bağlantıyı inceleyebilirsiniz: 
 
Örnekte verilen çapraz tabloda satırlar cinsiyeti (Erkek, Kadın), sütunlar ise spor yapma durumunu (Yapan, Yapmayan) göstermektedir. Her hücre, ilgili kategorilerin kesişimindeki gözlem sayısını ifade etmektedir. Örneğin, tablodaki “Erkek – Spor Yapan” hücresinde yer alan 30 değeri, araştırmaya katılan 50 erkek öğrenciden 30’unun spor yaptığını göstermektedir. Bu tablo sayesinde araştırmacı, “Erkekler mi, kadınlar mı daha fazla spor yapıyor?” gibi soruları hızlıca inceleyebilir ve aynı zamanda Ki-kare testi ile iki değişken arasındaki ilişkinin istatistiksel olarak anlamlı olup olmadığını değerlendirebilir. Sonuç olarak, iki yönlü çapraz tablolar, iki kategorik değişken arasındaki ilişkileri sistematik ve anlaşılır bir şekilde sunmak, frekans ve oran dağılımlarını gözlemlemek ve istatistiksel analizler için temel oluşturmak açısından oldukça değerli araçlardır. Bu tablolar, araştırmacılara hem görsel hem sayısal veri analizi imkânı sunarak bilimsel çalışmalarda güvenilir ve açıklayıcı sonuçlar elde etmelerini sağlar.
 
Göreli sıklık tablosu 
Çapraz tablolarda toplam frekanslara göre izafi %'lik değerler (Göreli sıklık değerleri) hesaplanabilir.  Göreli sıklık tablosu, bir veri setindeki her bir kategorinin toplam gözlem sayısına göre oranını veya yüzdesini gösteren tablodur; başka bir deyişle, her kategorinin veri setindeki ağırlığını veya payını görselleştirir. Toplam gözlem sayısı 1 veya yüzde 100 olarak kabul edilir ve her hücrede sadece frekans değil, frekansın toplam içindeki oranı yer alır. Kategorik veriler için yaygın olarak kullanılır ve verilerin dağılımını daha net gösterir. Yukarıdaki spor örneğinde toplam gözlem sayısına göre erkeklerin spor yapma oranı 0,30 (%30), erkeklerin spor yapmama oranı 0,20 (%20), kadınların spor yapma oranı 0,25 (%25) ve kadınların spor yapmama oranı 0,25 (%25) şeklindedir. Yani Toplam öğrencilere göre erkeklerin göreli sıklık değeri 30 ÷ 100 = 0,30 yaklaşık %30 Toplam öğrencilere göre kadınların göreli sıklık değeri 20 ÷ 100 = 0,20 yaklaşık %20 Toplam öğrencilere göre erkeklerin göreli sıklık değeri 25 ÷ 100 = 0,25 yaklaşık %25 Toplam öğrencilere göre kadınların göreli sıklık değeri 25 ÷ 100 = 0,25 yaklaşık %25 olur. Aynı şekilde Spor yapanlara göre erkeklerin göreli sıklık değeri 30 ÷ 55 ≈ 0,545 yaklaşık %54,5 Spor yapanlara göre kadınların göreli sıklık değeri 25 ÷ 55 ≈ 0,455 yaklaşık %45,5 Spor yapmayanlara göre erkeklerin göreli sıklık değeri 20 ÷ 45 ≈ 0,444 yaklaşık %44,4 Spor yapmayanlara göre kadınların göreli sıklık değeri 25 ÷ 45 ≈ 0,556 yaklaşık %55,6 olur.

Veri toplama yöntemleri

1. Birincil Veri Toplama Yöntemleri: Birincil veriler, araştırmacının doğrudan topladığı ve orijinal verileridir. Bu yöntemle elde edilen veriler araştırmanın özel gereksinimlerine göre toplanır. Anket, gözlem, deney, test, mülakat ve görüşmeler birincil veri toplama yöntemleridir.
2. İkincil Veri Toplama Yöntemleri: İkincil veriler, başka bir araştırmacı veya kurum tarafından daha önce toplanmış olan hazır verilerin kullanılmasıdır. Bu yöntem, genellikle daha düşük maliyetli ve daha az zaman alıcıdır çünkü araştırmacı hazır veri kaynaklarına başvurur. Resmî istatistikler, akademik yayınlar ve raporlar, kurumsal veri tabanları, medya ve haber kaynakları, dijital veri tabanları ve internet kaynakları ikincil veri toplama yöntemleridir.
 
Birincil veri toplama yöntemleri, araştırma için gerekli bilgilerin sistemli bir şekilde elde edilmesini sağlayan tekniklerdir. Bu yöntemler, araştırmanın amacına ve veri türüne göre tek başına ya da birlikte kullanılabilir. Kısaca şöyle açıklanabilir:
1. Anket: Katılımcılara yazılı sorular yöneltilerek bilgi toplama yöntemidir. Çok sayıda kişiden hızlı veri elde etmeye uygundur. 
2. Gözlem: Kişilerin davranışlarını doğal ortamlarında izleyerek veri toplama sürecidir. Doğrudan ve gerçek zamanlı bilgi sağlar. 
3. Görüşme (Mülakat): Araştırmacı ile katılımcı arasında yüz yüze, telefonla veya çevrim içi yapılan soru-cevap tekniğidir. Derinlemesine bilgi verir. 
4. Deney: Kontrollü bir ortamda değişkenlerin etkisini incelemek için kullanılan yöntemdir. Neden–sonuç ilişkisi kurmaya uygundur. 
İkincil veri toplama yöntemleri genelllikle literatür taraması şeklinde gerçekleşir. Burada daha önceden başkaalrı tarafından hazırlanmış Raporlar, istatistikler, tarihî kayıtlar, belgeler, resmi veriler gibi mevcut kaynaklardan bilgi toplama işlemi yapılır.

Veri toplama planı aşamaları

İki kategorik değişkene dayalı veri toplama sürecinde başarılı sonuçlara ulaşabilmek için sistematik bir yaklaşım benimsemek büyük önem taşır. Sistematik olmak, problemi çözmeye adım adım, düzenli ve mantıklı bir şekilde ilerleyerek yaklaşmak anlamına gelir. Bu yaklaşım yalnızca çözüm sürecini kolaylaştırmakla kalmaz, aynı zamanda yapılan çalışmanın izlenebilir, tekrarlanabilir ve hataya daha az açık olmasını da sağlar. Sistematik bir yöntemin sağladığı birçok avantaj vardır. Öncelikle süreç açık ve anlaşılır olduğu için araştırmanın her aşaması rahatlıkla takip edilebilir. Adımların düzenli ilerlemesi olası hataların erken fark edilmesine imkân tanır ve zaman ile kaynakların daha etkili kullanılmasını sağlar. Ayrıca karmaşık araştırma problemleri daha küçük ve yönetilebilir parçalara ayrılarak sürecin daha iyi kontrol edilmesi mümkün olur. Bu sayede belirsizlikler azalır ve araştırmacıya daha net bir yol haritası sunulur.
 

İstatistiksel araştırma sorusu oluşturma

İki kategorik değişken arasındaki ilişkiyi belirlemeye yönelik istatistiksel araştırma sorularının oluşturulması, araştırma sürecinin hem güvenilirliğini hem de geçerliliğini artırmayı hedefleyen önemli bir aşamadır. Bu süreçte araştırmacı, oluşturacağı soruların belirli ölçütlere uygun olmasına dikkat etmelidir. Bu ölçütler, istatistiksel araştırmanın amacına hizmet ederek araştırma sürecinin sistematik, anlaşılır ve bilimsel nitelikte yürütülmesini sağlar. 
 
Araştırma sorusunda dikkat edilmesi gereken özellikler:
1.Amacı net olmalıdır.
2.Araştırmaya uygun olmalıdır. 
(anlamlı ve yararlı olmalı
3.İlgilenilen grup (evren) açık olmalıdır.
4.Değişken açık bir şekilde görülmelidir.
5.Veri toplanabilir olmalıdır.
6.Değişebilirliği yansıtmalıdır.
7.Odaklanılan grup, araştırma yapmaya imkân vermelidir.
8.Kategorik veri toplamaya uygun olmalıdır. 

İstatistiksel araştırmada kategorik değişkenler

İstatistiksel araştırma süreci, gerçek yaşamdan elde edilen verilerin sistemli bir biçimde toplanması, analiz edilmesi ve yorumlanmasıyla anlamlı sonuçlara ulaşmayı amaçlayan bilimsel bir yaklaşımdır. Bu süreç, araştırma sorusunun belirlenmesiyle başlar; uygun veri türlerinin seçilmesi, verilerin düzenlenmesi ve analiz yöntemlerinin uygulanmasıyla devam eder. Özellikle kategorik verilerle yapılan çalışmalar, farklı gruplar arasındaki benzerlik ve farklılıkları ortaya çıkarmada önemli bir rol oynar ve veriye dayalı karar verme süreçlerini destekler.
İki kategorik değişkenli veri dağılımları ile çalışma ve veriye dayalı karar verme, belirli sınıflara ayrılmış verilerin analiz edilmesine dayanır. Kategorik değişkenler, sayısal değer taşımayan ve belirli isimler veya gruplar ile ifade edilen değişkenlerdir. Örneğin cinsiyet (kadın/erkek), kan grubu (A/B/AB/0), medeni durum (evli/bekar), meslek (öğretmen/doktor/marangoz) ve spor türü (futbol/basketbol/tenis) gibi farklı alanlarda sınıflara ayrılabilen değişkenler kategorik değişken olarak adlandırılır. Bu tür değişkenler, verilerin anlamlandırılmasında ve gruplar arası karşılaştırmaların yapılmasında temel bir rol üstlenir.
Kategorik değişkenlere örnekler verelim: 
Cinsiyet (Erkek, Kadın)
Medeni durum (Evli, Bekar, Boşanmış, Dul)
Eğitim düzeyi (İlkokul, Ortaokul, Lise, Üniversite)
Meslek (Öğretmen, Doktor, Mühendis, Esnaf, Serbest, Çalışmıyor)
Gelir grubu (Düşük, Orta, Yüksek) 
Kan Grubu (A, B, AB, 0)
Şehir veya il (İstanbul, Ankara, İzmir, Konya vb.)
Tercih edilen ulaşım aracı (Otobüs, Metro, Taksi, Özel Araç)
Barınma tipi (Daire, Müstakil, Yurt, Pansiyon)
Sosyal medya tercihi (Youtube, Facebook, Tik Tok, Instagram, Diğer)
Sigorta türü (Özel, Devlet, Yok)
Hobi türü (Spor, Sanat, Okuma, Müzik)
Konut sahipliği (Kira, Sahip, Aile)
Seyahat tercihi (Otel, Pansiyon, Daire, Bungalov)
Telefon markası (Apple, Samsung, Xiaomi, Diğer)
Araç türü (Otomobil, Motosiklet, Bisiklet, Toplu taşıma)
Giyim tarzı (Klasik, Spor, Modern)
Evcil hayvan sahipliği (Kedi, Köpek, Kuş, Yok)
Sigara kullanım durumu (Kullanıyor, Kullanmıyor, Bıraktı)
Okula Geliş Durumu (Servis, Otobüs, Yaya, Aile
 
Bağlam, istatistiksel araştırma sürecine kaynaklık eden gerçek yaşam durumlarını ifade eder. Örnek olarak Ankara’daki trafik yoğunluğu, belirli bir ilacın insan üzerindeki etkisi, tarımsal verimlilikte iklimin rolü, obezite ile mücadele veya bir şehrin günlük elektrik tüketimindeki değişimler verilebilir. Bu bağlamlar, araştırmanın temelini oluşturarak hangi verilerin toplanacağına ve nasıl analiz edileceğine yön verir.
Kategorik veri dağılımlarıyla yapılan istatistiksel araştırmalar, farklı kategorik grupların benzerlik ve farklılıklarını belirlemeye, değişkenler arasındaki ilişkileri incelemeye ve bu ilişkilerin yönünü ve etkisini anlamaya odaklanır. Bu tür çalışmalar, kategorik veriler üzerinden güvenilir ve bilimsel temelli çıkarımlar yapmayı, sonuçlara dayalı tahminlerde bulunmayı ve karar alma süreçlerini desteklemeyi mümkün kılar. 

İstatistiksel araştırma süreci

Nicel veriler: Bir grubun özelliklerinin sayılması veya ölçülmesiyle elde edilen verilerdir. İstatistiksel araştırmalarda bağlam, verilere dayalı bilgi üretme ihtiyacı duyulan gerçek yaşam durumlarıdır.

İstatistiksel araştırma süreci, bağlama yönelik istatistiksel araştırma soruları oluşturmayla başlar ve bağlam sürecin tamamında önemli bir rol oynar. Bu nedenle gerçek yaşam durumlarından yola çıkılarak istatistiksel araştırmanın bağlamının belirlenmesi ve istatistiksel araştırma sürecinin bağlam doğrultusunda oluşturulması gerekmektedir.

Evren (Örneklem Uzayı): Araştırmanın kapsamında ele alınan araştırma sonuçlarının genellendiği topluluktur.

Değişken: Gözlemlenen elemanların birinden diğerine değişen veya farklılaşan özelliklerdir. 

Aşağıdaki Yazılar İlginizi Çekebilir!!!