top of page

Kategorik Değişkenlerde Eksik Veri İmputasyonu: MCAR, MAR, MNAR ve Yöntemler

  • Yazarın fotoğrafı: Emre Erdin
    Emre Erdin
  • 28 Tem 2025
  • 5 dakikada okunur

Veri analizi ve makine öğrenimi projelerinde karşılaşılan en yaygın sorunlardan biri, veri setlerindeki eksik değerlerdir. Birçok kurs ve kaynak, genellikle sayısal değişkenlerin imputasyonuna odaklanırken, kategorik değişkenlerdeki eksiklikler sıklıkla göz ardı edilmekte veya basit yöntemlerle geçiştirilmektedir. Oysa özellikle kategorik değişkenlerdeki eksiklikler, analizlerin doğruluğunu ve modellerin performansını ciddi şekilde etkileyebilir.


Eksik verilerle başa çıkmak için çeşitli stratejiler bulunsa da, doğru yöntemi seçmek, eksik verinin altında yatan mekanizmayı anlamaktan geçer. Bu blog yazısında, eksik veri mekanizmalarını (MCAR, MAR, MNAR) detaylı bir şekilde inceleyecek ve kategorik değişkenlerdeki eksik değerleri impute etmek için kullanılabilecek çeşitli yöntemleri ele alacağız. Amacım, veri bilimcilere ve analistlere, eksik verilerle (özellikle Kategorik Eksik Veri İmputasyonu) karşılaştıklarında bilinçli kararlar vermeleri için kapsamlı bir rehber sunmaktır.

MissingValuesImage
Missing Values


Eksik Veri Mekanizmaları: MCAR, MAR ve MNAR

Eksik verinin neden ortaya çıktığını anlamak, hangi imputasyon yönteminin en uygun olduğunu belirlemede kritik bir adımdır. Rubin (1976) eksik veri problemlerini üç ana kategoriye ayırmıştır:


Missing Completely at Random (MCAR) - Tamamen Rastgele Eksik

MCAR, bir verinin eksik olma olasılığının, hem gözlemlenen hem de gözlemlenmeyen verilerden tamamen bağımsız olduğu durumu ifade eder. Basitçe söylemek gerekirse, eksiklik tamamen şans eseri meydana gelir ve veri setindeki hiçbir değişkenle ilişkili değildir. Örneğin, bir anket sırasında veri girişinde yapılan rastgele bir hata veya bir sensörün arızalanması sonucu belirli bir kaydın kaybolması MCAR olarak kabul edilebilir. MCAR durumunda, eksik verileri göz ardı etmek veya basit imputasyon yöntemleri kullanmak (örneğin, mod ile doldurma) genellikle yanlı sonuçlara yol açmaz çünkü eksiklik deseni veri yapısını bozmaz. Ancak, gerçek dünya veri setlerinde MCAR durumu oldukça nadirdir ve genellikle daha karmaşık eksiklik mekanizmalarıyla karşılaşılır.


Missing at Random (MAR) - Rastgele Eksik

MAR, bir verinin eksik olma olasılığının, veri setindeki diğer gözlemlenen değişkenlere bağlı olduğu, ancak eksik olan değişkenin kendi gözlemlenmeyen değerlerine bağlı olmadığı durumu ifade eder. Yani, eksiklik, veri setinde bulunan diğer bilgilerle açıklanabilir. Örneğin, bir sağlık anketinde, yaşlı katılımcıların belirli bir sağlık sorunu hakkındaki soruları yanıtlama olasılığının genç katılımcılara göre daha düşük olması durumu MAR olarak değerlendirilebilir. Burada eksiklik, 'yaş' değişkeni (gözlemlenen bir değişken) ile ilişkilidir. MAR, MCAR'dan daha yaygın ve gerçekçi bir senaryodur. Bu durumda, eksikliği açıklayan gözlemlenen değişkenler kullanılarak daha sofistike imputasyon yöntemleri (örneğin, regresyon imputasyonu, çoklu imputasyon) uygulanabilir. Modern imputasyon tekniklerinin çoğu MAR varsayımına dayanır ve bu varsayım altında güvenilir sonuçlar üretebilirler.


Missing Not at Random (MNAR) - Rastgele Olmayan Eksik

MNAR, bir verinin eksik olma olasılığının, eksik olan değişkenin kendi gözlemlenmeyen değerlerine bağlı olduğu durumu ifade eder. Bu, en karmaşık ve başa çıkması en zor eksiklik mekanizmasıdır çünkü eksikliği açıklayan bir bilgi veri setinde bulunmamaktadır. Örneğin, düşük gelirli kişilerin gelirlerini bildirmeme olasılığının daha yüksek olması veya belirli bir hastalığı olan kişilerin semptomlarını rapor etmeme eğiliminde olması MNAR'a örnek olabilir. Burada eksiklik, eksik olan 'gelir' veya 'hastalık semptomu' değişkeninin gerçek değeriyle ilişkilidir. MNAR durumunda, eksik verileri basitçe göz ardı etmek veya gözlemlenen verilere dayalı imputasyon yöntemleri kullanmak ciddi yanlı sonuçlara yol açabilir. MNAR ile başa çıkmak için genellikle eksikliği açıklayabilecek ek veriler toplamak, alan bilgisi kullanmak veya hassasiyet analizleri yapmak gibi daha ileri düzey stratejiler gereklidir. Bu durum, imputasyon sürecini oldukça zorlaştırır ve dikkatli bir yaklaşım gerektirir.



Kategorik Değişkenler için İmputasyon Yöntemleri


Eksik veri mekanizmasını anladıktan sonra, sıra eksik değerleri doldurma (imputasyon) yöntemlerini seçmeye gelir. Kategorik değişkenler için kullanılabilecek başlıca imputasyon yöntemleri şunlardır:


1. Gözlemleri Silme (Deletion)

En basit yaklaşım, eksik değer içeren tüm satırları (gözlemleri) veri setinden çıkarmaktır. Bu yöntem, veri setindeki eksik veri oranı çok düşük olduğunda ve eksiklik MCAR olduğunda kabul edilebilir olabilir. Ancak, veri kaybına yol açar ve özellikle eksik veri oranı yüksekse veya eksiklik MAR/MNAR ise ciddi yanlı sonuçlara neden olabilir. Bu nedenle, genellikle önerilmeyen bir yöntemdir.


2. En Sık Görülen Değer ile Doldurma (Mode Imputation)

Bu yöntem, bir kategorik değişkenin eksik değerlerini, o değişkenin en sık görülen kategorisi (modu) ile değiştirmeyi içerir. Uygulaması kolay ve hızlıdır. Ancak, veri setinde çok sayıda eksik değer varsa veya değişkenin kategori dağılımı dengesizse, bu yöntem veri setinin orijinal dağılımını bozabilir ve modelin performansını olumsuz etkileyebilir. Özellikle MCAR durumunda basit bir başlangıç noktası olabilir.


3. 'Bilinmiyor' veya Yeni Bir Kategori ile Doldurma

Eksik değerleri, veri setinde olmayan yeni bir kategori (örneğin, 'Bilinmiyor', 'Diğer') ile doldurmak, eksiklik bilgisini korumanın bir yoludur. Bu yöntem, eksik değerlerin kendisinin anlamlı bir bilgi taşıdığı durumlarda (örneğin, bir soruyu yanıtlamamış olmak bir tercih olabilir) veya MNAR şüphesi olduğunda faydalı olabilir. Ancak, bu yeni kategorinin model tarafından nasıl yorumlanacağı ve modelin performansına etkisi dikkatle değerlendirilmelidir


4. Tahmine Dayalı İmputasyon Yöntemleri (Predictive Imputation)

Bu yöntemler, eksik değerleri tahmin etmek için diğer değişkenleri kullanır. Daha sofistike ve genellikle daha doğru sonuçlar verirler, özellikle MAR durumunda etkilidirler. Kategorik değişkenler için kullanılabilecek tahmine dayalı yöntemler şunları içerir:


Sınıflandırma Modelleri: Eksik değer içeren değişkeni hedef değişken olarak alıp, veri setindeki diğer değişkenleri kullanarak bir sınıflandırma modeli (örneğin, Karar Ağaçları, Random Forest, Lojistik Regresyon) eğitilir. Daha sonra bu model, eksik değerleri tahmin etmek için kullanılır.


K-En Yakın Komşu (KNN) İmputasyonu: KNN, eksik değerleri, eksik değere sahip gözleme en benzer (en yakın) K komşunun değerlerine bakarak doldurur. Kategorik değişkenler için, komşuların en sık görülen kategorisi kullanılabilir. Ancak, KNNImputer doğrudan kategorik verilerle çalışmadığı için, genellikle onehot encoding gibi yöntemlerle kategorik değişkenlerin sayısal temsilleri oluşturulduktan sonra uygulanır.


Zincirleme Denklemlerle Çoklu İmputasyon (MICE - Multiple Imputation by Chained Equations): MICE, eksik verilerle başa çıkmak için en güçlü ve esnek yöntemlerden biridir. Her eksik değişkeni, diğer değişkenler kullanılarak bir regresyon modeli aracılığıyla tahmin eder. Bu süreç, tüm eksik değerler doldurulana kadar iteratif olarak tekrarlanır. MICE, birden fazla impute edilmiş veri seti oluşturarak imputasyon belirsizliğini de hesaba katar, bu da daha güvenilir istatistiksel çıkarımlar yapılmasını sağlar. Özellikle MAR durumunda çok etkilidir.



Kategorik değişkenlerdeki eksik verilerle başa çıkmak, veri analizi sürecinin önemli bir parçasıdır. Eksik verinin altında yatan mekanizmayı (MCAR, MAR, MNAR) anlamak, doğru imputasyon yöntemini seçmek için temel bir adımdır. MCAR en basit durum olsa da, gerçek dünyada MAR ve MNAR ile daha sık karşılaşılır. MAR durumunda, tahmine dayalı imputasyon yöntemleri (MICE, sınıflandırma modelleri) etkili çözümler sunarken, MNAR en zorlu senaryodur ve genellikle ek bilgi veya hassasiyet analizleri gerektirir. Her imputasyon yönteminin kendine özgü avantajları ve dezavantajları vardır. Veri bilimcilerin, veri setlerinin özelliklerini, eksiklik mekanizmasını ve analizlerinin amacını dikkate alarak en uygun yöntemi seçmeleri önemlidir. Unutulmamalıdır ki, hiçbir imputasyon yöntemi mükemmel değildir ve her zaman bir miktar belirsizlik içerir. Bu nedenle, imputasyon sonrası analizlerin sağlamlığını değerlendirmek için hassasiyet analizleri yapmak faydalı olacaktır. Umarız bu blog yazısı, kategorik değişkenlerdeki eksik verilerle başa çıkma konusunda size kapsamlı bir bakış açısı sunmuştur. Doğru imputasyon stratejileriyle, veri setlerinizden daha güvenilir ve anlamlı sonuçlar elde edebilirsiniz.



Referanslar

[1] Rubin, D. B. (1976). Inference and Missing Data. Biometrika, 63(3), 581–592. [2] Analytics Vidhya. (2021). Handling Missing Values of Categorical Variables. Erişim Adresi: https://www.analyticsvidhya.com/blog/2021/04/how-to-handle-missingvalues-of-categorical-variables/ [3] Stef van Buuren. (n.d.). 1.2 Concepts of MCAR, MAR and MNAR. Flexible Imputation of Missing Data. Erişim Adresi: https://stefvanbuuren.name/fimd/sec-MCAR.html

Yorumlar


© 2025 Emre Erdin Tüm Hakları Saklıdır

bottom of page