Veri Biliminde Eksik Veri İle Başa Çıkmak İçin Hangi Teknikler Kullanılır
"Veri, her zaman kusursuz değildir; ama doğru tekniklerle okunduğunda, en eksik veri bile gerçeğin kapısını aralar."
— Ersan Karavelioğlu
Eksik Veri Nedir ve Neden Oluşur
Eksik veri, bir gözlemde bulunması gereken bilginin mevcut olmamasıdır.
Nedenleri:
- Sensör hataları
- Kullanıcı ihmal veya yanlış girişleri
- Sistemsel arızalar
- Veri aktarımı kesintileri
Eksik veri, analitik kalitesini doğrudan etkiler.
Eksik Veri Türleri: MCAR, MAR ve MNAR
️
- MCAR: Veri tamamen rastgele eksik
- MAR: Diğer değişkenlerle ilişkili şekilde eksik
- MNAR: Eksikliğin sebebi verinin kendisidir
Bu türleri anlamak, doğru tekniği seçmenin temelidir.
Silme (Deletion) Yöntemleri
Eksik veri oranı düşükse uygulanır:
- Listwise Deletion: Eksik veri içeren satırın tamamının silinmesi
- Pairwise Deletion: Analize göre mevcut verinin kullanılması
Basit ama bazen bilgi kaybı yaratır.
Ortalama, Medyan ve Mod ile Doldurma (Imputation)
️
En bilinen doldurma teknikleridir:
- Sayısal veride ortalama veya medyan
- Kategorik veride mod
Hızlıdır fakat varyansı düşürerek veriyi yapaylaştırabilir.
Zaman Serilerinde İleri ve Geri Doldurma (Forward/Backward Fill)
Özellikle finans ve IoT verilerinde kullanılır.
- Forward Fill: Bir önceki değerin ileri taşınması
- Backward Fill: Sonraki değerin geri taşınması
Interpolasyon: Eksik Noktaların Matematiksel Tahmini
️
Lineer, polinom veya spline tabanlı yöntemlerle eksik noktalar modellenir.
Zaman serilerinde daha doğal bir akış sağlar.
KNN Imputation: Komşuluk Yaklaşımıyla Doldurma
K-Nearest Neighbors algoritması kullanılarak eksik değer, benzer gözlemler üzerinden tahmin edilir.
Avantaj: Daha gerçekçi doldurma
Dezavantaj: Hesaplama yükü yüksek olabilir.
Regresyon Tabanlı Doldurma
️
Eksik değeri tahmin etmek için diğer değişkenler modele alınır.
- Lineer regresyon
- Lojistik regresyon
Bu yöntem varyansı korur ve daha akıllı tahmin sağlar.
Çoklu Atama (Multiple Imputation)
Eksik veriler farklı tahminlerle birden fazla kez doldurulur.
Daha sonra sonuçlar birleştirilir.
Modern veri biliminde en güvenilir yöntemlerden biridir.
MICE (Multiple Imputation by Chained Equations)
️
Her bir değişken ayrı bir modelle tahmin edilir.
- Daha esnek
- Daha doğru
- Kategorik ve sayısal veriye uygundur
Eksik veriyle mücadelede altın standarttır.

EM Algoritması (Expectation-Maximization)
Eksik veriyi istatistiksel dağılımlar üzerinden tahmin eder.
Iteratif olarak çalışır:
- Expectation (E): Eksik değerler tahmin edilir
- Maximization (M): Parametreler güncellenir

Random Forest Imputation (MissForest)
️
Rastgele ormanlar kullanılarak eksik veriler tahmin edilir.
- Karmaşık veri setlerinde mükemmel çalışır
- Hem kategorik hem sayısal veri için uygundur

Derin Öğrenme Tabanlı Imputation Teknikleri
Autoencoder ve GAN tabanlı yöntemlerle eksik veriler doldurulur.
Büyük veri setlerinde yüksek doğruluk sağlar.

Veri Zenginleştirme (Data Augmentation)
️
Elde edilen eksik veri, farklı kaynaklardan birleştirilerek tamamlanabilir:
- Harici veri kaynakları
- API’ler
- Sensör birleşimleri
Eksik veriyi tamamen ortadan kaldırabilir.

Özellik Silme (Feature Removal)
Bir değişkende eksik değer oranı çok yüksekse (%50+), o özelliği silmek daha sağlıklı olabilir.

Model Toleransı: Eksik Veriyi Doğrudan Kullanan Modeller
️
Bazı modeller eksik veriyi tolere edebilir:
- XGBoost
- LightGBM
- CatBoost
Bu modeller eksikliği bir sinyal olarak yorumlar.

Eksik Veri Görselleştirmesi
Hangi teknik uygulanacaksa önce eksik veriyi görmek gerekir:
- Heatmap
- Matrix plot
- Missingno kütüphanesi
Görüntülemek, stratejiyi doğru kurmanın ilk adımıdır.

Veri Setinin Yapısına Göre En Doğru Yöntemi Seçmek
️
- Zaman serisi için: Interpolasyon & forward fill
- Makine öğrenmesi için: MICE, KNN, Random Forest
- Basit analizler için: Ortalama/medyan imputation
Her veri seti farklı bir strateji ister.

Eksik Veri ile Başa Çıkmanın Altın Kuralı
Eksik veri bir problem değil; doğru yönetilirse bilgiye açılan yeni bir kapıdır.

Son Söz
Eksik Veri, Doğru Okunduğunda Bilginin En Derin Katmanıdır
Eksik veri, çözülmesi gereken bir eksiklik değil; verinin bize anlattığı saklı bir hikayedir.
Doğru tekniklerle doldurulan her boşluk, analitiğin keskinliğini artırır.
"Verideki boşlukları doldurmak, hakikatin eksik halkalarını yeniden örmektir."
— Ersan Karavelioğlu
Son düzenleme: