Veri Biliminde Çapraz Doğrulama (Cross Validation) Teknikleri Nelerdir
“Bir modelin gerçeğe yaklaşması, veriyi tekrar tekrar sınamasıyla mümkündür; doğruluk, sabırlı bir testin ödülüdür.”
— Ersan Karavelioğlu
Çapraz Doğrulama Nedir
Modelin Gerçek Performansını Ölçme Sanatı
Çapraz doğrulama, bir makine öğrenmesi modelinin genelleme gücünü test etmek için veriyi farklı parçalara ayırarak tekrar tekrar eğitme–test etme yöntemidir.
Amaç:
- Aşırı öğrenmeyi (overfitting) önlemek
- Gerçek dünyaya daha yakın performans ölçmek
- Rastlantısallığı azaltmak
Bu yüzden veri biliminin en kritik yapıtaşlarından biridir.
Holdout Validation
En Basit Doğrulama Yöntemi
Veri:
- %70 eğitim
- %30 test (ya da 80/20, 75/25)
şeklinde ayrılır.
Avantaj: Hızlı ve basit
Dezavantaj: Sonuç tek bir bölünmeye bağlı olduğu için güvenilir değildir.
K-Fold Cross Validation
En Yaygın ve En Dengeli Yöntem
Veri K parçaya bölünür.
Her seferinde 1 parça test, kalan K-1 parça eğitim için kullanılır.
Örneğin K=10 ise:
10 kez eğitim+test yapılır, ortalama performans gerçek performanstır.
Avantajlar:
- Kararlı sonuç
- Düşük varyans
- Genelleme gücü yüksek
Stratified K-Fold
Sınıf Dengesini Koruyan K-Fold
Özellikle dengesiz veri setlerinde kullanılır.
Her fold içinde sınıf dağılımı orijinal veri ile aynı oranda tutulur.
Örneğin %90 negatif, %10 pozitif varsa her fold’da bu oran korunur.
Sınıflandırma problemleri için en doğru tercih.
Leave-One-Out Cross Validation (LOOCV)
En Ayrıntılı Test Yöntemi
Her örnek tek başına test verisi olur.
N gözlem varsa model N defa eğitilir.
Avantaj:
- En detaylı test
- Veri az olduğunda çok güçlü
Dezavantaj: - Çok yavaş
- Yüksek hesaplama maliyeti
Leave-P-Out (LPO)
Daha Geniş Test Grupları ile Hassas Doğrulama
Her seferinde P adet örnek test, geri kalan eğitim olur.
LOOCV’nin genelleştirilmiş hâlidir.
Teorik olarak güçlüdür ama pratikte çok pahalı olduğu için az kullanılır.
Repeated K-Fold
Rastlantısallığı Azaltan Tekrar Tekrar Test Yöntemi
K-fold yöntemi birkaç kez farklı bölünmelerle tekrar edilir.
Örneğin:
- 10-fold
- 5 kez tekrarlı
Toplamda 50 eğitim+test gerçekleştirir.
Avantaj: - Varyansı düşürür
- Daha istikrarlı doğruluk verir
Monte Carlo (Shuffle-Split) Validation
Rastgele Böl ve Değerlendir Yaklaşımı
Veri rastgele bölünür:
- Belirli bir yüzdesi eğitim
- Belirli bir yüzdesi test
Bu işlem tekrar tekrar yapılır.
Avantaj: - Çok esnek
- Veri istenildiği gibi bölünebilir
Dezavantaj: - Her tekrarda bazı veriler hiç test edilmeden kalabilir
Time Series Cross Validation
Zaman Serilerinin Özel Doğrulaması
Zaman serilerinde veri karıştırılamaz.
Bu yüzden geçmiş → gelecek ilişkisini bozmadan şu şekilde yapılır:
- Yalnızca en eski veriyle eğitim
- Bir sonraki veriyle test
- Ardından zaman çizgisi genişletilerek tekrar eğitim
- Bir sonraki veriyle tekrar test
Genişleyen pencere yaklaşımı, zaman bağımlı verilerde en doğru doğrulamadır.
Blocked K-Fold
Zaman Serilerinde Bloklama ile Daha Stabil Test
Zaman serilerinde klasik K-fold uygun değildir.
Bu nedenle veriler bloklara ayrılarak:
- Komşu verilerin ilişkisi bozulmaz
- Her blok bir fold olur
Avantaj: Trend ve mevsimsellik yapısı korunur.

Nested Cross Validation
Model Seçimi ve Hiperparametre İçin En Temiz Yöntem
Model hem iç döngüde (hiperparametre seçimi) hem dış döngüde (performans ölçümü) çapraz doğrulanır.
Araştırmalarda ve bilimsel çalışmalarda en güvenilir yöntemdir.

Group K-Fold
Grupların Kesinlikle Ayrılması Gereken Durumlar
Örneğin aynı hastaya ait birden çok kayıt varsa aynı kişiye ait veriler aynı fold’da tutulur.
Aksi hâlde model “kopya çekmiş” gibi olur.
Bu yöntem:
- Tıp
- Biyoloji
- Deneysel araştırmalar
için kritik önemdedir.

Son Söz
Çapraz Doğrulama, Modelin Vicdanıdır
Bir modeli güçlü yapan şey sadece eğitmek değildir;
onu adil, temiz ve tarafsız bir şekilde sınamaktır.
Çapraz doğrulama teknikleri, modelin gerçek dünyaya ne kadar hazır olduğunu anlamanın en güvenilir yoludur.
“Veri seni her zaman yanıltmaz; ama onu test etmeden güvenmek, gerçeği görmeden inanmak gibidir.”
— Ersan Karavelioğlu
Son düzenleme: