Confusion Matrix (Karmaşıklık Matrisi) Nedir?

Confusion matrix, makine öğrenmesi ve veri madenciliği alanında sık kullanılan bir değerlendirme aracıdır. Bu matris, modelin doğruluğunu, hassasiyetini, özgünlüğünü, F1 skorunu gibi performans ölçütlerini hesaplamak için kullanılır.

Confusion matrix, sınıflandırma problemleri için kullanılır. Bir sınıflandırma problemi, bir veri örneğinin belirli bir sınıfa ait olup olmadığını tahmin etmekle ilgilidir. Bu sınıflar, iki sınıf (binary classification) veya daha fazla sınıf (multi-class classification) olabilir.

Confusion matrix’in parametreleri şunlardır:

  • True Positive (TP): Tahmin edilen sınıf doğru ve gerçek sınıf pozitif.
  • False Positive (FP): Tahmin edilen sınıf yanlış ve gerçek sınıf negatif.
  • True Negative (TN): Tahmin edilen sınıf doğru ve gerçek sınıf negatif.
  • False Negative (FN): Tahmin edilen sınıf yanlış ve gerçek sınıf pozitif.

Confusion matrix, TP, FP, TN ve FN değerlerini içeren bir kare matristir. Binary classification durumunda, matris iki satır ve iki sütundan oluşur. Multi-class classification durumunda ise, matris sınıf sayısı kadar satır ve sütundan oluşur.

Örneğin, bir binary classification problemi ele alalım. Confusion matrix aşağıdaki şekilde gösterilir:

Actual Positive                             Actual Negative
Predicted Positive  True Positive (TP)                               False Positive (FP)
Predicted Negative  False Negative (FN)                           True Negative (TN)

Confusion matrix hesaplanırken, önce modelin tahminleri gerçek değerlerle karşılaştırılır ve TP, FP, TN ve FN değerleri hesaplanır. Daha sonra bu değerler kullanılarak performans ölçütleri hesaplanır.

Başarı kriterleri, performans ölçütlerini ifade eder. Bunlar, modelin sınıflandırma performansını ölçmek için kullanılır. En yaygın performans ölçütleri şunlardır:

  • Doğruluk (Accuracy): Doğru sınıflandırılan örneklerin oranını ifade eder. Formülü şu şekildedir:

Accuracy = (TP + TN) / (TP + FP + TN + FN)

  • Hassasiyet (Precision): Pozitif olarak tahmin edilen örneklerin gerçek pozitif oranını ifade eder. Formülü şu şekildedir:

Precision = TP / (TP + FP)

  • Özgünlük (Recall): Gerçek pozitif örneklerin tespit edilme oranını ifade eder. Formülü şu şekildedir:

Recall = TP / (TP + FN)

  • F1 Skoru: Hassasiyet ve özgünlük değerlerinin harmonik ortalamasını ifade eder. Formülü şu şekildedir:

F1 Score = 2 * (Precision * Recall) / (Precision + Recall)

Confusion matrix hesaplaması ve performans ölçütleri hesaplanması örnek bir veri seti üzerinde anlatılabilir. Örneğin, bir e-posta veri seti düşünelim. Bu veri setinde, e-postalar spam (istenmeyen) veya ham (istenen) olarak etiketlenmiş olsun. Confusion matrix, modelin doğruluğunu ve sınıflandırma performansını ölçmek için kullanılabilir.

Actual Ham             Actual Spam
Predicted Ham         990                                   10
Predicted Spam           5                                     995

Yukarıdaki matris, 2000 e-posta örneği üzerinde bir sınıflandırma modelinin performansını gösterir. Bu model, 1000 ham e-posta ve 1000 spam e-posta içeren bir veri seti kullanarak e-postaları sınıflandırdı.

Bu matrisi kullanarak, performans ölçütleri hesaplanabilir:

  • Doğruluk (Accuracy):

Accuracy = (TP + TN) / (TP + FP + TN + FN) = (990 + 995) / 2000 = 0.9925

  • Hassasiyet (Precision):

Precision = TP / (TP + FP) = 990 / (990 + 5) = 0.9949

  • Özgünlük (Recall):

Recall = TP / (TP + FN) = 990 / (990 + 10) = 0.9899

  • F1 Skoru:

F1 Score = 2 * (Precision * Recall) / (Precision + Recall) = 2 * (0.9949 * 0.9899) / (0.9949 + 0.9899) = 0.9924

Bu örnek, confusion matrix’in ve performans ölçütlerinin sınıflandırma problemlerinde nasıl kullanılabileceğini göstermektedir. Bu matris, modelin sınıflandırma performansını ölçmek ve modelin geliştirilmesi için geri bildirim sağlamak için önemlidir. Ayrıca, modelin performansını değerlendirmek için kullanılabilir.

Confusion matrix, sınıflandırma problemlerinde modelin performansını ölçmek için kullanılan önemli bir araçtır. Bu matris, modelin doğru sınıflandırma sayısını ve yanlış sınıflandırma sayısını gösterir. Performans ölçütleri, confusion matrix’in değerleri üzerinden hesaplanır. Hassasiyet, özgünlük, doğruluk ve F1 skoru, performans ölçütleri arasında en yaygın olarak kullanılanlardır.

Bu yazıda, confusion matrix’in ne olduğunu, parametrelerini ve hesaplanmasını öğrendiniz. Ayrıca, performans ölçütlerinin nasıl hesaplandığını öğrendiniz. Confusion matrix ve performans ölçütleri, sınıflandırma problemlerinde modelin doğruluğunu ve sınıflandırma performansını ölçmek için kullanılan önemli araçlardır. İyi bir model, yüksek doğruluk, hassasiyet, özgünlük ve F1 skoru değerlerine sahip olmalıdır.

Post a comment.