Optimizasyon Tabanlı Özellik Seçiminin Meme Kanseri Teşhis Performansına Etkisi


Altuntaş D., Aymaz Ş., Aymaz S.

23. Uluslararası İstanbul Fen, Mühendislik, Mimarlık ve Matematik Bilimlerinde Bilimsel Araştırmalar Kongresi, İstanbul, Türkiye, 20 - 22 Kasım 2025, ss.1-8, (Tam Metin Bildiri)

  • Yayın Türü: Bildiri / Tam Metin Bildiri
  • Basıldığı Şehir: İstanbul
  • Basıldığı Ülke: Türkiye
  • Sayfa Sayıları: ss.1-8
  • Karadeniz Teknik Üniversitesi Adresli: Evet

Özet

Makine öğrenmesi alanındaki gelişmeler, birçok hastalığın teşhisinde bilgisayar destekli yöntemlerin kullanımını ve önemini artırmıştır. Bilgisayar sistemlerinin karar verme yeteneklerinin günden güne gelişmesiyle birlikte, bu hastalıkların tespit oranları da  her geçen gün yükselmektedir. Makine öğrenmesi algoritmaları ile birlikte kullanılan optimizasyon algoritmaları da doğru teşhisin ortaya konulmasında ve bu hastalıkların ölüm oranını düşürmede etkilidir. Özellikle erken teşhisi büyük önem taşıyan meme kanseri gibi hastalıkların tespitinde bu yöntemlere yer verilmektedir. Bu çalışma, meme kanseri teşhisinde Destek Vektör Makinesi (SVM) sınıflandırma modelinin performansını iyileştirmede çeşitli optimizasyon tabanlı özellik seçimi yöntemlerinin etkisini değerlendirmektedir. Çalışmada SelectKBest, Optuna ve Rastgele Arama (Random Search) yöntemleri uygulanmış; iki farklı meme kanseri veri seti, Breast Cancer Wisconsin (Original) ve Breast Cancer Wisconsin (Diagnostic) üzerinde analizler gerçekleştirilmiştir. Her bir yöntemle elde edilen özellik alt kümeleri, 10-Fold çapraz doğrulama ile SVM modeli üzerinde test edilmiştir. Deneysel sonuçlar, her iki veri setinde de Optuna tabanlı özellik seçiminin en yüksek F1 skorunu sağladığını göstermektedir (WBC: 0.9778, WDBC: 0.9759). Ayrıca, özellik sayısındaki azalma sayesinde test aşamasındaki işlem süresi belirgin biçimde kısalmıştır. Optuna yöntemi, örnek başına test süresi açısından da en iyi performansı göstermiştir (WBC: 0.331 ms/örnek, WDBC: 0.409 ms/örnek). Karşılaştırmalı olarak, özellik seçimi yapılmamış (orijinal özellik vektörü) modellerde elde edilen F1 skorları WBC için 0.9568, WDBC için 0.8735; test süreleri ise sırasıyla 0.492 ms/örnek ve 0.573 ms/örnek olarak hesaplanmıştır. Bu bulgular, Optuna tabanlı özellik seçiminin sınıflandırma başarımını artırırken işlem süresini de azalttığını açık biçimde ortaya koymaktadır. Ayrıca SelectKBest ve Random Search yöntemleri de ham (özellik seçimi uygulanmamış) modele kıyasla anlamlı düzeyde performans artışı sağlamıştır. Elde edilen sonuçlar, optimizasyon temelli özellik seçiminin meme kanseri teşhisinde hem doğruluk hem de verimlilik açısından önemli katkılar sunduğunu göstermektedir.

Advances in the field of machine learning have increased the use and importance of computer-aided methods in the diagnosis of many diseases. With the improvement of decision-making capabilities of computer systems, the detection rates of these diseases are also increasing every day. Optimization algorithms in conjunction with machine learning algorithms are also effective in establishing accurate diagnosis and reducing the mortality rate of these diseases. These methods are particularly employed in the detection of diseases such as breast cancer, where early diagnosis is of great importance. This study evaluates the impact of various optimization-based feature selection methods in improving the performance of the Support Vector Machine (SVM) in breast cancer diagnosis. In the study, SelectKBest, Optuna, and Random Search methods were applied; analyses were performed on two different breast cancer datasets, Breast Cancer Wisconsin (Original) and Breast Cancer Wisconsin (Diagnostic). The feature subsets obtained with each method were tested on the SVM using 10-Fold cross-validation. Experimental results show that Optuna-based feature selection provides the highest F1 score in both datasets (WBC: 0.9778, WDBC: 0.9759). Additionally, due to the reduction in the number of features, the processing time during the testing phase was significantly shortened. The Optuna method also demonstrated the best performance in terms of test time per sample (WBC: 0.331 ms/sample, WDBC: 0.409 ms/sample). Comparatively, the F1 scores obtained in models without feature selection were 0.9568 for WBC and 0.8735 for WDBC; test times were calculated as 0.492 ms/sample and 0.573 ms/sample, respectively. These findings demonstrate that Optuna-based feature selection increases classification performance while reducing processing time. Additionally, SelectKBest and Random Search methods also provided significant performance improvement compared to the raw (no feature selection applied) model. The obtained results show that optimization-based feature selection offers important contributions to breast cancer diagnosis in terms of both accuracy and efficiency.