3rd INTERNATIONAL SYMPOSIUM ON ENGINEERING, DESIGN AND INNOVATIVE RESEARCH, Sinop, Türkiye, 24 - 25 Aralık 2025, ss.34, (Özet Bildiri)
Tedavi sonrasında meme kanserinin nüks etmesi, hasta yönetimi, tedavi planlaması ve sağkalım açısından kritik bir klinik sorun oluşturmaktadır. Bu çalışma, nüks olasılığını tahmin etmeye yönelik makine öğrenmesi tabanlı bir karar destek modeli önermektedir. Çalışmada, klinik takip amacıyla gerçek hasta kayıtlarından oluşturulmuş olan Wisconsin Prognostic Breast Cancer (WPBC) veri seti kullanılmıştır. Veri seti, cerrahi tedavi sonrasında nüks riskini tahmin etmeyi amaçlamakta olup, 2 sınıf (N = nüks yok, R = nüks), toplam 198 hasta (N: 151, R: 47) ve 33 özellik içermektedir. Bu yönüyle veri seti, hem belirgin sınıf dengesizliği hem de yüksek değişkenlik içeren zorlu bir yapıya sahiptir.
Literatür incelendiğinde, WPBC veri seti üzerinde farklı sınıflandırma yöntemlerinin denendiği görülmektedir. Bu çalışmada, sınıflandırma başarımını artırmak amacıyla Random Forest (RF) modeli, özellik seçimine uygulanan bir optimizasyon süreci ile birleştirilmiş ve daha doğru nüks tahmini yapabilen bir karar destek sistemi geliştirilmiştir. Çalışmanın veri ön işleme aşamasında, eksik veriler tamamlanmış, kategorik değişkenler sayısal formata dönüştürülmüş ve tüm değişkenlere normalizasyon uygulanmıştır. Veri setindeki sınıf dengesizliği ise Synthetic Minority Oversampling Technique (SMOTE) yöntemi kullanılarak giderilmiştir.
Özellik seçimi sürecinde, veri setindeki değişkenlerin nüks olasılığı ile olan ilişkisini belirlemek amacıyla Bayesyen tabanlı istatistiksel değerlendirme ve doğadaki goril sürülerinin liderlik ve takip davranışlarından esinlenen Gorilla Troops Optimizer (GTO) yöntemleri ayrı ayrı kullanılmıştır. Her iki yöntemle elde edilen özellik alt kümeleri kullanılarak RF modelleri eğitilmiş ve performans 5 katlı çapraz doğrulama ile değerlendirilmiştir. Elde edilen sonuçlar, Bayesyen yöntemle seçilen özellikler kullanıldığında RF modelinin %80 doğruluk sağladığını, GTO tabanlı özellik alt kümesinin ise doğruluğu %81,81 seviyesine yükselttiğini göstermiştir. Bu sonuçlar, GTO’nun meme kanseri nüks tahmini için etkili ve umut vadeden bir özellik seçme yöntemi olduğunu ortaya koymaktadır.
The recurrence of breast cancer after treatment represents a critical clinical challenge in terms of patient management, treatment planning, and survival. This study proposes a machine learning-based decision support model for predicting the likelihood of recurrence. The study utilizes the Wisconsin Prognostic Breast Cancer (WPBC) dataset, which consists of real patient records collected for clinical follow-up purposes. The dataset was created to predict recurrence risk after surgical treatment and contains 2 classes (N = nonrecur, R = recur), a total of 198 patients (N: 151, R: 47), and 33 features. In this respect, the dataset presents a challenging structure with both significant class imbalance and high variability. A review of the literature reveals that various classification methods have been tested on the WPBC dataset. In this study, to improve classification performance, the Random Forest (RF) model was combined with an optimization process applied in feature selection, thereby developing a decision support system that predicts recurrence risk more accurately. In the data preprocessing phase of the study, missing data were imputed, categorical variables were converted to numerical format, and normalization was applied to all variables. The class imbalance in the dataset was addressed using the Synthetic Minority Oversampling Technique (SMOTE). In the feature selection process, Bayesian-based statistical evaluation and Gorilla Troops Optimizer (GTO) methods, inspired by the leadership and following behaviors of gorilla troops in nature, were used separately to determine the relationship between variables in the dataset and recurrence probability. RF models were trained using the feature subsets obtained from each method, and performance was evaluated through 5-fold crossvalidation. Results showed that the RF model achieved 80% accuracy with Bayesianselected features, whereas the GTO-based subset increased accuracy to 81.81%. The results highlight GTO as an effective and promising feature selector for recurrence prediction.