İNGİLİZCE HABER METİNLERİNDE GDT VE NOMF YÖNTEMLERİ İLE KONU MODELLEME: TÜRKİYE VE YUNANİSTAN ÖRNEĞİ


Creative Commons License

Tezin Türü: Yüksek Lisans

Tezin Yürütüldüğü Kurum: Karadeniz Teknik Üniversitesi, Fen Fakültesi, Bilgisayar Bilimleri, Türkiye

Tezin Onay Tarihi: 2022

Tezin Dili: Türkçe

Öğrenci: Sefa YAY

Danışman: Tolga Berber

Özet:

Haber analizi, e-posta ve spam filtreleme, web sayfalarından konu çıkarımı, bloglar, film özetleri, şarkı sözleri gibi metin içeren her veri seti metin madenciliği için bir uygulama alanıdır. Bu birçok alandaki uygulamalar sayesinde büyük metin depolarından bilgi çıkarılmasına olanak sağlamaktadır. Konu modelleme ise bir belge koleksiyonunda metnin gizli anlamsal yapılarını keşfetmek için kullanılan doğal dil işleme tekniğidir. Bu tez kapsamında Türkiye ve Yunanistan’a yönelik haber metinlerini konularına göre ayırabilen otonom bir konu modellemesi gerçekleştirilmiştir. Bunun için NewsAPI haber veri sitesinden elde edilmiş olan İngilizce haber metinlerinden Gizli Dirichlet Tahsisi ve Negatif Olmayan Matris Faktorizasyonu yöntemleri kullanılmış ve bu iki yöntemin başarım karşılaştırılması yapılmıştırTürkiye için yapılan analiz sonucundaki konular incelendiğinde dış ilişkiler ağırlıkta siyasi bir gündem olduğu görülmektedir. Yunanistan için olan analizlerde ise tek siyasi gündemin Türkiye ile aralarında yaşandığı tespit edilmiştir. Her iki algoritmanın sonuçlarında da pandeminin farklı yönlerinin çoğunluğu oluşturduğu belirlenmiştir. Böylelikle metin madenciliğinde büyük boyuttaki metin içerikli veri kaynaklarından, önceden bilinmeyen ve potansiyel olarak ihtiyaç duyulan bilginin çıkarılması sağlanmış olundu.