Metin madenciliği yöntemleri ile yazar tanıma: Divan Edebiyatı örneği


Creative Commons License

Tezin Türü: Yüksek Lisans

Tezin Yürütüldüğü Kurum: Karadeniz Teknik Üniversitesi, Fen Bilimleri Enstitüsü, Türkiye

Tezin Onay Tarihi: 2018

Tezin Dili: Türkçe

Öğrenci: ALİ OSMAN BİLGİN

Danışman: Tolga Berber

Özet:

Özellikle 21. yy'ın başından itibaren bilişim teknolojilerinin artan hızda gelişmesi ve gündelik hayatın neredeyse her aşamasına entegre olması ile birçok alanda büyük miktarda veri toplanmaya başlanmıştır. Bu verilerin sistematik bir şekilde depolanması, hızlı bir şekilde yönetilmesi ve kolaylıkla analiz edilebilmesi için veri tabanı yönetim sistemleri kullanılmaktadır. Bilişim dünyasındaki bilgilerin büyük çoğunluğu düz metin, e-posta, resim, ses ve video dosyaları gibi sistematik olmayan verilerdir. Geleneksel istatistiki yöntemler ile analiz edilemeyen bu verilerden anlamlı bilgiler çıkarabilmek için veri madenciliği, metin madenciliği, duygu analizi, görüntü ve ses işleme gibi yöntemler kullanılmaktadır. Bu çalışmada incelenen veriler de metin formatında olduğundan metin madenciliği yöntemleri kullanılmıştır. Metin madenciliğinin temel hedefleri metinlerin konularına göre ayrıştırılması, özetinin çıkarılması, başlıklarının eklenmesi ve yazarlarının belirlenmesidir. Bu çalışma ile 25 divan edebiyatı şairine ait eserlerin yazarlarını belirleyen bir sistem geliştirilmiştir. Metin madenciliğinin metin sınıflandırma algoritmalarından yararlanılarak sözcüklerin analiz edilmesine dayanan bu sistemde her bir parametrenin olası değerleri için 20 farklı model kurulmuştur. Her modelin tek tek karşılaştırılması neticesinde %91,45'lık doğruluk ve %90,23'lük f-değerine ulaşılmıştır. Böyle bir çalışmanın uzun vadede yazarı bilinmeyen eserlerin sahiplerinin tespitine dair tahminleri destekleyebileceği düşünülmektedir.