Derin Sahte Ses Manipülasyonu Tespit Sistemleri Üzerine Bir Derleme


Tahaoğlu G., Kılıç M., Üstübioğlu B., Ulutaş G.

Yüzüncü Yıl Üniversitesi Fen Bilimleri Enstitüsü Dergisi, cilt.29, sa.1, ss.353-402, 2024 (Hakemli Dergi) identifier

Özet

Gerçek kişilerin konuşmalarını içeren dijital ses dosyalarının kullanılması ile gerçekleştirilen derin sahte ses manipülasyonu, sesi taklit edilecek kişinin sesini klonlayarak kişinin söylemediği bir şeyi söylemiş gibi içerikte ses dosyalarını oluşturan bir sahtecilik türüdür. Konuşmacının kimliğini doğrulamak için güvenlik adımı olarak kabul edilen Otomatik Konuşmacı Doğrulama Sistemlerinin derin sahte ses sahtecilikleri saldırılarına karşı savunmasızlığı söz konusudur. Ayrıca mahkemelerde karar merciini etkileyecek delil olarak sunulan ses dosyalarının orijinal olup olmadığı kontrolü önemli bir ihtiyaç haline gelmiştir. Bu tür sahteciliklerin uzman sistemler tarafından tespit edilebilmesi günümüz çağı için oldukça önem arz etmektedir. Bu sahtecilik türündeki saldırıların tespit edilebilmesi için literatürde çeşitli yöntemler önerilmiştir. Literatürdeki çalışmalarda performans değerlendirmesinde kullanılan ücretsiz erişimli veri setleri de mevcut olup sonuç kıyaslamasında kullanabilmesi mümkündür. Bu çalışmada literatürdeki yöntemler ve verisetleri incelenmiş, yöntemlerin bu verisetleri üzerindeki performans değerlendirmeleri, avantaj ve dezavantajları vurgulanmıştır.

Besides facilitating access to audio content on the Internet, developments in deep learning methods have made it possible to produce deep fake audio. Automatic Speaker Verification systems considered a security step to authenticate the speaker, are vulnerable to deep spoofing attacks. It is crucial for today's age that expert systems can detect such frauds. Deep fake audio spoofing is carried out to produce audio files in the content by cloning the speaker's voice that is planned to be changed as if he said something he did not say. Various methods are proposed in the literature to detect this type of forgery. There are free-access datasets used in performance evaluation in studies in the literature, and it is possible to use them in result comparison. The planned research aims to reduce or eliminate the noise that may exist in the audio file of the system by passing the preprocessing stage of the audio signal received as input. This paper examines the methods and datasets in the literature, and the advantages and disadvantages of the methods on these datasets are emphasized.