Başlık: Biçim Bilimsel Açıdan Zengin Dillerde Soyutlamalı Özetleme
Danışman: Tunga Güngör
Özet: İnternet ortamında bulunan belge sayısındaki yoğun artış, aranan bilgiye ulaşımı zorlu, sıkıcı ve zaman alıcı bir faaliyet haline getirmiştir. Bu doğrultuda otomatik metin özetleme, araştırmacıların büyük ilgisini çekerek önemli bir çalışma alanı haline gelmiştir. Derin öğrenme alanındaki son gelişmeler, metin özetleme alanındaki araştırmaları çıkarımsal yöntemlerden daha soyut yaklaşımlara doğru kaydırmıştır. Araştırmalar ve mevcut kaynaklar çoğunlukla İngilizce diliyle sınırlıdır, bu da özellikle biçim bilimsel açıdan zengin diller gibi yapısı ve özellikleri bakımından farklılık gösteren diğer dillerde ilerlemeyi engellemektedir. Bu tezde, ağırlıklı olarak Türkçe ve Macarca soyut metin özetleme üzerine odaklandık ve önemli zorluklarını inceledik. İlk olarak, Türkçe (TR-News) ve Macarca (HU-News) için metin özetleme alanında kullanımı amaçlayan, ancak konu sınıflandırması, başlık oluşturma ve anahtar kelime öbeği çıkarma gibi diğer görevler için de uygun olan iki büyük ölçekli veri kümesini oluşturarak kaynak kıtlığı sorununu ele aldık. Daha sonra, bu dillerin biçim bilimsel özelliklerini metin özetlemeye uyarlayarak mevcut modeller üzerine iyileştirmeler gerçekleştirdik. Bir sonraki aşamada, önden eğitilmiş çok dilli diziden diziye modellerden yararlanarak, soyut metin özetleme ve başlık oluşturma görevleri için son teknoloji modeller oluşturduk. Biçim bilimsel açıdan zengin diller için metin özetleme değerlendirmesi çalışmaları oldukça sınırlıdır. Bu nedenle, ön işlemenin değerlendirme sonuçlarını nasıl büyük ölçüde etkileyebileceğini Türkçe bir çalışmayla gösterdik. Son olarak, metin özetleme değerlendirmesi için morfosentaktik yöntemler önerip buna ek olarak bir insan yargısı veri kümesi derledik. Değerlendirme sırasında morfosentaktik yöntemlerin insan yargıları üzerindeki korelasyonu artırdığını gözlemledik. Tez kapsamında yapılan tüm çalışmalar ve veri kümeleri açık kaynak olarak kullanıma sunulmuştur.