Derin öğrenme yöntemleri ile Türkçe metinlerden anlamlı özet çıkarma
Özet
Teknolojinin hızla gelişmesi ve herkesin hayatına daha kolay girmesi ile sanal ortamdaki veri miktarı oldukça artmıştır. Bu artış aynı zamanda bilgi fazlalığına neden olmuştur. İstenilen öz bilgiye ulaşmak güçleşmiştir. Metin özetleme ile istenilen öz bilgiye ulaşılması amaçlanmaktadır. Metnin içindeki ana bilginin korunarak daha kısa bir şekilde ifade edilmesi amaçlanmıştır. Bu çalışmada, önce Deutsche Welle haber sitesindeki metinler ve özetler kullanarak bir Türkçe haber veri seti (THV) toplanmıştır. Soyutlayıcı metin özetleme için sekanstan sekansa mimaride derin bir model geliştirilmiştir. Modelimiz, dikkat katmanlı kelime gömmeleri kullanarak eğitilmiş çift yönlü bir LSTM modelidir. Türkçe dilindeki modelimizin performansı hem Wikipedia hem de THV'deki kelimeler kullanılarak eğitilmiş kelime vektörleri ile ayrı ayrı değerlendirilmiştir. Modelimizin THV'deki ROUGE-1 metriğine göre performans puanı 40.90'dır. Modelimizi doğrulamak için, İngilizce metinleri özetlemede sıklıkla kullanılan GigaWord ve CNN/Daily Mail veri kümeleri ile ek deneyler yaptık. Bu veri setlerinde modern yöntemlerle kıyaslanabilir sonuçlar elde ettik. Veri setimiz yakında herkese açık hale gelecektir.