Derin öğrenme yaklaşımları kullanarak Türkçe metinlerden anlamsal çıkarım yapma
No Thumbnail Available
Date
2019
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
Günümüzde, Facebook veya Twitter gibi sosyal medya platformları aracılığıyla belirli konular üzerine
görüşlerin paylaşılması, web blogları veya e-ticaret sitelerindeki ürün yorumları araştırmacılara çok
sayıda yorumlanabilir kullanıcı düşüncesine erişimi sağladı. İnsanlar, bu kanallar aracılığıyla diğer
kullanıcıların da düşüncelerini etkileyen kendi deneyimlerini ve düşüncelerini sergilemektedir. Ayrıca
firmalar tüketicilerin ürünlerinden ve kendilerinden memnun olup olmadıklarını belirten yorumları
önemsemektedirler. Duygu analizi, ürün yorumları, film yorumları ve tweet’ler gibi öznel kısa metinlerin
veya görüntülerin pozitiflik veya negatiflik düzeylerine göre sınıflandırıldığı aktif bir çalışma alanıdır.
Ancak, bu tür görüşler genellikle Doğal Dil İşleme açısından zorlaştırıcı olan resmî olmayan, gündelik bir
dille yansıtılmaktadır.
Bu çalışmada, çeşitli kategorilerde ürünler satan bir web sitesi aracılığıyla toplanan Türkçe kullanıcı
yorumları analiz edilmektedir. Cümlelerin gürültülü ve günlük konuşma dilindeki doğasını koruyarak,
pozitif veya negatif anlam içeren her bir kelimenin vektör temsillerini öğrenen bir word2vec modeli
eğitilmektedir ve eğitilmiş kelime temsilleri kullanılarak bir temel yöntem olarak Rastgele Orman
(Random Forest - RF) modeli geliştirilmiştir. Klasik örüntü tanıma tekniklerine ek olarak, derin öğrenme
yaklaşımlarından ikisi olan Uzun Kısa-Vadeli Hafıza (Long Short-Term Memory - LSTM) ve Genişleyen
Evrişimsel Sinir Ağları (Dilated Convolutional Neural Networks - D-CNN) modelleri, duygu
sınıflandırma için Türkçe word2vec modeli kullanılarak geliştirilmiştir. D-CNN modeline kıyasla, daha
az parametre hesaplamasına sahip olması, çalışma zamanının daha kısa olması ve daha yüksek bir
doğruluğa ulaşması açısından LSTM ile daha etkili sonuçlara ulaşılmıştır.
Today, sharing views on specific topics through social media platforms, such as Facebook or Twitter,
web blogs, or product reviews in e-commerce sites enabled researchers to access huge amount of
interpretable user thoughts. People exhibit their experiences and opinions through these channels, which
influences other users’ choices as well. Moreover, companies care about the comments that say whether
consumers are satisfied with their products and themselves. Sentiment analysis is an active research topic
in which subjective short texts such as product reviews, movie reviews, tweets or images are classified
according to the level of their positivity or negativity. However, such opinions are usually reflected with
an informal, casual language which makes them challenging from the Natural Language Processing
(NLP) perspective.
In this study, Turkish reviews of users collected through a website that sells products in various categories
is presented. Keeping the noisy and informal nature of the sentences, a word2vec model that learns the
vector representations of each word in the positive or negative is trained and a Random Forest as a
baseline method is developed using trained word embeddings. In addition to standard pattern recognition
techniques, an LSTM and a Dilated CNN models, two of the deep learning approaches, were developed
by using the Turkish word2vec model for sentiment classification. Compared to the D-CNN model, more
effective results were achieved with LSTM with regard to have less parameter computation, shorter
execution time and higher accuracy.
Description
Keywords
Duygu analizi, makine öğrenmesi, derin öğrenme, rastgele orman, LSTM, D-CNN