Derin öğrenme yaklaşımları kullanarak Türkçe metinlerden anlamsal çıkarım yapma

No Thumbnail Available

Date

2019

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

Günümüzde, Facebook veya Twitter gibi sosyal medya platformları aracılığıyla belirli konular üzerine görüşlerin paylaşılması, web blogları veya e-ticaret sitelerindeki ürün yorumları araştırmacılara çok sayıda yorumlanabilir kullanıcı düşüncesine erişimi sağladı. İnsanlar, bu kanallar aracılığıyla diğer kullanıcıların da düşüncelerini etkileyen kendi deneyimlerini ve düşüncelerini sergilemektedir. Ayrıca firmalar tüketicilerin ürünlerinden ve kendilerinden memnun olup olmadıklarını belirten yorumları önemsemektedirler. Duygu analizi, ürün yorumları, film yorumları ve tweet’ler gibi öznel kısa metinlerin veya görüntülerin pozitiflik veya negatiflik düzeylerine göre sınıflandırıldığı aktif bir çalışma alanıdır. Ancak, bu tür görüşler genellikle Doğal Dil İşleme açısından zorlaştırıcı olan resmî olmayan, gündelik bir dille yansıtılmaktadır. Bu çalışmada, çeşitli kategorilerde ürünler satan bir web sitesi aracılığıyla toplanan Türkçe kullanıcı yorumları analiz edilmektedir. Cümlelerin gürültülü ve günlük konuşma dilindeki doğasını koruyarak, pozitif veya negatif anlam içeren her bir kelimenin vektör temsillerini öğrenen bir word2vec modeli eğitilmektedir ve eğitilmiş kelime temsilleri kullanılarak bir temel yöntem olarak Rastgele Orman (Random Forest - RF) modeli geliştirilmiştir. Klasik örüntü tanıma tekniklerine ek olarak, derin öğrenme yaklaşımlarından ikisi olan Uzun Kısa-Vadeli Hafıza (Long Short-Term Memory - LSTM) ve Genişleyen Evrişimsel Sinir Ağları (Dilated Convolutional Neural Networks - D-CNN) modelleri, duygu sınıflandırma için Türkçe word2vec modeli kullanılarak geliştirilmiştir. D-CNN modeline kıyasla, daha az parametre hesaplamasına sahip olması, çalışma zamanının daha kısa olması ve daha yüksek bir doğruluğa ulaşması açısından LSTM ile daha etkili sonuçlara ulaşılmıştır. Today, sharing views on specific topics through social media platforms, such as Facebook or Twitter, web blogs, or product reviews in e-commerce sites enabled researchers to access huge amount of interpretable user thoughts. People exhibit their experiences and opinions through these channels, which influences other users’ choices as well. Moreover, companies care about the comments that say whether consumers are satisfied with their products and themselves. Sentiment analysis is an active research topic in which subjective short texts such as product reviews, movie reviews, tweets or images are classified according to the level of their positivity or negativity. However, such opinions are usually reflected with an informal, casual language which makes them challenging from the Natural Language Processing (NLP) perspective. In this study, Turkish reviews of users collected through a website that sells products in various categories is presented. Keeping the noisy and informal nature of the sentences, a word2vec model that learns the vector representations of each word in the positive or negative is trained and a Random Forest as a baseline method is developed using trained word embeddings. In addition to standard pattern recognition techniques, an LSTM and a Dilated CNN models, two of the deep learning approaches, were developed by using the Turkish word2vec model for sentiment classification. Compared to the D-CNN model, more effective results were achieved with LSTM with regard to have less parameter computation, shorter execution time and higher accuracy.

Description

Keywords

Duygu analizi, makine öğrenmesi, derin öğrenme, rastgele orman, LSTM, D-CNN

Citation