Veri temsili yöntemlerinin hibrit kullanımının dil modeli başarısına etkileri

Loading...
Thumbnail Image

Date

Journal Title

Journal ISSN

Volume Title

Publisher

Ankara Üniversitesi

Abstract

Bu tez, büyük dil modellerinde (LLM) yanıt kalitesini doğrudan etkileyen doğru bağlam geri getirme sorununu, bilgi grafiği (KG), yoğun vektör dizinleri ve ters indekslerin hibrit kullanımıyla incelemiştir. 4 810 Türkçe ve 190 İngilizce sorudan oluşan iki soru cevap kümesi, anlamsal parçalama sonrasında 37 095 metin birimine dönüştürülmüş, GPT-4o destekli tam otomatik şema keşfi ile 61 650 düğüm ve 134 087 ilişkiden oluşan bir KG oluşturulmuştur. Sadece bağlam taşıyan 42 602 düğüm için 3 072 boyutlu gömmeler üretilmiş ve Neo4j'de HNSW vektör ile BM25 tam metin dizinleri kurulmuştur. Beş geri getirme stratejisi karşılaştırılmıştır: yalnızca metin (Sparse Only), yalnızca vektör (Dense Only), vektör-metin hibriti (Document Only Dual Norm), KG merkezli hibrit (Cypher Hybrid) ve araştırmacı tarafından tasarlanan hibrit yaklaşım olan İlişki Farkındalıklı Çift Norm Birleşimi (Relation-Aware Dual-Norm Fusion / RADNF). Değerlendirme metrikleri "Doğru Kaynak Sayısı", "İlk Doğru Kaynağın Sırası" ve "Doğru Kaynak Bulunamayan Soru" olarak seçilmiştir. RADNF, ortalama 1,93 doğru belge ve yalnızca 497 başarısız soru ile en düşük hata oranına ulaşmış, paralel dizin çağrısı sayesinde Dense Only çözüme denk bir bağlam hazırlama süresi sağlamıştır. Çalışma, KG sinyalini çift min-max normlu skor birleştirmeyle entegre eden RADNF tasarımının hibrit RAG literatürüne özgün katkısını göstermekte, tam otomatik KG inşası, çok dilli deney kurgusu ve maliyet raporlaması ile üretim senaryoları için pratik bir yol haritası sunmaktadır.

Description

Citation

Endorsement

Review

Supplemented By

Referenced By