Question Analysis And Information Retrieval For A Turkish Question Answering System: Hazircevap

Question Analysis And Information Retrieval For A Turkish Question Answering System: Hazircevap

Advisor: 

Tunga Gungor

Assigned to: 

Caner Derici

Type: 

Year: 

2014

Status: 

Summary:

This study describes and evaluates the techniques we developed for the question analysis and information retrieval (IR) module of a closed-domain Turkish factoid Question Answering (QA) system that is intended for high-school students to support their education. Question analysis, which involves analyzing the questions to extract the necessary information for determining what is being asked and how to approach answering it, is one of the most crucial components of a QA system. Therefore, we propose novel methods for two major problems in question analysis, namely focus extraction and question classification, based on integrating a rule-based and a Hidden Markov Model (HMM) based sequence classification approach, both of which make use of the dependency relations among the words in the question. We also investigate the IR module, which is another critical aspect of a QA system, and introduce the IR module to efficiently gather the relevant information to a given question, with which the answer will be determined. IR module searches for the relevant documents and passages through the combined use of search engines Indri and Apache Lucene. Solution to these problems constitute the framework, on top of which a whole QA system can easily be built with only an addition of an answering module. Comparisons of all solutions with baseline models are provided. This study also offers a manually collected and annotated gold standard data set for further research in this area.

Özet:

Bu çalışmada lise öğrencilerinin eğitimlerine yardımcı olması için geliştirilen kapalı-alan Türkçe tek cevaplı Soru Cevaplama (SC) sisteminin inşasında tasarlanan soru analizi ve bilgi çıkarımı (BÇ) modülleri için geliştirilmiş teknikler anlatılmakta ve değerlendirilmektedir. Verilen bir soruda tam olarak neyin sorulduğu ve cevaplamanın ne şekilde yapılması gerektiğini belirlemek için sorudan gerekli bilgileri çıkartan soru analizi, bir soru cevaplama sisteminin en önemli parçalarından biridir. Bu nedenle bu çalışmada soru analizindeki en önemli iki problem olan odak çıkarımı ve soru sınıflandırılması problemlerine, kural tabanlı ve Saklı Markov Modeli (SMM) tabanlı modellerin sentezinden oluşan ve sorudaki kelimeler arasındaki bağlılık ilişkilerini kullanan çözümler sunulmuştur. Ek olarak bir SC sisteminin bir başka önemli modülü olak BÇ modülü de incelenmiş, ve içerisinde verilen sorunun cevabının aranacağı ilgili bilgileri kümesinin verimli bir şekilde çıkartılması için de teknikler önerilmiştir. BÇ modülü, soru ile ilgili döküman ve pasajları Indri ve Apache Lucene arama motorlarını kullanarak bulmaya çalışmaktadır. Sunulan çözümler, üzerine sadece cevap modülünün eklenmesiyle tam bir SC sisteminin oluşturulabileceği bir altyapı oluşturmaktadır. Önerilen tüm çözümlerin karşılaştırmalı deneyleri, baz modelleri ile birlikte sunulmuştur. Bu çalışmada aynı zamanda, elle toplanıp işaretlenmiş Türkçe standard veri kümesi, bu alanda daha sonraki araştırmalarda kullanılmak üzere genel kullanıma açılmıştır.

Contact us

Department of Computer Engineering, Boğaziçi University,
34342 Bebek, Istanbul, Turkey

  • Phone: +90 212 359 45 23/24
  • Fax: +90 212 2872461
 

Connect with us

We're on Social Networks. Follow us & get in touch.