Automated Query-Biased and Structure-Preserving Document Summarization for Web Search Tasks

Automated Query-Biased and Structure-Preserving Document Summarization for Web Search Tasks

Advisor: 

Tunga Gungor

Assigned to: 

Canan Pembe

Type: 

Year: 

2010

Status: 

Summary:

With the drastic increase of available information sources on the Internet, people with different backgrounds in the world share the same problem: locating useful information for their actual needs. Search engines provide a means for users to locate documents on the Web via queries. However, users still have to perform the sifting process by themselves; i.e., to decide the relevance of each document with respect to their actual information needs. At this point, automatic summarization techniques can complement the task of search engines. Currently available search engines, such as Google and AltaVista, only show a limited capability in summarizing the Web documents; e.g. displaying only two or three lines of text fragments which consist of the query words and their surrounding text as the summary. In the literature, most of the research in automatic summarization has focused on creating general-purpose summaries without considering user needs. Also, summarization approaches have mostly seen a document as a flat sequence of sentences and ignored the structure within the documents. In the summarization literature, the effect of query-biased techniques and document structure have been considered only in a few studies and separately investigated. This research is distinguished from previous work by combining these two aspects in a coherent framework. In this thesis, we propose a novel summarization approach for Web search, i.e., query-biased and structure-preserving document summarization. The proposed system consists of two main stages. The first stage is the structural processing of Web documents in order to extract their section and subsection hierarchy together with the corresponding headings and subheadings. A document in the system is represented as an ordered tree of headings, subheadings and other text units. First, we formed a rule-based approach based on heuristics and HTML Document Object Model tree processing. Then, we developed a machine learning approach based on the tree representation using support vector machine (SVM) and perceptron algorithms. The methods were evaluated based on the accuracy of heading extraction and hierarchy extraction. The second stage of the research is to develop automatic summarization methods by utilizing the document structures obtained in the first stage. In the proposed method, the summary sentences are extracted in a query-biased way based on two levels of scoring: sentence scoring and section scoring. Document structure is utilized both in the summarization process and in the output summaries. The performance of the proposed system has been determined using several task-based evaluations. These include information retrieval tasks where the summaries will actually be used. The results of the experiments on Turkish and English documents show that the proposed system summaries are superior to Google extracts and unstructured query-biased summaries of the same size in terms of accuracy with reasonable judgment times. User ratings verify that query-biased and structure-preserving summaries are also found to be more useful by the users.

Özet:

İnternet'teki bilgi kaynaklarındaki büyük artışla birlikte, dünyada değişik arka planlara sahip insanlar aynı problemi paylaşmaktadır: Gerçek ihtiyaçlarına uygun bilgileri bulmak. Arama motorları, kullanıcıların, bilgi istekleri vasıtasıyla İnternet'teki dokümanları bulmaları için bir araç sağlamaktadır. Ancak, kullanıcıların eleme işlemini, yani her bir dokümanın gerçek bilgi ihtiyaçlarıyla ilgisine karar verme işlemini, halen kendilerinin yapması gerekmektedir. Bu noktada, otomatik özetleme yöntemleri, arama motorlarının görevini tamamlayabilir. Günümüzde mevcut arama motorları, örneğin Google ve AltaVista, İnternet dokümanlarını özetlemede, sadece bilgi isteğindeki kelimeler ve çevrelerindeki metni içeren iki ya da üç satırlık özetler sunmak gibi, sınırlı bir yetkinlik göstermektedir. Literatürde, otomatik özetleme konusundaki araştırmaların çoğu, kullanıcı ihtiyaçlarını dikkate almayarak genel amaçlı özetler oluşturma üzerine odaklanmıştır. Ayrıca, özetleme yaklaşımları bir dokümanı çoğunlukla düz bir cümle dizisi olarak görmekte ve dokümanlardaki yapıyı göz ardı etmektedir. Özetleme literatüründe, bilgi isteğine dayalı yöntemler ve doküman yapısı sadece az sayıda çalışmada ve ayrı ayrı ele alınmıştır. Bu çalışma, önceki çalışmalardan bu iki yönü tutarlı bir çerçevede bir araya getirmesiyle ayrılmaktadır. Bu tezde, İnternet araması için özgün bir özetleme yaklaşımı öneriyoruz: Bilgi isteği ve doküman yapısına dayalı özetleme. Önerilen sistem, iki temel aşamadan meydana gelmektedir. İlk aşama, İnternet dokümanlarının bölüm ve alt bölüm hiyerarşilerinin ilgili başlık ve alt başlıklarla birlikte ortaya çıkarılması için yapısal olarak işlenmesidir. Sistemdeki her bir doküman, başlıklar, alt başlıklar ve diğer metin birimlerinden oluşan sıralı bir ağaç yapısı ile temsil edilmektedir. İlk olarak, buluşsal yöntemler ve HTML Belge Nesne Modeli'ndeki ağaç yapısının işlenmesine dayalı kural tabanlı bir yaklaşım oluşturduk. Daha sonra, destek vektör makineleri ile algılayıcı algoritmalarını kullanan ve ağaç gösterimine dayalı bir makine öğrenmesi yaklaşımı geliştirdik. Yöntemler, başlık ve hiyerarşi çıkarma işlemlerinin başarımına göre değerlendirildi. Çalışmanın ikinci aşaması, ilk aşamada elde edilen doküman yapılarından faydalanılarak otomatik özetleme yöntemlerinin geliştirilmesidir. Önerilen yöntemde, özet cümleleri, bilgi isteğine dayalı olarak iki seviyede değerlendirmeyle seçilmektedir: Cümle bazında puanlama ve bölüm bazında puanlama. Doküman yapısı, hem özetleme işlemi sırasında hem de üretilen özetlerde kullanılmaktadır. Sistemin başarımı, göreve yönelik değerlendirmelerle belirlenmiştir. Değerlendirmeler, özetlerin gerçekte kullanılacağı gibi bilgiye erişim görevleri içermektedir. Türkçe ve İngilizce dokümanlar üzerinde yapılan deneylerin sonuçları, önerilen sistemin özetlerinin, Google özetleri ve aynı boyutlardaki doküman yapısı bilgisini kullanmayan bilgi isteğine yönelik özetlere göre, makul karar süreleriyle, doğruluk açısından üstünlük sağladığını göstermektedir. Kullanıcı derecelendirmeleri de, bilgi isteği ve doküman yapısına dayalı özetlerin kullanıcılar tarafından daha faydalı bulunduğunu doğrulamaktadır.

Contact us

Department of Computer Engineering, Boğaziçi University,
34342 Bebek, Istanbul, Turkey

  • Phone: +90 212 359 45 23/24
  • Fax: +90 212 2872461
 

Connect with us

We're on Social Networks. Follow us & get in touch.