Thesis (Selection of subject)

Your browser does not support JavaScript, or its support is disabled. Some features may not be available.

Automatické stahování lingvistických dat z webu

Thesis title in Czech:	Automatické stahování lingvistických dat z webu
Thesis title in English:	Webcrawling of linguistic data
Key words:	automatické stahování tématicky omezených textů z web, web jako korpus
English key words:	topic focused webcrawling, web as a corpus
Academic year of topic announcement:	2014/2015
Thesis type:	diploma thesis
Thesis language:
Department:	Institute of Formal and Applied Linguistics (32-UFAL)
Supervisor:	doc. RNDr. Pavel Pecina, Ph.D.
Author:

Guidelines

Internet (a zejména World Wide Web) je rozsáhlým a relativně lehce přístupným zdrojem lingvistických dat. Jejich automatické stahování a vytváření textových korpusů má široké využití, zejména pokud by šlo o tzv. doménově specifické korpusy, tedy texty z předem definovaných domén.

Celý proces vytváření tzv. doménově specifických webových korpusů spočívá v několika krocích: 1) automatické procházení webu (webcrawling), 2) čištění dat (extrakce textu z HTML a jiných dokumentů), 3) identifikace jazyka a 4) identifikace a odstraňování duplicit.

Cíl práce spočívá v návrhu, implementaci a evaluaci funkčního, robustního a na údržbu nenáročného prostředí pro automatické vytváření doménově specifických webových korpusů. Pro některé kroky jsou vhodné nástroje dostupné, jiné je nutné implementovat. Součástí práce bude rešerše existujících možností, specifikace požadavků a následná modifikace existujících nástrojů nebo implementace nových řešení.

References

Vít Suchomel and Jan Pomikálek . Efﬁcient Web Crawling for Large Text Corpora. In Proceedings of the WAC-7 Web as Corpus Workshop, Lyon, April 2012.

Marco Baroni and Motoko Ueyama. Building General- and Special-Purpose Corpora by Web Crawling. In Proceedings of the 13th NIJL International Symposium on Language Corpora: Their Compilation and Application. 2006

Pavel Pecina, Antonio Toral, Andy Way, Vassilis Papavassiliou, Prokopis Prokopidis, and Maria Giagkou. Towards Using Web-Crawled Data for Domain Adaptation in Statistical Machine Translation. In Mikel L. Forcada, Heidi Depraetere, and Vincent Vandeghinste, editors, Proceedings of the 15th Annual Conference of the European Associtation for Machine Translation, pages 297-304, Leuven, Belgium, 2011.