Thesis (Selection of subject)Thesis (Selection of subject)(version: 368)
Thesis details
   Login via CAS
Automatické stahování lingvistických dat z webu
Thesis title in Czech: Automatické stahování lingvistických dat z webu
Thesis title in English: Webcrawling of linguistic data
Key words: automatické stahování tématicky omezených textů z web, web jako korpus
English key words: topic focused webcrawling, web as a corpus
Academic year of topic announcement: 2014/2015
Thesis type: diploma thesis
Thesis language:
Department: Institute of Formal and Applied Linguistics (32-UFAL)
Supervisor: doc. RNDr. Pavel Pecina, Ph.D.
Author:
Guidelines
Internet (a zejména World Wide Web) je rozsáhlým a relativně lehce přístupným zdrojem lingvistických dat. Jejich automatické stahování a vytváření textových korpusů má široké využití, zejména pokud by šlo o tzv. doménově specifické korpusy, tedy texty z předem definovaných domén.

Celý proces vytváření tzv. doménově specifických webových korpusů spočívá v několika krocích: 1) automatické procházení webu (webcrawling), 2) čištění dat (extrakce textu z HTML a jiných dokumentů), 3) identifikace jazyka a 4) identifikace a odstraňování duplicit.

Cíl práce spočívá v návrhu, implementaci a evaluaci funkčního, robustního a na údržbu nenáročného prostředí pro automatické vytváření doménově specifických webových korpusů. Pro některé kroky jsou vhodné nástroje dostupné, jiné je nutné implementovat. Součástí práce bude rešerše existujících možností, specifikace požadavků a následná modifikace existujících nástrojů nebo implementace nových řešení.
References
Vít Suchomel and Jan Pomikálek . Efficient Web Crawling for Large Text Corpora. In Proceedings of the WAC-7 Web as Corpus Workshop, Lyon, April 2012.

Marco Baroni and Motoko Ueyama. Building General- and Special-Purpose Corpora by Web Crawling. In Proceedings of the 13th NIJL International Symposium on Language Corpora: Their Compilation and Application. 2006

Pavel Pecina, Antonio Toral, Andy Way, Vassilis Papavassiliou, Prokopis Prokopidis, and Maria Giagkou. Towards Using Web-Crawled Data for Domain Adaptation in Statistical Machine Translation. In Mikel L. Forcada, Heidi Depraetere, and Vincent Vandeghinste, editors, Proceedings of the 15th Annual Conference of the European Associtation for Machine Translation, pages 297-304, Leuven, Belgium, 2011.
 
Charles University | Information system of Charles University | http://www.cuni.cz/UKEN-329.html