Automatické stahování lingvistických dat z webu
Thesis title in Czech: | Automatické stahování lingvistických dat z webu |
---|---|
Thesis title in English: | Webcrawling of linguistic data |
Key words: | automatické stahování tématicky omezených textů z web, web jako korpus |
English key words: | topic focused webcrawling, web as a corpus |
Academic year of topic announcement: | 2014/2015 |
Thesis type: | diploma thesis |
Thesis language: | |
Department: | Institute of Formal and Applied Linguistics (32-UFAL) |
Supervisor: | doc. RNDr. Pavel Pecina, Ph.D. |
Author: |
Guidelines |
Internet (a zejména World Wide Web) je rozsáhlým a relativně lehce přístupným zdrojem lingvistických dat. Jejich automatické stahování a vytváření textových korpusů má široké využití, zejména pokud by šlo o tzv. doménově specifické korpusy, tedy texty z předem definovaných domén.
Celý proces vytváření tzv. doménově specifických webových korpusů spočívá v několika krocích: 1) automatické procházení webu (webcrawling), 2) čištění dat (extrakce textu z HTML a jiných dokumentů), 3) identifikace jazyka a 4) identifikace a odstraňování duplicit. Cíl práce spočívá v návrhu, implementaci a evaluaci funkčního, robustního a na údržbu nenáročného prostředí pro automatické vytváření doménově specifických webových korpusů. Pro některé kroky jsou vhodné nástroje dostupné, jiné je nutné implementovat. Součástí práce bude rešerše existujících možností, specifikace požadavků a následná modifikace existujících nástrojů nebo implementace nových řešení. |
References |
Vít Suchomel and Jan Pomikálek . Efficient Web Crawling for Large Text Corpora. In Proceedings of the WAC-7 Web as Corpus Workshop, Lyon, April 2012.
Marco Baroni and Motoko Ueyama. Building General- and Special-Purpose Corpora by Web Crawling. In Proceedings of the 13th NIJL International Symposium on Language Corpora: Their Compilation and Application. 2006 Pavel Pecina, Antonio Toral, Andy Way, Vassilis Papavassiliou, Prokopis Prokopidis, and Maria Giagkou. Towards Using Web-Crawled Data for Domain Adaptation in Statistical Machine Translation. In Mikel L. Forcada, Heidi Depraetere, and Vincent Vandeghinste, editors, Proceedings of the 15th Annual Conference of the European Associtation for Machine Translation, pages 297-304, Leuven, Belgium, 2011. |