Témata prací (Výběr práce)

Váš prohlížeč nepodporuje JavaScript nebo je jeho podpora vypnutá. Některé funkce nemusejí být dostupné.

Automatické stahování lingvistických dat z webu

Název práce v češtině:	Automatické stahování lingvistických dat z webu
Název v anglickém jazyce:	Webcrawling of linguistic data
Klíčová slova:	automatické stahování tématicky omezených textů z web, web jako korpus
Klíčová slova anglicky:	topic focused webcrawling, web as a corpus
Akademický rok vypsání:	2014/2015
Typ práce:	diplomová práce
Jazyk práce:
Ústav:	Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel:	doc. RNDr. Pavel Pecina, Ph.D.
Řešitel:

Zásady pro vypracování

Internet (a zejména World Wide Web) je rozsáhlým a relativně lehce přístupným zdrojem lingvistických dat. Jejich automatické stahování a vytváření textových korpusů má široké využití, zejména pokud by šlo o tzv. doménově specifické korpusy, tedy texty z předem definovaných domén.

Celý proces vytváření tzv. doménově specifických webových korpusů spočívá v několika krocích: 1) automatické procházení webu (webcrawling), 2) čištění dat (extrakce textu z HTML a jiných dokumentů), 3) identifikace jazyka a 4) identifikace a odstraňování duplicit.

Cíl práce spočívá v návrhu, implementaci a evaluaci funkčního, robustního a na údržbu nenáročného prostředí pro automatické vytváření doménově specifických webových korpusů. Pro některé kroky jsou vhodné nástroje dostupné, jiné je nutné implementovat. Součástí práce bude rešerše existujících možností, specifikace požadavků a následná modifikace existujících nástrojů nebo implementace nových řešení.

Seznam odborné literatury

Vít Suchomel and Jan Pomikálek . Efﬁcient Web Crawling for Large Text Corpora. In Proceedings of the WAC-7 Web as Corpus Workshop, Lyon, April 2012.

Marco Baroni and Motoko Ueyama. Building General- and Special-Purpose Corpora by Web Crawling. In Proceedings of the 13th NIJL International Symposium on Language Corpora: Their Compilation and Application. 2006

Pavel Pecina, Antonio Toral, Andy Way, Vassilis Papavassiliou, Prokopis Prokopidis, and Maria Giagkou. Towards Using Web-Crawled Data for Domain Adaptation in Statistical Machine Translation. In Mikel L. Forcada, Heidi Depraetere, and Vincent Vandeghinste, editors, Proceedings of the 15th Annual Conference of the European Associtation for Machine Translation, pages 297-304, Leuven, Belgium, 2011.