Témata prací (Výběr práce)

Váš prohlížeč nepodporuje JavaScript nebo je jeho podpora vypnutá. Některé funkce nemusejí být dostupné.

Velký mnohojazyčný korpus

Název práce v češtině:	Velký mnohojazyčný korpus
Název v anglickém jazyce:	Large Multilingual Corpus
Klíčová slova:	jazykový korpus, distribuované zpracování
Klíčová slova anglicky:	language corpus, distributed processing
Akademický rok vypsání:	2010/2011
Typ práce:	diplomová práce
Jazyk práce:	angličtina
Ústav:	Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel:	doc. Ing. Zdeněk Žabokrtský, Ph.D.
Řešitel:	skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení:	22.03.2011
Datum zadání:	22.03.2011
Datum a čas obhajoby:	06.09.2011 00:00
Datum odevzdání elektronické podoby:	05.08.2011
Datum odevzdání tištěné podoby:	05.08.2011
Datum proběhlé obhajoby:	06.09.2011
Oponenti:	RNDr. Miroslav Spousta

Zásady pro vypracování

Cílem práce je navrhnout a implementovat softwarový systém, který s využitím textů dostupných na WWW sestaví mnohojazyčný neanotovaný korpus.
V korpusu bude obsaženo několik stovek jazyků. Minimální celková velikost textů pro každý jednotlivý jazyk bude deset miliónů slov. S ohledem na
velké množství dat bude korpus vytvářen distribuovaným způsobem. Vedle kvantitativní a kvalitativní analýzy shromážděného materiálu bude práce
dokumentovat i řešení dílčích problémů vyvstávajících pro jednotlivé jazyky nebo jazykové skupiny.

Seznam odborné literatury

Wynne, M (editor). Developing Linguistic Corpora: a Guide to Good Practice. Oxford: Oxbow Books. 2005

Lin, J.; Dryer, C.: Data-Intensive Text Processing with MapReduce. Synthesis Lectures on Human Language Technologies. Morgan & Claypool Publishers. 2010

Český národní korpus: Úvod a příručka uživatele. FF UK. 2000

Conway, D.: Perl Best Practices. Standards and Styles for Developing Maintainable Code. O'Reilly Media. 2005