Velký mnohojazyčný korpus
Název práce v češtině: | Velký mnohojazyčný korpus |
---|---|
Název v anglickém jazyce: | Large Multilingual Corpus |
Klíčová slova: | jazykový korpus, distribuované zpracování |
Klíčová slova anglicky: | language corpus, distributed processing |
Akademický rok vypsání: | 2010/2011 |
Typ práce: | diplomová práce |
Jazyk práce: | angličtina |
Ústav: | Ústav formální a aplikované lingvistiky (32-UFAL) |
Vedoucí / školitel: | doc. Ing. Zdeněk Žabokrtský, Ph.D. |
Řešitel: | skrytý - zadáno a potvrzeno stud. odd. |
Datum přihlášení: | 22.03.2011 |
Datum zadání: | 22.03.2011 |
Datum a čas obhajoby: | 06.09.2011 00:00 |
Datum odevzdání elektronické podoby: | 05.08.2011 |
Datum odevzdání tištěné podoby: | 05.08.2011 |
Datum proběhlé obhajoby: | 06.09.2011 |
Oponenti: | RNDr. Miroslav Spousta |
Zásady pro vypracování |
Cílem práce je navrhnout a implementovat softwarový systém, který s využitím textů dostupných na WWW sestaví mnohojazyčný neanotovaný korpus.
V korpusu bude obsaženo několik stovek jazyků. Minimální celková velikost textů pro každý jednotlivý jazyk bude deset miliónů slov. S ohledem na velké množství dat bude korpus vytvářen distribuovaným způsobem. Vedle kvantitativní a kvalitativní analýzy shromážděného materiálu bude práce dokumentovat i řešení dílčích problémů vyvstávajících pro jednotlivé jazyky nebo jazykové skupiny. |
Seznam odborné literatury |
Wynne, M (editor). Developing Linguistic Corpora: a Guide to Good Practice. Oxford: Oxbow Books. 2005
Lin, J.; Dryer, C.: Data-Intensive Text Processing with MapReduce. Synthesis Lectures on Human Language Technologies. Morgan & Claypool Publishers. 2010 Český národní korpus: Úvod a příručka uživatele. FF UK. 2000 Conway, D.: Perl Best Practices. Standards and Styles for Developing Maintainable Code. O'Reilly Media. 2005 |