Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 368)
Detail práce
   Přihlásit přes CAS
Velký mnohojazyčný korpus
Název práce v češtině: Velký mnohojazyčný korpus
Název v anglickém jazyce: Large Multilingual Corpus
Klíčová slova: jazykový korpus, distribuované zpracování
Klíčová slova anglicky: language corpus, distributed processing
Akademický rok vypsání: 2010/2011
Typ práce: diplomová práce
Jazyk práce: angličtina
Ústav: Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel: doc. Ing. Zdeněk Žabokrtský, Ph.D.
Řešitel: skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení: 22.03.2011
Datum zadání: 22.03.2011
Datum a čas obhajoby: 06.09.2011 00:00
Datum odevzdání elektronické podoby:05.08.2011
Datum odevzdání tištěné podoby:05.08.2011
Datum proběhlé obhajoby: 06.09.2011
Oponenti: RNDr. Miroslav Spousta
 
 
 
Zásady pro vypracování
Cílem práce je navrhnout a implementovat softwarový systém, který s využitím textů dostupných na WWW sestaví mnohojazyčný neanotovaný korpus.
V korpusu bude obsaženo několik stovek jazyků. Minimální celková velikost textů pro každý jednotlivý jazyk bude deset miliónů slov. S ohledem na
velké množství dat bude korpus vytvářen distribuovaným způsobem. Vedle kvantitativní a kvalitativní analýzy shromážděného materiálu bude práce
dokumentovat i řešení dílčích problémů vyvstávajících pro jednotlivé jazyky nebo jazykové skupiny.


Seznam odborné literatury
Wynne, M (editor). Developing Linguistic Corpora: a Guide to Good Practice. Oxford: Oxbow Books. 2005

Lin, J.; Dryer, C.: Data-Intensive Text Processing with MapReduce. Synthesis Lectures on Human Language Technologies. Morgan & Claypool Publishers. 2010

Český národní korpus: Úvod a příručka uživatele. FF UK. 2000

Conway, D.: Perl Best Practices. Standards and Styles for Developing Maintainable Code. O'Reilly Media. 2005
 
Univerzita Karlova | Informační systém UK