Témata prací (Výběr práce)

Váš prohlížeč nepodporuje JavaScript nebo je jeho podpora vypnutá. Některé funkce nemusejí být dostupné.

Vícejazyčná databáze kolokací

Název práce v češtině:	Vícejazyčná databáze kolokací
Název v anglickém jazyce:	Multilingual collocation database
Klíčová slova:	Kolokace, zpracování přirozeného jazyka, statistické metody, clustering, čeština, angličtina, databáze, webový přístup
Klíčová slova anglicky:	Collocations, natural language processing, statistical methods, clustering, Czech, English, databases, web access
Akademický rok vypsání:	2011/2012
Typ práce:	diplomová práce
Jazyk práce:	angličtina
Ústav:	Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel:	prof. RNDr. Jan Hajič, Dr.
Řešitel:	skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení:	11.11.2011
Datum zadání:	11.11.2011
Datum potvrzení stud. oddělením:	16.11.2011
Datum a čas obhajoby:	08.09.2014 09:00
Datum odevzdání elektronické podoby:	31.07.2014
Datum odevzdání tištěné podoby:	31.07.2014
Datum proběhlé obhajoby:	08.09.2014
Oponenti:	RNDr. David Mareček, Ph.D.

Zásady pro vypracování

Cílem diplomové práce je vytvořit databázi kolokací pro využití laickými i profesionálními uživateli přirozeného jazyka pro tvorbu textů v daném jazyce nebo pro překlad. Diplomová práce se bude skládat ze dvou podúloh: vytvoření databáze a její zpřístupnění pro koncové uživatele, včetně zajištění SW podpory pro aktualizace a správu databáze. K vytvoření databáze bude použito technik statistického zpracování přirozeného jazyka v oblasti unsupervised machine learning a jejich využití pro nalezení kolokací syntakticko-sémantického typu na základě velkého množství textů v přirozeném jazyce. Tyto texty mohou být syntakticky a sémanticky analyzovány pomocí state-of-the-art metod s využitím již existujícího software pro analýzu přirozeného jazyka, vlastní extrakce kolokací, jejich kvantitativní hodnocení a uložení do databáze spolu s indexovanými původními texty bude náplní první části diplomové práce; minimálně bude tato databáze vytvořena pro češtinu a angličtinu z textů o min. velikosti 2 mld. tokenů. Ve druhé části pak bude cílem vytvořit systém pro doplňování a aktualizaci databáze, její administrativní podporu, a komfortní vzdálený uživatelský přístup včetně filtrování (systémového i uživatelského).

Seznam odborné literatury

Peter F. Brown, Vincent J. Della Pietra, Peter V. de Souza, Jennifer C. Lai, and Robert L. Mercer. 1990. Class-based n-gram models of natural language. Computational Linguistics, 18(4):467–479.

Jakob Uszkoreit_ Thorsten Brants. Distributed Word Clustering for Large Scale Class-Based Language Modeling in Machine Translation. Proceedings of ACL-08: HLT, pages 755–762, Columbus, Ohio, USA, June 2008. c 2008 Association for Computational Linguistics

Oxford Collocations Dictionary for Students of English. ISBN-10: 0194312437 | ISBN-13: 978-0194312431 | Publication Date: December 12, 2002 . dostupné také na http://5yiso.appspot.com/.

Programovací manuály a informace k C/C++/Java, MySQL/Postgress, PHP, Javascript, CSS, XHTML/XML, perl/python, JQuery a další dle potřeby.