Thesis (Selection of subject)

Your browser does not support JavaScript, or its support is disabled. Some features may not be available.

Vícejazyčná databáze kolokací

Thesis title in Czech:	Vícejazyčná databáze kolokací
Thesis title in English:	Multilingual collocation database
Key words:	Kolokace, zpracování přirozeného jazyka, statistické metody, clustering, čeština, angličtina, databáze, webový přístup
English key words:	Collocations, natural language processing, statistical methods, clustering, Czech, English, databases, web access
Academic year of topic announcement:	2011/2012
Thesis type:	diploma thesis
Thesis language:	angličtina
Department:	Institute of Formal and Applied Linguistics (32-UFAL)
Supervisor:	prof. RNDr. Jan Hajič, Dr.
Author:	hidden - assigned and confirmed by the Study Dept.
Date of registration:	11.11.2011
Date of assignment:	11.11.2011
Confirmed by Study dept. on:	16.11.2011
Date and time of defence:	08.09.2014 09:00
Date of electronic submission:	31.07.2014
Date of submission of printed version:	31.07.2014
Date of proceeded defence:	08.09.2014
Opponents:	RNDr. David Mareček, Ph.D.

Guidelines

Cílem diplomové práce je vytvořit databázi kolokací pro využití laickými i profesionálními uživateli přirozeného jazyka pro tvorbu textů v daném jazyce nebo pro překlad. Diplomová práce se bude skládat ze dvou podúloh: vytvoření databáze a její zpřístupnění pro koncové uživatele, včetně zajištění SW podpory pro aktualizace a správu databáze. K vytvoření databáze bude použito technik statistického zpracování přirozeného jazyka v oblasti unsupervised machine learning a jejich využití pro nalezení kolokací syntakticko-sémantického typu na základě velkého množství textů v přirozeném jazyce. Tyto texty mohou být syntakticky a sémanticky analyzovány pomocí state-of-the-art metod s využitím již existujícího software pro analýzu přirozeného jazyka, vlastní extrakce kolokací, jejich kvantitativní hodnocení a uložení do databáze spolu s indexovanými původními texty bude náplní první části diplomové práce; minimálně bude tato databáze vytvořena pro češtinu a angličtinu z textů o min. velikosti 2 mld. tokenů. Ve druhé části pak bude cílem vytvořit systém pro doplňování a aktualizaci databáze, její administrativní podporu, a komfortní vzdálený uživatelský přístup včetně filtrování (systémového i uživatelského).

References

Peter F. Brown, Vincent J. Della Pietra, Peter V. de Souza, Jennifer C. Lai, and Robert L. Mercer. 1990. Class-based n-gram models of natural language. Computational Linguistics, 18(4):467–479.

Jakob Uszkoreit_ Thorsten Brants. Distributed Word Clustering for Large Scale Class-Based Language Modeling in Machine Translation. Proceedings of ACL-08: HLT, pages 755–762, Columbus, Ohio, USA, June 2008. c 2008 Association for Computational Linguistics

Oxford Collocations Dictionary for Students of English. ISBN-10: 0194312437 | ISBN-13: 978-0194312431 | Publication Date: December 12, 2002 . dostupné také na http://5yiso.appspot.com/.

Programovací manuály a informace k C/C++/Java, MySQL/Postgress, PHP, Javascript, CSS, XHTML/XML, perl/python, JQuery a další dle potřeby.