Thesis (Selection of subject)Thesis (Selection of subject)(version: 368)
Thesis details
   Login via CAS
Vícejazyčná databáze kolokací
Thesis title in Czech: Vícejazyčná databáze kolokací
Thesis title in English: Multilingual collocation database
Key words: Kolokace, zpracování přirozeného jazyka, statistické metody, clustering, čeština, angličtina, databáze, webový přístup
English key words: Collocations, natural language processing, statistical methods, clustering, Czech, English, databases, web access
Academic year of topic announcement: 2011/2012
Thesis type: diploma thesis
Thesis language: angličtina
Department: Institute of Formal and Applied Linguistics (32-UFAL)
Supervisor: prof. RNDr. Jan Hajič, Dr.
Author: hidden - assigned and confirmed by the Study Dept.
Date of registration: 11.11.2011
Date of assignment: 11.11.2011
Confirmed by Study dept. on: 16.11.2011
Date and time of defence: 08.09.2014 09:00
Date of electronic submission:31.07.2014
Date of submission of printed version:31.07.2014
Date of proceeded defence: 08.09.2014
Opponents: RNDr. David Mareček, Ph.D.
 
 
 
Guidelines
Cílem diplomové práce je vytvořit databázi kolokací pro využití laickými i profesionálními uživateli přirozeného jazyka pro tvorbu textů v daném jazyce nebo pro překlad. Diplomová práce se bude skládat ze dvou podúloh: vytvoření databáze a její zpřístupnění pro koncové uživatele, včetně zajištění SW podpory pro aktualizace a správu databáze. K vytvoření databáze bude použito technik statistického zpracování přirozeného jazyka v oblasti unsupervised machine learning a jejich využití pro nalezení kolokací syntakticko-sémantického typu na základě velkého množství textů v přirozeném jazyce. Tyto texty mohou být syntakticky a sémanticky analyzovány pomocí state-of-the-art metod s využitím již existujícího software pro analýzu přirozeného jazyka, vlastní extrakce kolokací, jejich kvantitativní hodnocení a uložení do databáze spolu s indexovanými původními texty bude náplní první části diplomové práce; minimálně bude tato databáze vytvořena pro češtinu a angličtinu z textů o min. velikosti 2 mld. tokenů. Ve druhé části pak bude cílem vytvořit systém pro doplňování a aktualizaci databáze, její administrativní podporu, a komfortní vzdálený uživatelský přístup včetně filtrování (systémového i uživatelského).
References
Peter F. Brown, Vincent J. Della Pietra, Peter V. de Souza, Jennifer C. Lai, and Robert L. Mercer. 1990. Class-based n-gram models of natural language. Computational Linguistics, 18(4):467–479.

Jakob Uszkoreit_ Thorsten Brants. Distributed Word Clustering for Large Scale Class-Based Language Modeling in Machine Translation. Proceedings of ACL-08: HLT, pages 755–762, Columbus, Ohio, USA, June 2008. c 2008 Association for Computational Linguistics

Oxford Collocations Dictionary for Students of English. ISBN-10: 0194312437 | ISBN-13: 978-0194312431 | Publication Date: December 12, 2002 . dostupné také na http://5yiso.appspot.com/.

Programovací manuály a informace k C/C++/Java, MySQL/Postgress, PHP, Javascript, CSS, XHTML/XML, perl/python, JQuery a další dle potřeby.

 
Charles University | Information system of Charles University | http://www.cuni.cz/UKEN-329.html