Vícejazyčná databáze kolokací
Thesis title in Czech: | Vícejazyčná databáze kolokací |
---|---|
Thesis title in English: | Multilingual collocation database |
Key words: | Kolokace, zpracování přirozeného jazyka, statistické metody, clustering, čeština, angličtina, databáze, webový přístup |
English key words: | Collocations, natural language processing, statistical methods, clustering, Czech, English, databases, web access |
Academic year of topic announcement: | 2011/2012 |
Thesis type: | diploma thesis |
Thesis language: | angličtina |
Department: | Institute of Formal and Applied Linguistics (32-UFAL) |
Supervisor: | prof. RNDr. Jan Hajič, Dr. |
Author: | hidden - assigned and confirmed by the Study Dept. |
Date of registration: | 11.11.2011 |
Date of assignment: | 11.11.2011 |
Confirmed by Study dept. on: | 16.11.2011 |
Date and time of defence: | 08.09.2014 09:00 |
Date of electronic submission: | 31.07.2014 |
Date of submission of printed version: | 31.07.2014 |
Date of proceeded defence: | 08.09.2014 |
Opponents: | RNDr. David Mareček, Ph.D. |
Guidelines |
Cílem diplomové práce je vytvořit databázi kolokací pro využití laickými i profesionálními uživateli přirozeného jazyka pro tvorbu textů v daném jazyce nebo pro překlad. Diplomová práce se bude skládat ze dvou podúloh: vytvoření databáze a její zpřístupnění pro koncové uživatele, včetně zajištění SW podpory pro aktualizace a správu databáze. K vytvoření databáze bude použito technik statistického zpracování přirozeného jazyka v oblasti unsupervised machine learning a jejich využití pro nalezení kolokací syntakticko-sémantického typu na základě velkého množství textů v přirozeném jazyce. Tyto texty mohou být syntakticky a sémanticky analyzovány pomocí state-of-the-art metod s využitím již existujícího software pro analýzu přirozeného jazyka, vlastní extrakce kolokací, jejich kvantitativní hodnocení a uložení do databáze spolu s indexovanými původními texty bude náplní první části diplomové práce; minimálně bude tato databáze vytvořena pro češtinu a angličtinu z textů o min. velikosti 2 mld. tokenů. Ve druhé části pak bude cílem vytvořit systém pro doplňování a aktualizaci databáze, její administrativní podporu, a komfortní vzdálený uživatelský přístup včetně filtrování (systémového i uživatelského). |
References |
Peter F. Brown, Vincent J. Della Pietra, Peter V. de Souza, Jennifer C. Lai, and Robert L. Mercer. 1990. Class-based n-gram models of natural language. Computational Linguistics, 18(4):467–479.
Jakob Uszkoreit_ Thorsten Brants. Distributed Word Clustering for Large Scale Class-Based Language Modeling in Machine Translation. Proceedings of ACL-08: HLT, pages 755–762, Columbus, Ohio, USA, June 2008. c 2008 Association for Computational Linguistics Oxford Collocations Dictionary for Students of English. ISBN-10: 0194312437 | ISBN-13: 978-0194312431 | Publication Date: December 12, 2002 . dostupné také na http://5yiso.appspot.com/. Programovací manuály a informace k C/C++/Java, MySQL/Postgress, PHP, Javascript, CSS, XHTML/XML, perl/python, JQuery a další dle potřeby. |