Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 368)
Detail práce
   Přihlásit přes CAS
Vícejazyčná databáze kolokací
Název práce v češtině: Vícejazyčná databáze kolokací
Název v anglickém jazyce: Multilingual collocation database
Klíčová slova: Kolokace, zpracování přirozeného jazyka, statistické metody, clustering, čeština, angličtina, databáze, webový přístup
Klíčová slova anglicky: Collocations, natural language processing, statistical methods, clustering, Czech, English, databases, web access
Akademický rok vypsání: 2011/2012
Typ práce: diplomová práce
Jazyk práce: angličtina
Ústav: Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel: prof. RNDr. Jan Hajič, Dr.
Řešitel: skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení: 11.11.2011
Datum zadání: 11.11.2011
Datum potvrzení stud. oddělením: 16.11.2011
Datum a čas obhajoby: 08.09.2014 09:00
Datum odevzdání elektronické podoby:31.07.2014
Datum odevzdání tištěné podoby:31.07.2014
Datum proběhlé obhajoby: 08.09.2014
Oponenti: RNDr. David Mareček, Ph.D.
 
 
 
Zásady pro vypracování
Cílem diplomové práce je vytvořit databázi kolokací pro využití laickými i profesionálními uživateli přirozeného jazyka pro tvorbu textů v daném jazyce nebo pro překlad. Diplomová práce se bude skládat ze dvou podúloh: vytvoření databáze a její zpřístupnění pro koncové uživatele, včetně zajištění SW podpory pro aktualizace a správu databáze. K vytvoření databáze bude použito technik statistického zpracování přirozeného jazyka v oblasti unsupervised machine learning a jejich využití pro nalezení kolokací syntakticko-sémantického typu na základě velkého množství textů v přirozeném jazyce. Tyto texty mohou být syntakticky a sémanticky analyzovány pomocí state-of-the-art metod s využitím již existujícího software pro analýzu přirozeného jazyka, vlastní extrakce kolokací, jejich kvantitativní hodnocení a uložení do databáze spolu s indexovanými původními texty bude náplní první části diplomové práce; minimálně bude tato databáze vytvořena pro češtinu a angličtinu z textů o min. velikosti 2 mld. tokenů. Ve druhé části pak bude cílem vytvořit systém pro doplňování a aktualizaci databáze, její administrativní podporu, a komfortní vzdálený uživatelský přístup včetně filtrování (systémového i uživatelského).
Seznam odborné literatury
Peter F. Brown, Vincent J. Della Pietra, Peter V. de Souza, Jennifer C. Lai, and Robert L. Mercer. 1990. Class-based n-gram models of natural language. Computational Linguistics, 18(4):467–479.

Jakob Uszkoreit_ Thorsten Brants. Distributed Word Clustering for Large Scale Class-Based Language Modeling in Machine Translation. Proceedings of ACL-08: HLT, pages 755–762, Columbus, Ohio, USA, June 2008. c 2008 Association for Computational Linguistics

Oxford Collocations Dictionary for Students of English. ISBN-10: 0194312437 | ISBN-13: 978-0194312431 | Publication Date: December 12, 2002 . dostupné také na http://5yiso.appspot.com/.

Programovací manuály a informace k C/C++/Java, MySQL/Postgress, PHP, Javascript, CSS, XHTML/XML, perl/python, JQuery a další dle potřeby.

 
Univerzita Karlova | Informační systém UK