Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 368)
Detail práce
   Přihlásit přes CAS
Klasifikátor pro sémantické vzory užívání anglických sloves
Název práce v jazyce práce (slovenština): Klasifikátor pro sémantické vzory užívání anglických sloves
Název práce v češtině: Klasifikátor pro sémantické vzory užívání anglických sloves
Název v anglickém jazyce: Classifier for semantic patterns of English verbs
Klíčová slova: lexikálna sémantika, anglické slovesá, strojové učenie, automatická klasifikácia, Corpus Pattern Analysis, Word Sense Disambiguation
Klíčová slova anglicky: lexical semantics, English verbs, machine learning, automatic classification, Corpus Pattern Analysis, Word Sense Disambiguation
Akademický rok vypsání: 2011/2012
Typ práce: diplomová práce
Jazyk práce: slovenština
Ústav: Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel: RNDr. Martin Holub, Ph.D.
Řešitel: skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení: 22.11.2011
Datum zadání: 28.11.2011
Datum potvrzení stud. oddělením: 07.12.2011
Datum a čas obhajoby: 10.05.2012 13:00
Datum odevzdání elektronické podoby:11.04.2012
Datum odevzdání tištěné podoby:12.04.2012
Datum proběhlé obhajoby: 10.05.2012
Oponenti: doc. RNDr. Ondřej Bojar, Ph.D.
 
 
 
Zásady pro vypracování
Metoda CPA (z angl. Corpus Pattern Analysis) je důsledně korpusová, empirická metoda, která analyzuje typické vzory užívání slov v jazykovém korpusu a popisuje význam sloves pomocí kontextových preferencí definovaných jak syntakticky, tak sémanticky [3]. V současné době pomocí CPA a s využitím Britského národního korpusu (BNC) vzniká Slovník vzorů užívání anglických sloves (PDEV, z angl. Pattern Dictionary of English Verbs) [1, 3, 6]. V rámci tohoto projektu bylo již zkompilováno téměř 600 anglických sloves, která pokrývají cca 10% slovesných výskytů v BNC. Vedle slovníkových hesel obsahujících definici typických vzorů užívání sloves jsou též veřejně dostupná rozsáhlá korpusová data se slovesy označkovanými podle PDEV [3]. Nedílnou součástí CPA je empiricky vybudovaný systém sémantických typů [2, 3]. Kombinací sémantických typů a syntaxe metoda CPA originálním způsobem konkuruje tradičním přístupům k automatickému rozpoznávání významu sloves [4].

Diplomová práce má analyzovat a co nejlépe využít dostupná data o typických vzorech užívání anglických sloves [7, 8] pro konstrukci automatického klasifikátoru. Cílem práce je navrhnout, implementovat a empiricky evaluovat klasifikátor pro rozpoznání sémantických vzorů užívání anglických sloves. Mimo jiné se předpokládá rozpoznávání lexikálních jednotek realizujících jednotlivé sémantické typy v BNC, využití automatického parsingu angličtiny a metod strojového učení [4, 5].
Seznam odborné literatury
[1] Hanks, Patrick, and James Pustejovsky: A Pattern Dictionary for Natural Language Processing. In Revue Francaise de linguistique appliquée, 10:2, 2005.

[2] Hanks Patrick, Karel Pala and Pavel Rychly: Towards an empirically well-founded ontology for NLP. In Proceedings of the 4th International Workshop on Generative Approaches to the Lexicon, Paris, 2007.

[3] Webové stránky mezinárodního projektu CPA. http://nlp.fi.muni.cz/projekty/cpa/.

[4] Agirre, E. and Edmonds, P. (eds.): Word Sense Disambiguation: Algorithms and Applications. Springer, 2007. (vybrané kapitoly)

[5] Daniel Jurafsky and James H. Martin: SPEECH and LANGUAGE PROCESSING. An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Prentice Hall, 2009. (vybrané kapitoly)

[6] Cinková, S. and Hanks, P.: Validation of Corpus Pattern Analysis - Assigning pattern numbers to random verb samples. 2010. Available at http://nlp.fi.muni.cz/projekty/cpa/.

[7] Cinková, Silvie; Holub, Martin; Rychlý, Pavel; Smejkalová, Lenka; Šindlerová, Jana: Can Corpus Pattern Analysis Be Used in NLP? In Sojka, Petr; Horák, Aleš; Kopeček, Ivan; Pala, Karel: Text, Speech and Dialogue. Proceedings of the 13th International Conference, TSD 2010, Brno, Czech Republic. Springer, Berlin/Heidelberg, 2010.

[8] Smejkalová, L.: Typické vzory užívání anglických sloves. Diplomová práce, MFF UK, Praha 2010.
 
Univerzita Karlova | Informační systém UK