Normalizace pojmenovaných entit v českých textech
Název práce v češtině: | Normalizace pojmenovaných entit v českých textech |
---|---|
Název v anglickém jazyce: | Named Entity Normalization in Czech Texts |
Klíčová slova: | pojmenované entity, normalizace, pravidlový systém |
Klíčová slova anglicky: | named entities, normalization, rule-based system |
Akademický rok vypsání: | 2013/2014 |
Typ práce: | bakalářská práce |
Jazyk práce: | čeština |
Ústav: | Ústav formální a aplikované lingvistiky (32-UFAL) |
Vedoucí / školitel: | doc. Mgr. Barbora Vidová Hladká, Ph.D. |
Řešitel: | skrytý - zadáno a potvrzeno stud. odd. |
Datum přihlášení: | 25.12.2013 |
Datum zadání: | 06.01.2014 |
Datum potvrzení stud. oddělením: | 17.01.2014 |
Datum a čas obhajoby: | 16.06.2014 00:00 |
Datum odevzdání elektronické podoby: | 22.05.2014 |
Datum odevzdání tištěné podoby: | 23.05.2014 |
Datum proběhlé obhajoby: | 16.06.2014 |
Oponenti: | Mgr. Martin Popel, Ph.D. |
Zásady pro vypracování |
Lemmatizace je proces, při kterém je slovo převedeno do základního tvaru, tzv. lemmatu. Např. náměstím --> náměstí, konsolidovanou --> konsolidovaný, koupil --> koupit. Pojmenované entity jsou slova a slovní spojení, která v textu vystupují jako jména osob, geografické názvy, jména produktů, názvy organizací, časové údaje atp. Např. Dnes sehrají fotbalisté Slavie na Strahově utkání Interpoháru.
Normalizace pojmenované entity je proces, při kterém je pojmenovaná entita převedena do základního tvaru. Např. konsolidované účetní závěrky --> konsolidovaná učetní závěrka, náměstím Jiřího z Poděbrad --> náměstí Jiřího z Poděbrad. Normalizované pojmenované entity reprezentují jednotky textů, které vyžaduje většina systémů počítačového zpracování přirozeného jazyka, např. systémy strojového překladu, systémy extrakce informací. Pro češtinu dosud taková procedura neexistuje. Úkolem řešitele bude navrhnout a implementovat automatickou proceduru pro normalizaci pojmenovaných entit, jejímž vstupem bude český text s označenými pojmenovanými entitami: -- Seznámit se s korpusem Czech Named Entity Corpus 1.0 [1] (CNEC). -- Seznámit se s vybranými nástroji platformy Treex [6]. -- V korpusu CNEC provést normalizaci pojmenovaných entit ručně. -- Navrhnout pravidlovou proceduru pro normalizaci pojmenovaných entit v českých textech. -- Implementovat pravidlovou proceduru a otestovat ji. -- Prezentovat pravidlovou proceduru jako webovou službu. |
Seznam odborné literatury |
[1] Czech Named Entity Corpus 1.0. http://ufal.mff.cuni.cz/cnec
[2] Kravalová Jana, Žabokrtský Zdeněk. Czech named entity corpus and SVM-based recognizer. In: Proceedings of the 2009 Named Entities Workshop: Shared Task on Transliteration. NEWS 2009, pp. 194–201. 2009. [3] Straková Jana, Straka Milan, Hajič Jan: A New State-of-The-Art Czech Named Entity Recognizer. Accepted for publication in: Lecture Notes in Computer Science, Vol. 8082, Text, Speech and Dialogue: 16th International Conference, TSD 2013. pp. 68-75, 2013 [4] Ševčíková Magda, Žabokrtský Zdeněk, Krůza Oldřich. Zpracování pojmenovaných entit v českých textech. Technical Report TR-2007-36. 2007. [5] Ševčíková Magda, Žabokrtský Zdeněk, Krůza Oldřich. Named entities in Czech: Annotating data and developing NE tagger. In: Matoušek, V., Mautner, P. (eds.) TSD 2007. pp. 188–195. Springer, Heidelberg. 2007. [6] Platforma Treex. http://ufal.mff.cuni.cz/treex. [7] Žabokrtský Zdeněk a kol. SysNERV. Softwarový projekt, MFF UK, 2013. |