Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 384)
Detail práce
   Přihlásit přes CAS
Normalizace pojmenovaných entit v českých textech
Název práce v češtině: Normalizace pojmenovaných entit v českých textech
Název v anglickém jazyce: Named Entity Normalization in Czech Texts
Klíčová slova: pojmenované entity, normalizace, pravidlový systém
Klíčová slova anglicky: named entities, normalization, rule-based system
Akademický rok vypsání: 2013/2014
Typ práce: bakalářská práce
Jazyk práce: čeština
Ústav: Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel: doc. Mgr. Barbora Vidová Hladká, Ph.D.
Řešitel: skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení: 25.12.2013
Datum zadání: 06.01.2014
Datum potvrzení stud. oddělením: 17.01.2014
Datum a čas obhajoby: 16.06.2014 00:00
Datum odevzdání elektronické podoby:22.05.2014
Datum odevzdání tištěné podoby:23.05.2014
Datum proběhlé obhajoby: 16.06.2014
Oponenti: Mgr. Martin Popel, Ph.D.
 
 
 
Zásady pro vypracování
Lemmatizace je proces, při kterém je slovo převedeno do základního tvaru, tzv. lemmatu. Např. náměstím --> náměstí, konsolidovanou --> konsolidovaný, koupil --> koupit. Pojmenované entity jsou slova a slovní spojení, která v textu vystupují jako jména osob, geografické názvy, jména produktů, názvy organizací, časové údaje atp. Např. Dnes sehrají fotbalisté Slavie na Strahově utkání Interpoháru.

Normalizace pojmenované entity je proces, při kterém je pojmenovaná entita převedena do základního tvaru. Např. konsolidované účetní závěrky --> konsolidovaná učetní závěrka, náměstím Jiřího z Poděbrad --> náměstí Jiřího z Poděbrad. Normalizované pojmenované entity reprezentují jednotky textů, které vyžaduje většina systémů počítačového zpracování přirozeného jazyka, např. systémy strojového překladu, systémy extrakce informací. Pro češtinu dosud taková procedura neexistuje.

Úkolem řešitele bude navrhnout a implementovat automatickou proceduru pro normalizaci pojmenovaných entit, jejímž vstupem bude český text s označenými pojmenovanými entitami:

-- Seznámit se s korpusem Czech Named Entity Corpus 1.0 [1] (CNEC).
-- Seznámit se s vybranými nástroji platformy Treex [6].
-- V korpusu CNEC provést normalizaci pojmenovaných entit ručně.
-- Navrhnout pravidlovou proceduru pro normalizaci pojmenovaných entit v českých textech.
-- Implementovat pravidlovou proceduru a otestovat ji.
-- Prezentovat pravidlovou proceduru jako webovou službu.
Seznam odborné literatury
[1] Czech Named Entity Corpus 1.0. http://ufal.mff.cuni.cz/cnec

[2] Kravalová Jana, Žabokrtský Zdeněk. Czech named entity corpus and SVM-based recognizer. In: Proceedings of the 2009 Named Entities Workshop: Shared Task on Transliteration. NEWS 2009, pp. 194–201. 2009.

[3] Straková Jana, Straka Milan, Hajič Jan: A New State-of-The-Art Czech Named Entity Recognizer. Accepted for publication in: Lecture Notes in Computer Science, Vol. 8082, Text, Speech and Dialogue: 16th International Conference, TSD 2013. pp. 68-75, 2013

[4] Ševčíková Magda, Žabokrtský Zdeněk, Krůza Oldřich. Zpracování pojmenovaných entit v českých textech. Technical Report TR-2007-36. 2007.

[5] Ševčíková Magda, Žabokrtský Zdeněk, Krůza Oldřich. Named entities in Czech: Annotating data and developing NE tagger. In: Matoušek, V., Mautner, P. (eds.) TSD 2007. pp. 188–195. Springer, Heidelberg. 2007.

[6] Platforma Treex. http://ufal.mff.cuni.cz/treex.

[7] Žabokrtský Zdeněk a kol. SysNERV. Softwarový projekt, MFF UK, 2013.
 
Univerzita Karlova | Informační systém UK