Systém českých číslovek a jejich automatické rozpoznání v textu
Název práce v češtině: | Systém českých číslovek a jejich automatické rozpoznání v textu |
---|---|
Název v anglickém jazyce: | System of Czech numerals and their automatic recognition in texts |
Akademický rok vypsání: | 2009/2010 |
Typ práce: | diplomová práce |
Jazyk práce: | čeština |
Ústav: | Ústav formální a aplikované lingvistiky (32-UFAL) |
Vedoucí / školitel: | RNDr. Jaroslava Hlaváčová, Ph.D. |
Řešitel: | skrytý![]() |
Datum přihlášení: | 20.11.2007 |
Datum zadání: | 20.11.2007 |
Datum a čas obhajoby: | 06.09.2010 00:00 |
Datum odevzdání elektronické podoby: | 06.09.2010 |
Datum proběhlé obhajoby: | 06.09.2010 |
Oponenti: | RNDr. Jiří Mírovský, Ph.D. |
Zásady pro vypracování |
Diplomová práce má dva cíle:
1. Systematické roztřídění českých číslovek a dalších (i víceslovných) kvantitativních výrazů s ohledem na možné využití pro automatické zpracování češtiny. Základem budou stávající mluvnice češtiny a vlastní vyhledávání v českých jazykových korpusech. 2. Vytvoření programu na vyhledávání číslovek v českém textu a jejich určení podle systému navrženého v části 1. Součástí programu by mělo být i určení morfologických vlastností číslovek, především jejich základního tvaru, rodu, čísla a pádu. U číslovek vyjadřujících konkrétní číslo, pokud nejsou zapsané číslicemi, by měl program umět takový zápis vygenerovat, přičemž je třeba počítat s tím, že pravidla pro správné zapsání číslovek nejsou často dodržována, takže nelze spoléhat na kodifikovaný pravopis. Konzultant: Mgr. Magda Razímová |
Seznam odborné literatury |
Hajič, Jan: Disambiguation of Rich Inflection. (Computational Morphology of Czech). Karolinum, Prague 2001.
Mluvnice češtiny. Academia 1986 Havránek - Jedlička: Česká mluvnice. SPN 1981 Šmilauer: Novočeská skladba. 1947. Čechová, M. a kol. (1996). Čeština - řeč a jazyk.Praha, ISV. Příruční mluvnice češtiny (2000). Druhé vydání. Praha, NLN. Ševčíková, Magda - Žabokrtský, Zdeněk - Krůza, Oldřich: Zpracování pojmenovaných entit v českých textech. Technická zpráva TR-2007-36. ÚFAL MFF UK. Šimandl, Josef: Kvantifikátory v korpusech ÚČNK a možnosti jejich značkování. Nepublikováno. |
Předběžná náplň práce |
Diplomová práce bude navazovat na již obhájenou bakalářskou práci s názvem "Rozpoznávání číslovek v českém textu", která řešila rozpoznávání číslovek základních. Rozšíření spočívá především v zahrnutí ostatních druhů číslovek. Nový nástroj by měl zpracovávat morfologicky anotované texty ve formátu csts a PML. Rozpoznané číslovky se budou značit podle navrženého systému značkování pojmenovaných entit. Diplomant může na základě zkušeností s textovými daty systém značkování upravit.
Kromě číslovek by se měl diplomant zabývat také číslovkovými výrazy typu "sedmihlavý", ale i "kolikahlavý", "několikahlavý", apod. |
Předběžná náplň práce v anglickém jazyce |
The diploma thesis will continue in the bachelor thesis "Recognition of Numerals in Czech Texts" that was solving recognition of basic numerals. The expansion consists especially in inclusion of other sorts of numerals. The new tool will process morphologically annotated texts in the formats csts and PML. The recognized numerals will be annotated according to the proposed system of named entities for Czech. It is possible to change the system of annotation, if there are reasons found in real data.
Besides numerals, the diplomate should also take into account one-word numeric expressions of the type "sedmihlavý", "kolikahlavý", "několikahlavý". |