Thesis (Selection of subject)Thesis (Selection of subject)(version: 390)
Thesis details
   Login via CAS
Systém českých číslovek a jejich automatické rozpoznání v textu
Thesis title in Czech: Systém českých číslovek
a jejich automatické rozpoznání v textu
Thesis title in English: System of Czech numerals and their automatic recognition in texts
Academic year of topic announcement: 2009/2010
Thesis type: diploma thesis
Thesis language: čeština
Department: Institute of Formal and Applied Linguistics (32-UFAL)
Supervisor: RNDr. Jaroslava Hlaváčová, Ph.D.
Author: hidden - assigned and confirmed by the Study Dept.
Date of registration: 20.11.2007
Date of assignment: 20.11.2007
Date and time of defence: 06.09.2010 00:00
Date of electronic submission:06.09.2010
Date of proceeded defence: 06.09.2010
Opponents: RNDr. Jiří Mírovský, Ph.D.
 
 
 
Guidelines
Diplomová práce má dva cíle:

1. Systematické roztřídění českých číslovek a dalších (i víceslovných)
kvantitativních výrazů s ohledem na možné využití pro automatické zpracování
češtiny. Základem budou stávající mluvnice češtiny a vlastní vyhledávání v
českých jazykových korpusech.

2. Vytvoření programu na vyhledávání číslovek v českém textu a jejich určení
podle systému navrženého v části 1. Součástí programu by mělo být i určení
morfologických vlastností číslovek, především jejich základního tvaru, rodu,
čísla a pádu. U číslovek vyjadřujících konkrétní číslo, pokud nejsou zapsané
číslicemi, by měl program umět takový zápis vygenerovat, přičemž je třeba
počítat s tím, že pravidla pro správné zapsání číslovek nejsou často
dodržována, takže nelze spoléhat na kodifikovaný pravopis.

Konzultant: Mgr. Magda Razímová
References
Hajič, Jan: Disambiguation of Rich Inflection. (Computational Morphology of Czech). Karolinum, Prague 2001.

Mluvnice češtiny. Academia 1986

Havránek - Jedlička: Česká mluvnice. SPN 1981

Šmilauer: Novočeská skladba. 1947.

Čechová, M. a kol. (1996). Čeština - řeč a jazyk.Praha, ISV.

Příruční mluvnice češtiny (2000). Druhé vydání. Praha, NLN.

Ševčíková, Magda - Žabokrtský, Zdeněk - Krůza, Oldřich: Zpracování pojmenovaných entit v českých textech. Technická zpráva TR-2007-36. ÚFAL MFF UK.

Šimandl, Josef: Kvantifikátory v korpusech ÚČNK a možnosti jejich značkování. Nepublikováno.
Preliminary scope of work
Diplomová práce bude navazovat na již obhájenou bakalářskou práci s názvem "Rozpoznávání číslovek v českém textu", která řešila rozpoznávání číslovek základních. Rozšíření spočívá především v zahrnutí ostatních druhů číslovek. Nový nástroj by měl zpracovávat morfologicky anotované texty ve formátu csts a PML. Rozpoznané číslovky se budou značit podle navrženého systému značkování pojmenovaných entit. Diplomant může na základě zkušeností s textovými daty systém značkování upravit.
Kromě číslovek by se měl diplomant zabývat také číslovkovými výrazy typu "sedmihlavý", ale i "kolikahlavý", "několikahlavý", apod.
Preliminary scope of work in English
The diploma thesis will continue in the bachelor thesis "Recognition of Numerals in Czech Texts" that was solving recognition of basic numerals. The expansion consists especially in inclusion of other sorts of numerals. The new tool will process morphologically annotated texts in the formats csts and PML. The recognized numerals will be annotated according to the proposed system of named entities for Czech. It is possible to change the system of annotation, if there are reasons found in real data.
Besides numerals, the diplomate should also take into account one-word numeric expressions of the type "sedmihlavý", "kolikahlavý", "několikahlavý".
 
Charles University | Information system of Charles University | http://www.cuni.cz/UKEN-329.html