Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 390)
Detail práce
   Přihlásit přes CAS
Systém českých číslovek a jejich automatické rozpoznání v textu
Název práce v češtině: Systém českých číslovek
a jejich automatické rozpoznání v textu
Název v anglickém jazyce: System of Czech numerals and their automatic recognition in texts
Akademický rok vypsání: 2009/2010
Typ práce: diplomová práce
Jazyk práce: čeština
Ústav: Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel: RNDr. Jaroslava Hlaváčová, Ph.D.
Řešitel: skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení: 20.11.2007
Datum zadání: 20.11.2007
Datum a čas obhajoby: 06.09.2010 00:00
Datum odevzdání elektronické podoby:06.09.2010
Datum proběhlé obhajoby: 06.09.2010
Oponenti: RNDr. Jiří Mírovský, Ph.D.
 
 
 
Zásady pro vypracování
Diplomová práce má dva cíle:

1. Systematické roztřídění českých číslovek a dalších (i víceslovných)
kvantitativních výrazů s ohledem na možné využití pro automatické zpracování
češtiny. Základem budou stávající mluvnice češtiny a vlastní vyhledávání v
českých jazykových korpusech.

2. Vytvoření programu na vyhledávání číslovek v českém textu a jejich určení
podle systému navrženého v části 1. Součástí programu by mělo být i určení
morfologických vlastností číslovek, především jejich základního tvaru, rodu,
čísla a pádu. U číslovek vyjadřujících konkrétní číslo, pokud nejsou zapsané
číslicemi, by měl program umět takový zápis vygenerovat, přičemž je třeba
počítat s tím, že pravidla pro správné zapsání číslovek nejsou často
dodržována, takže nelze spoléhat na kodifikovaný pravopis.

Konzultant: Mgr. Magda Razímová
Seznam odborné literatury
Hajič, Jan: Disambiguation of Rich Inflection. (Computational Morphology of Czech). Karolinum, Prague 2001.

Mluvnice češtiny. Academia 1986

Havránek - Jedlička: Česká mluvnice. SPN 1981

Šmilauer: Novočeská skladba. 1947.

Čechová, M. a kol. (1996). Čeština - řeč a jazyk.Praha, ISV.

Příruční mluvnice češtiny (2000). Druhé vydání. Praha, NLN.

Ševčíková, Magda - Žabokrtský, Zdeněk - Krůza, Oldřich: Zpracování pojmenovaných entit v českých textech. Technická zpráva TR-2007-36. ÚFAL MFF UK.

Šimandl, Josef: Kvantifikátory v korpusech ÚČNK a možnosti jejich značkování. Nepublikováno.
Předběžná náplň práce
Diplomová práce bude navazovat na již obhájenou bakalářskou práci s názvem "Rozpoznávání číslovek v českém textu", která řešila rozpoznávání číslovek základních. Rozšíření spočívá především v zahrnutí ostatních druhů číslovek. Nový nástroj by měl zpracovávat morfologicky anotované texty ve formátu csts a PML. Rozpoznané číslovky se budou značit podle navrženého systému značkování pojmenovaných entit. Diplomant může na základě zkušeností s textovými daty systém značkování upravit.
Kromě číslovek by se měl diplomant zabývat také číslovkovými výrazy typu "sedmihlavý", ale i "kolikahlavý", "několikahlavý", apod.
Předběžná náplň práce v anglickém jazyce
The diploma thesis will continue in the bachelor thesis "Recognition of Numerals in Czech Texts" that was solving recognition of basic numerals. The expansion consists especially in inclusion of other sorts of numerals. The new tool will process morphologically annotated texts in the formats csts and PML. The recognized numerals will be annotated according to the proposed system of named entities for Czech. It is possible to change the system of annotation, if there are reasons found in real data.
Besides numerals, the diplomate should also take into account one-word numeric expressions of the type "sedmihlavý", "kolikahlavý", "několikahlavý".
 
Univerzita Karlova | Informační systém UK