velikost textu

Morphological segmentation of Czech Words

Upozornění: Informace získané z popisných dat či souborů uložených v Repozitáři závěrečných prací nemohou být použity k výdělečným účelům nebo vydávány za studijní, vědeckou nebo jinou tvůrčí činnost jiné osoby než autora.
Název:
Morphological segmentation of Czech Words
Název v češtině:
Morfologická segmentace českých slov
Typ:
Diplomová práce
Autor:
Bc. Jonáš Vidra
Vedoucí:
doc. Ing. Zdeněk Žabokrtský, Ph.D.
Oponent:
RNDr. David Mareček, Ph.D.
Id práce:
201258
Fakulta:
Matematicko-fyzikální fakulta (MFF)
Pracoviště:
Ústav formální a aplikované lingvistiky (32-UFAL)
Program studia:
Informatika (N1801)
Obor studia:
Matematická lingvistika (IML)
Přidělovaný titul:
Mgr.
Datum obhajoby:
11. 9. 2018
Výsledek obhajoby:
Výborně
Jazyk práce:
Angličtina
Klíčová slova:
morfém, morfologie, segmentace, stemming
Klíčová slova v angličtině:
morpheme, morphology, segmentation, stemming
Abstrakt:
V lingvistice se obvykle slova považují za složená z morfémů, což jsou dále neděli- telné jazykové jednotky nesoucí význam. Zadáním této práce je nalézt automatickou metodu dělení českých slov na morfémy, které by bylo možné přidat do DeriNetu, sítě derivačních vztahů mezi českými slovy. Vytvořili jsme dvě různé takové metody. První nalézá hranice morfémů na zá- kladě hledání rozdílů mezi slovem a jeho derivačním předkem, a tranzitivně mezi všemi slovy v derivačním hnízdě. Tato metoda explicitně modeluje hláskové a mor- fologické alternace a nalézá nejvhodnější hranice morfémů pomocí metody maximál- ní věrohodnosti. Ve srovnání s moderním systémem Morfessor FlatCat naše metoda přinejhorším mírně zaostává, ovšem v některých testech naopak dosahuje výsledků výrazně lepších. Druhou metodou je neuronová síť pro současné předpovídání morfologické seg- mentace a derivačních předků, trénovaná na datech získaných první metodou a na de- rivačních vztazích ze sítě DeriNet. S naší hypotézou, že tento způsob trénování dvou úloh naráz pomůže k dosažení lepších výsledků oproti trénování samotné segmenta- ce, jsou však ve shodě pouze některé provedené pokusy. Celkově dosahuje neuronová síť horších výsledků než první metoda, pravděpodobně kvůli trénování na datech ob- sahujících chyby, které se tím přidávají k chybám metody samotné.
Abstract v angličtině:
In linguistics, words are usually considered to be composed of morphemes: units that carry meaning and are not further subdivisible. The task of this thesis is to create an automatic method for segmenting Czech words into morphemes, usable within the network of Czech derivational relations DeriNet. We created two different methods. The first one finds morpheme boundaries by differentiating words against their derivational parents, and transitively against their whole derivational family. It explicitly models morphophonological alternations and finds the best boundaries using maximum likelihood estimation. At worst, the results are slightly worse than the state of the art method Morfessor FlatCat, and they are significantly better in some settings. The second method is a neural network made to jointly predict segmentation and derivational parents, trained using the output of the first method and the derivational pairs from DeriNet. Our hypothesis that such joint training would increase the quality of the segmentation over training purely on the segmentation task seems to hold in some cases, but not in other. The neural model performs worse than the first one, possibly due to being trained on data which already contains some errors, multiplying them.
Dokumenty
Stáhnout Dokument Autor Typ Velikost
Stáhnout Text práce Bc. Jonáš Vidra 1.28 MB
Stáhnout Abstrakt v českém jazyce Bc. Jonáš Vidra 18 kB
Stáhnout Abstrakt anglicky Bc. Jonáš Vidra 18 kB
Stáhnout Posudek vedoucího doc. Ing. Zdeněk Žabokrtský, Ph.D. 95 kB
Stáhnout Posudek oponenta RNDr. David Mareček, Ph.D. 78 kB
Stáhnout Záznam o průběhu obhajoby doc. RNDr. Markéta Lopatková, Ph.D. 152 kB