velikost textu

Detekce podezřelých anotací

Upozornění: Informace získané z popisných dat či souborů uložených v Repozitáři závěrečných prací nemohou být použity k výdělečným účelům nebo vydávány za studijní, vědeckou nebo jinou tvůrčí činnost jiné osoby než autora.
Název:
Detekce podezřelých anotací
Název v angličtině:
A suspected annotation detection
Typ:
Bakalářská práce
Autor:
Bc. Jan Václ
Vedoucí:
Mgr. Barbora Vidová Hladká, Ph.D.
Oponent:
RNDr. Jiří Hana, Ph.D.
Id práce:
101292
Fakulta:
Matematicko-fyzikální fakulta (MFF)
Pracoviště:
Ústav formální a aplikované lingvistiky (32-UFAL)
Program studia:
Informatika (B1801)
Obor studia:
Obecná informatika (IOI)
Přidělovaný titul:
Bc.
Datum obhajoby:
20. 6. 2011
Výsledek obhajoby:
Výborně
Jazyk práce:
Angličtina
Klíčová slova:
anotace, detekce chyb, strojové učení
Klíčová slova v angličtině:
annotation, error detection, machine learning
Abstrakt:
Tato práce popisuje způsob kontroly morfologické anotace pomocí strojového učení a představuje implementaci tohoto přístupu – aplikaci MissTagger. Procedura kontroly zahrnuje jak detekci chyb, tak jejich opravu. Tento přístup je založen na zjednodušeném algoritmu strojového učení, který si jednotlivé trénovací případy (instance) ukládá přímo do paměti bez zobecňování. Za tyto instance jsou považovány morfologické značky jednotlivých slov a jako rysy těchto instancí je brán jejich větný kontext pevné délky. Konkrétní slova, jejichž morfologické značky tvoří tento kontext, se vybírají buď přímo podle lineární struktury věty, nebo na základě závislostního stromu její syntaktické analýzy. Do experimentů k vyhodnocení tohoto přístupu jsou zapojeny dva jazyky – čeština a angličtina.
Abstract v angličtině:
This work describes a machine learning approach for checking the part-of-speech annotation, and presents its implementation – a system called MissTagger. The checking procedure covers both error detection and error correction. MissTagger employs a simplified instance-based learning algorithm where the words in the text are recognized as instances. Part-of-speech tags of context of static length are selected as features, no lexical information is included. The words whose tags comprises this context are chosen based either on a linear or on a dependency-tree structure of the sentence. Two languages are examined in the experiments for evaluation, Czech and English.
Dokumenty
Stáhnout Dokument Autor Typ Velikost
Stáhnout Text práce Bc. Jan Václ 559 kB
Stáhnout Příloha k práci Bc. Jan Václ 4.21 MB
Stáhnout Abstrakt v českém jazyce Bc. Jan Václ 42 kB
Stáhnout Abstrakt anglicky Bc. Jan Václ 42 kB
Stáhnout Posudek vedoucího Mgr. Barbora Vidová Hladká, Ph.D. 202 kB
Stáhnout Posudek oponenta RNDr. Jiří Hana, Ph.D. 150 kB
Stáhnout Záznam o průběhu obhajoby doc. Ing. Petr Tůma, Dr. 55 kB