Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 384)
Detail práce
   Přihlásit přes CAS
Vzájemné odkazování slov v textu
Název práce v jazyce práce (slovenština): Vzájemné odkazování slov v textu
Název práce v češtině: Vzájemné odkazování slov v textu
Název v anglickém jazyce: Coreference in Text
Klíčová slova: Koreferencie, PDT, pravidlový prístup, automatické hľadanie
Klíčová slova anglicky: Coreference, Rule-based approach, PDT, automatic resolution
Akademický rok vypsání: 2009/2010
Typ práce: bakalářská práce
Jazyk práce: slovenština
Ústav: Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel: doc. Mgr. Barbora Vidová Hladká, Ph.D.
Řešitel: skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení: 19.02.2010
Datum zadání: 24.02.2010
Datum a čas obhajoby: 07.09.2011 09:00
Datum odevzdání elektronické podoby:03.08.2011
Datum odevzdání tištěné podoby:05.08.2011
Datum proběhlé obhajoby: 07.09.2011
Oponenti: Mgr. Michal Novák, Ph.D.
 
 
 
Zásady pro vypracování
Cílem bakalářské práce je implementace jednotného systému pro pravidlový přístup k řešení vzájemného odkazování. Úkolem studenta je tedy navrhnout a implementovat (pravidlový) algoritmus, který v dokumentu detekuje slova, která odkazují k témuž předmětu (osobě, skutečnosti). Algoritmus bude omezen na odkazování podstatných jmen a vybraných zájmen.
Příklad: Otec[[1]] vždycky tvrdil, že opery[[2]] nesnáší. Říkal, že mu[[1]] na opeře[[2]] vadí hlavně ten zpěv. A to se otec[[1]] jmenuje Zpěváček[[1]].
Systém bude vyhodnocen podle vhodně vybraných kritérií. Součástí řešení projektu bude i názorná vizualizace výstupu algoritmu, a to i přímo v dokumentu. Program(y) budou napsány v jazyku Java. Předpokládá se volná šiřitelnost pod GNU licencí a multiplatformní použitelnost (minimálně Linux a Windows).
Postup:
- Zpracování vstupních dat. Předpokládané formáty vstupních souborů budou zachycovat morfologickou a syntaktickou rovinu podle PZK 2.0 a informaci o odkazovaných slovech. Tato vstupní data je potřebné přizpůsobit pro následnou manipulaci.
- Implementace jednotného systému pro pravidlový přístup (tj. vytvoření několika různých pravidel) k řešení vzájemného odkazování.
- Návrh vhodné vizualizace odkazování v textu.
- Testování výstupů jednotlivých pravidel na zadaných datech a následné porovnávání výsledků dle stanovených evaluačních kritérií.
- Vypracování podrobné programátorské a uživatelské dokumentace.
Seznam odborné literatury
Marie Mikulová, Alevtina Bémová, Jan Hajič, Eva Hajičová, Jiří Havelka, Veronika Kolařová, Lucie Kučová, Markéta Lopatková, Petr Pajas, Jarmila Panevová, Petr Sgall, Magda Ševčíková, Jan Štěpánek, Zdeňka Urešová, Kateřina Veselá, Zdeněk Žabokrtský: Anotace na tektogramatické rovině Pražského závislostního korpusu (Referenční příručka). Technická zpráva ÚFAL/CKL TR-2006-31, Praha, 2006.
 
Univerzita Karlova | Informační systém UK