Segmentace textu
Thesis title in Czech: | Segmentace textu |
---|---|
Thesis title in English: | Text segmentation |
Academic year of topic announcement: | 2005/2006 |
Thesis type: | Bachelor's thesis |
Thesis language: | čeština |
Department: | Institute of Formal and Applied Linguistics (32-UFAL) |
Supervisor: | doc. RNDr. Pavel Pecina, Ph.D. |
Author: | hidden - assigned and confirmed by the Study Dept. |
Date of registration: | 14.11.2005 |
Date of assignment: | 14.11.2005 |
Date and time of defence: | 26.06.2006 00:00 |
Date of electronic submission: | 26.06.2006 |
Date of submission of printed version: | 26.06.2006 |
Date of proceeded defence: | 26.06.2006 |
Opponents: | RNDr. Petr Podveský, Ph.D. |
Guidelines |
Textová data určená pro pokročilejší lingvistické zpracování je nejprve nutné zpracovat na základní úrovni: oddělit od sebe slova, rozpoznat konce a začátky vět, dokumentů atp. V pokročilejších fázích je vhodné identifikovat i složitější entity (čísla, datumy, jména). Cílem práce je implementovat program, který bude tuto problematiku řešit pro texty v češtině. Část pro rozpoznávání konců vět by měl být řešena pomocí některé z metod strojového učení (např. rozhodovacích stromů) a důkladně otestována. Součást práce by měla být také příprava potřebných dat (např. slovníky zkratek a ručně rozpoznané příklady konců vět).
|
References |
Foundations of Statistical Natural Language Processing
Christopher D. Manning, Hinrich Schutze The MIT Press, 1999 Machine Learning Thomas Mitchell McGraw-Hill Education 1997 |
Preliminary scope of work |
Textová data určená pro pokročilejší lingvistické zpracování je njeprve nutné zpracovat na základní úrovni: oddělit od sebe slova, rozpoznat konce a začátky vět, dokumentů atp. V pokročilejších fázích je vhodné identifikovat i složitější entity (čísla, datumy, jména). Cílem práce je implementovat program, který bude tuto problematiku řešit pro texty v češtině. Část pro rozpoznávání konců vět by měla být řešena pomocí některé z metod strojového učení (např.rozhodovacích stromů) a důkladně otestována. Součást práce by měla být také příprava potřebných dat (např. slovníky zkratek a ručně rozpoznané příklady konců vět). |