Segmentace textu
Název práce v češtině: | Segmentace textu |
---|---|
Název v anglickém jazyce: | Text segmentation |
Akademický rok vypsání: | 2005/2006 |
Typ práce: | bakalářská práce |
Jazyk práce: | čeština |
Ústav: | Ústav formální a aplikované lingvistiky (32-UFAL) |
Vedoucí / školitel: | doc. RNDr. Pavel Pecina, Ph.D. |
Řešitel: | skrytý![]() |
Datum přihlášení: | 14.11.2005 |
Datum zadání: | 14.11.2005 |
Datum a čas obhajoby: | 26.06.2006 00:00 |
Datum odevzdání elektronické podoby: | 26.06.2006 |
Datum odevzdání tištěné podoby: | 26.06.2006 |
Datum proběhlé obhajoby: | 26.06.2006 |
Oponenti: | RNDr. Petr Podveský, Ph.D. |
Zásady pro vypracování |
Textová data určená pro pokročilejší lingvistické zpracování je nejprve nutné zpracovat na základní úrovni: oddělit od sebe slova, rozpoznat konce a začátky vět, dokumentů atp. V pokročilejších fázích je vhodné identifikovat i složitější entity (čísla, datumy, jména). Cílem práce je implementovat program, který bude tuto problematiku řešit pro texty v češtině. Část pro rozpoznávání konců vět by měl být řešena pomocí některé z metod strojového učení (např. rozhodovacích stromů) a důkladně otestována. Součást práce by měla být také příprava potřebných dat (např. slovníky zkratek a ručně rozpoznané příklady konců vět).
|
Seznam odborné literatury |
Foundations of Statistical Natural Language Processing
Christopher D. Manning, Hinrich Schutze The MIT Press, 1999 Machine Learning Thomas Mitchell McGraw-Hill Education 1997 |
Předběžná náplň práce |
Textová data určená pro pokročilejší lingvistické zpracování je njeprve nutné zpracovat na základní úrovni: oddělit od sebe slova, rozpoznat konce a začátky vět, dokumentů atp. V pokročilejších fázích je vhodné identifikovat i složitější entity (čísla, datumy, jména). Cílem práce je implementovat program, který bude tuto problematiku řešit pro texty v češtině. Část pro rozpoznávání konců vět by měla být řešena pomocí některé z metod strojového učení (např.rozhodovacích stromů) a důkladně otestována. Součást práce by měla být také příprava potřebných dat (např. slovníky zkratek a ručně rozpoznané příklady konců vět). |