Thesis (Selection of subject)Thesis (Selection of subject)(version: 368)
Thesis details
   Login via CAS
Segmentace textu
Thesis title in Czech: Segmentace textu
Thesis title in English: Text segmentation
Academic year of topic announcement: 2005/2006
Thesis type: Bachelor's thesis
Thesis language: čeština
Department: Institute of Formal and Applied Linguistics (32-UFAL)
Supervisor: doc. RNDr. Pavel Pecina, Ph.D.
Author: hidden - assigned and confirmed by the Study Dept.
Date of registration: 14.11.2005
Date of assignment: 14.11.2005
Date and time of defence: 26.06.2006 00:00
Date of electronic submission:26.06.2006
Date of submission of printed version:26.06.2006
Date of proceeded defence: 26.06.2006
Opponents: RNDr. Petr Podveský, Ph.D.
 
 
 
Guidelines
Textová data určená pro pokročilejší lingvistické zpracování je nejprve nutné zpracovat na základní úrovni: oddělit od sebe slova, rozpoznat konce a začátky vět, dokumentů atp. V pokročilejších fázích je vhodné identifikovat i složitější entity (čísla, datumy, jména). Cílem práce je implementovat program, který bude tuto problematiku řešit pro texty v češtině. Část pro rozpoznávání konců vět by měl být řešena pomocí některé z metod strojového učení (např. rozhodovacích stromů) a důkladně otestována. Součást práce by měla být také příprava potřebných dat (např. slovníky zkratek a ručně rozpoznané příklady konců vět).
References
Foundations of Statistical Natural Language Processing
Christopher D. Manning, Hinrich Schutze
The MIT Press, 1999

Machine Learning
Thomas Mitchell
McGraw-Hill Education 1997
Preliminary scope of work
Textová data určená pro pokročilejší lingvistické zpracování je njeprve nutné zpracovat na základní úrovni: oddělit od sebe slova, rozpoznat konce a začátky vět, dokumentů atp. V pokročilejších fázích je vhodné identifikovat i složitější entity (čísla, datumy, jména). Cílem práce je implementovat program, který bude tuto problematiku řešit pro texty v češtině. Část pro rozpoznávání konců vět by měla být řešena pomocí některé z metod strojového učení (např.rozhodovacích stromů) a důkladně otestována. Součást práce by měla být také příprava potřebných dat (např. slovníky zkratek a ručně rozpoznané příklady konců vět).
 
Charles University | Information system of Charles University | http://www.cuni.cz/UKEN-329.html