Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 348)
Detail práce
   Přihlásit přes CAS
Segmentace textu
Název práce v češtině: Segmentace textu
Název v anglickém jazyce: Text segmentation
Akademický rok vypsání: 2005/2006
Typ práce: bakalářská práce
Jazyk práce: čeština
Ústav: Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel: doc. RNDr. Pavel Pecina, Ph.D.
Řešitel: skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení: 14.11.2005
Datum zadání: 14.11.2005
Datum a čas obhajoby: 26.06.2006 00:00
Datum odevzdání elektronické podoby:26.06.2006
Datum odevzdání tištěné podoby:26.06.2006
Datum proběhlé obhajoby: 26.06.2006
Oponenti: RNDr. Petr Podveský, Ph.D.
 
 
 
Zásady pro vypracování
Textová data určená pro pokročilejší lingvistické zpracování je nejprve nutné zpracovat na základní úrovni: oddělit od sebe slova, rozpoznat konce a začátky vět, dokumentů atp. V pokročilejších fázích je vhodné identifikovat i složitější entity (čísla, datumy, jména). Cílem práce je implementovat program, který bude tuto problematiku řešit pro texty v češtině. Část pro rozpoznávání konců vět by měl být řešena pomocí některé z metod strojového učení (např. rozhodovacích stromů) a důkladně otestována. Součást práce by měla být také příprava potřebných dat (např. slovníky zkratek a ručně rozpoznané příklady konců vět).
Seznam odborné literatury
Foundations of Statistical Natural Language Processing
Christopher D. Manning, Hinrich Schutze
The MIT Press, 1999

Machine Learning
Thomas Mitchell
McGraw-Hill Education 1997
Předběžná náplň práce
Textová data určená pro pokročilejší lingvistické zpracování je njeprve nutné zpracovat na základní úrovni: oddělit od sebe slova, rozpoznat konce a začátky vět, dokumentů atp. V pokročilejších fázích je vhodné identifikovat i složitější entity (čísla, datumy, jména). Cílem práce je implementovat program, který bude tuto problematiku řešit pro texty v češtině. Část pro rozpoznávání konců vět by měla být řešena pomocí některé z metod strojového učení (např.rozhodovacích stromů) a důkladně otestována. Součást práce by měla být také příprava potřebných dat (např. slovníky zkratek a ručně rozpoznané příklady konců vět).
 
Univerzita Karlova | Informační systém UK