Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 368)
Detail práce
   Přihlásit přes CAS
Segmentace textu: morfémy, slova, víceslovná spojení a věty
Název práce v češtině: Segmentace textu: morfémy, slova, víceslovná spojení a věty
Název v anglickém jazyce: Text segmentation: morphemes, words, multiword expressions, and sentences
Klíčová slova: segmentace textu, toknizace, teorie informace
Klíčová slova anglicky: text segmentation, tokenization, information theory
Akademický rok vypsání: 2014/2015
Typ práce: diplomová práce
Jazyk práce:
Ústav: Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel: doc. RNDr. Pavel Pecina, Ph.D.
Řešitel:
Zásady pro vypracování
Segmentace textu v přirozeném jazyce je komplexní problém spočívající v dělení zpracovávaného textu na souvislé úseky. Segmentaci lze provádět v několika úrovních. Základním krokem při zpracování přirozeného jazyka je identifikace slovních tvarů a interpunkčních znamének, často označovaná jako tzv. tokenizace. V jazycích, které v psané formě využívají k oddělení slov mezery, není tokenizace nijak obtížná. V ostatních jazycích, které mezery mezi slovy nepoužívají, to ale problém je (např. čínština). Při segmentací na nižší úrovni než slovní jde o identifikaci tzv. morfémů, částí slov, které nesou svůj vlastní význam (kořen, předpony, přípony). Tento problém lze efektivně řešit pomocí slovníku, pokud ovšem informaci o morfémech obsahuje, ale nelze u něj předpokládat 100% pokrytí. Segmentací na vyšší úrovni je pak identifikace vět, tedy jejich začátků a konců.


Cílem práce je návrh, implementace a experimentální evaluace efektivního nástroje pro segmentaci textu na všech úrovních. Použité metody budou založeny na řízeném i neřízeném strojovém učení.
Seznam odborné literatury
Chris Manning and Hinrich Schütze, Foundations of Statistical Natural Language Processing, MIT Press. Cambridge, MA.1999.

Manh-Ke Tran. Unsupervised and Semi-Supervised Multilingual Learning for Resource-Poor Languages. Diplomová práce, MFF UK. 2012.
 
Univerzita Karlova | Informační systém UK