Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 368)
Detail práce
   Přihlásit přes CAS
Adaptace statistického jazykového korektoru na vybraný jazyk
Název práce v češtině: Adaptace statistického jazykového korektoru na vybraný jazyk
Název v anglickém jazyce: Adaptation of statistical language corrector for a language of choice
Klíčová slova: oprava překlepů, korektor, spellchecker
Klíčová slova anglicky: spellchecker, language correction, typing correction
Akademický rok vypsání: 2015/2016
Typ práce: diplomová práce
Jazyk práce:
Ústav: Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel: Mgr. Pavel Straňák, Ph.D.
Řešitel:
Zásady pro vypracování
Systém pro automatickou opravu chyb v textech Korektor (https://redmine.ms.mff.cuni.cz/projects/korektor) je založený čistě na statistických modelech. To umožňuje, aby byl snadno natrénován, případně adaptován i pro další jazyky.

- Adept si vybere jazyk, pro který Korektor adaptuje. Rozhodne, zda pro daný jazyk vyhovuje omezení chybového modelu Korektoru (viz Richter, 2010), případně použije jiný popsaný model (tamtéž).
- Získá chybový korpus, případně jej vytvoří, a natrénuje váhy chyb pro chybový model.
- Natrénuje jazykový model (případně více modelů) a váhy jednotlivých modelů
- Vyhodnotí úspěšnost Korektoru ve srovnání se známými systému pro opravu překlepů i pro opravu gramatiky daného jazyka.

Předpokládá se schopnost pracovat s kódem Korektoru v C++ a provádět nezbytné adaptace, bude-li to třeba.
Seznam odborné literatury
Michal Richter: Advanced Czech Spellchecker, Praha, Univerzita Karlova, 2010 (diplomová práce) https://is.cuni.cz/webapps/UKSESSIONBBB4C40F4A0471CFF5DA19497E6DB354/zzp/detail/45334/4488042/?q=a%3A3%3A%7Bs%3A25%3A%22______searchform___search%22%3Bs%3A16%3A%22%22Michal+Richter%22%22%3Bs%3A28%3A%22______searchform___butsearch%22%3Bs%3A8%3A%22Vyhledat%22%3Bs%3A20%3A%22PNzzpSearchListbasic%22%3Bi%3A1%3B%7D&lang=cs&file=120024884
Předběžná náplň práce
http://quest.ms.mff.cuni.cz:8080
Předběžná náplň práce v anglickém jazyce
The statistical system Korektor is currently state-of-art spellchecker and can correct also an ocasional grammatical error, or generate diacritics. You should investigate, how it can be best trained and deployed for a different language and evaluate its performance. If the character of the language of choice warrants changes in the system (i.e. allow different type of string transformations in the error model), you are expected to find out, evaluate options (they are described in literature) and implement the best one.

Simple demo of the Czech System (it also exists as a OS X native Spell Server): http://quest.ms.mff.cuni.cz:8080
 
Univerzita Karlova | Informační systém UK