Automatické úpravy kontextu v textových polích
Název práce v češtině: | Automatické úpravy kontextu v textových polích |
---|---|
Název v anglickém jazyce: | Automatic Modifications of Context in Text Fields |
Klíčová slova: | větný rozbor, český slovník, morphodita tagger, autocomplete |
Klíčová slova anglicky: | sentence analyse, czech dictionary, morphodita tagger, autocomplete |
Akademický rok vypsání: | 2014/2015 |
Typ práce: | bakalářská práce |
Jazyk práce: | čeština |
Ústav: | Ústav formální a aplikované lingvistiky (32-UFAL) |
Vedoucí / školitel: | doc. RNDr. Ondřej Bojar, Ph.D. |
Řešitel: | skrytý![]() |
Datum přihlášení: | 27.11.2014 |
Datum zadání: | 21.09.2015 |
Datum potvrzení stud. oddělením: | 21.09.2016 |
Datum a čas obhajoby: | 31.01.2017 00:00 |
Datum odevzdání elektronické podoby: | 25.12.2016 |
Datum odevzdání tištěné podoby: | 04.01.2017 |
Datum proběhlé obhajoby: | 31.01.2017 |
Oponenti: | Mgr. Vojtěch Horký, Ph.D. |
Zásady pro vypracování |
Při editaci českého textu se často stává, že z důvodu nějaké reformulace potřebujeme změnit ne jedno slovo, ale hned několik okolních slov. Dochází k tomu např. při změně vazby mezi slovesem a jmennou skupinou, při změně rozvitého slovesa na podstatné jméno a neopak nebo při změně slovesného způsobu. Například větu "Výše popsanou stručnou dokumentaci rozšiřuje kniha 2." měníme na "Ve druhé knize najdete vše z výše popsané stručné dokumentace podrobněji rozpracováno." Prosté přesouvání částí věty na nové místo nestačí, po reformulaci je nutné opravit koncovky u každého slova zahrnutého v přesouvané jmenné skupině. Jako jiný příklad lze uvést drobnou změnu "Zítra se stavím." na "Zítra bych se stavil." Při doplnění "bych" by systém sám mohl změnit tvar slovesa stavit.
Cílem bakalářské práce je navrhnout a implementovat experimentální uživatelské rozhraní pro textová pole (ať již jde o celou stránku v textovém editoru nebo o jednoduché políčko ve formuláři), které samo mění tvary okolních slov podle prováděných úprav. Důraz není kladen na implementaci textového editoru, návrh je možné implementovat jako nadstavbu nad libovolným textovým editorem, webovou technologií nebo jako zcela samostatnou aplikaci s primitivním textovým polem. Implementace by ovšem měla být realizována tak, že s textovým polem pouze spolupracuje pomocí předem dohodnutého rozhraní, aby bylo možné relativně snadno včlenit toto rozšíření do jiného editoru. Technické řešení může být buď pravidlové, kdy program bude zahrnovat pevnou, ale snadno rozšiřitelnou sadu typických úprav a jen bude detekovat, jestli uživatel nějakou z nich neprovádí, nebo statistické, kdy s použitím tzv. jazykového modelu (a případně opět i pravidel) bude repertoár automatických změn širší, ale jejich spolehlivost může poklesnout. Implementaci je možné rozšířit o automatické doplňování koncovek i aktuálního slova, což se hodí např. při psaní delších jmenných skupin nebo po jednoznačné předložce. Pokud editor detekuje možnost automatické korekce okolních slov, plánované změny nabídne tak, aby uživatel mohl dle svého uvážení návrh přijmout nebo (bez nutnosti explicitně návrh odmítat) nerušeně pokračovat v psaní. |
Seznam odborné literatury |
Jan Hajič: Disambiguation of Rich Inflection (Computational Morphology of Czech), UFAL MFF UK, 330, Prague. 2004.
Czech Free Morphology. Nástroj a slovník pro skloňování českých slov. http://ufal.mff.cuni.cz/pdt/Morphology_and_Tagging/Morphology/index.html Chris Manning and Hinrich Schütze, Foundations of Statistical Natural Language Processing, MIT Press. Cambridge, MA: May 1999. |