Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 393)
Detail práce
   
Rozpoznávání jazyka na krátkém vzorku textu
Název práce v češtině: Rozpoznávání jazyka na krátkém vzorku textu
Název v anglickém jazyce: Language recognition performed on a short text sample
Akademický rok vypsání: 2007/2008
Typ práce: bakalářská práce
Jazyk práce: čeština
Ústav: Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel: RNDr. Eduard Bejček, Ph.D.
Řešitel: skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení: 16.11.2007
Datum zadání: 29.01.2008
Datum a čas obhajoby: 09.09.2008 00:00
Datum odevzdání elektronické podoby:09.09.2008
Datum odevzdání tištěné podoby:09.09.2008
Datum proběhlé obhajoby: 09.09.2008
Oponenti: RNDr. Jan Raab
 
 
 
Zásady pro vypracování
Student navrhne a implementuje způsob získávání textů z webu pro velké množství jazyků. (Úloha obnáší procházení webu, předběžné rozhodovaní o jazyku, čištění textu, optimalisaci vybírání dalších odkazů.)

S pomocí těchto dat natrénuje systém schopný s vysokou pravděpodobností určit jazyk předloženého textu. Zaměří se na techniky schopné dostatečně dobře rozhodovat na základě velmi krátkých úseků.

Poté otestuje, zda je možno tímto systémem rozpoznat jazyk "foreign phrases" v PDT 2.0. V případě úspěchu tyto dosud nerozlišené fráze označkuje.
Seznam odborné literatury
- Jurafsky, Daniel and Martin, James H. -- Speech And Language Processing, 2008
http://www.cs.colorado.edu/~martin/slp2.html
- Anotace Pražského závislostního korpusu na tektogramatické rovině, 2005
http://ufal.mff.cuni.cz/pdt2.0/doc/manuals/cz/t-layer/html/index.html
http://ufal.mff.cuni.cz/pdt2.0/doc/manuals/cz/t-layer/pdf/t-man-cz.pdf
- Beesley -- Language Identifier, 1988
- Cavnar, W. B. and Trenkle, J. M. -- N-gram Based Text Categorization, 1994
- Toman, Josef -- Bakalářská práce
http://quest.ms.mff.cuni.cz/~toman/recognition/
Předběžná náplň práce
Části textu v cizím jazyce jsou v PDT 2.0 dosud značeny pouze jako FPHR, tedy "foreign phrases", bez dalšího rozlišení. Cílem této práce je označit jazyk, ze kterého FPHR pochází. To vyžaduje rozpoznat jazyk podle několika málo znaků.
Předběžná náplň práce v anglickém jazyce
Foreign parts of text in PDT 2.0 are marked only as FPHR--"foreign phrases". There is no further specification. The aim of this work is to assign source language to each FPHR. The language recognition on few letters must precede.
 
Univerzita Karlova | Informační systém UK