Rozpoznávání jazyka na krátkém vzorku textu
| Název práce v češtině: | Rozpoznávání jazyka na krátkém vzorku textu |
|---|---|
| Název v anglickém jazyce: | Language recognition performed on a short text sample |
| Akademický rok vypsání: | 2007/2008 |
| Typ práce: | bakalářská práce |
| Jazyk práce: | čeština |
| Ústav: | Ústav formální a aplikované lingvistiky (32-UFAL) |
| Vedoucí / školitel: | RNDr. Eduard Bejček, Ph.D. |
| Řešitel: | skrytý - zadáno a potvrzeno stud. odd. |
| Datum přihlášení: | 16.11.2007 |
| Datum zadání: | 29.01.2008 |
| Datum a čas obhajoby: | 09.09.2008 00:00 |
| Datum odevzdání elektronické podoby: | 09.09.2008 |
| Datum odevzdání tištěné podoby: | 09.09.2008 |
| Datum proběhlé obhajoby: | 09.09.2008 |
| Oponenti: | RNDr. Jan Raab |
| Zásady pro vypracování |
| Student navrhne a implementuje způsob získávání textů z webu pro velké množství jazyků. (Úloha obnáší procházení webu, předběžné rozhodovaní o jazyku, čištění textu, optimalisaci vybírání dalších odkazů.)
S pomocí těchto dat natrénuje systém schopný s vysokou pravděpodobností určit jazyk předloženého textu. Zaměří se na techniky schopné dostatečně dobře rozhodovat na základě velmi krátkých úseků. Poté otestuje, zda je možno tímto systémem rozpoznat jazyk "foreign phrases" v PDT 2.0. V případě úspěchu tyto dosud nerozlišené fráze označkuje. |
| Seznam odborné literatury |
| - Jurafsky, Daniel and Martin, James H. -- Speech And Language Processing, 2008
http://www.cs.colorado.edu/~martin/slp2.html - Anotace Pražského závislostního korpusu na tektogramatické rovině, 2005 http://ufal.mff.cuni.cz/pdt2.0/doc/manuals/cz/t-layer/html/index.html http://ufal.mff.cuni.cz/pdt2.0/doc/manuals/cz/t-layer/pdf/t-man-cz.pdf - Beesley -- Language Identifier, 1988 - Cavnar, W. B. and Trenkle, J. M. -- N-gram Based Text Categorization, 1994 - Toman, Josef -- Bakalářská práce http://quest.ms.mff.cuni.cz/~toman/recognition/ |
| Předběžná náplň práce |
| Části textu v cizím jazyce jsou v PDT 2.0 dosud značeny pouze jako FPHR, tedy "foreign phrases", bez dalšího rozlišení. Cílem této práce je označit jazyk, ze kterého FPHR pochází. To vyžaduje rozpoznat jazyk podle několika málo znaků. |
| Předběžná náplň práce v anglickém jazyce |
| Foreign parts of text in PDT 2.0 are marked only as FPHR--"foreign phrases". There is no further specification. The aim of this work is to assign source language to each FPHR. The language recognition on few letters must precede. |
- zadáno a potvrzeno stud. odd.