Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 368)
Detail práce
   Přihlásit přes CAS
Filmové titulky jako zdroj paralelních textů
Název práce v jazyce práce (slovenština): Filmové titulky jako zdroj paralelních textů
Název práce v češtině: Filmové titulky jako zdroj paralelních textů
Název v anglickém jazyce: Movie subtitles as a source of parallel texts
Akademický rok vypsání: 2007/2008
Typ práce: bakalářská práce
Jazyk práce: slovenština
Ústav: Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel: doc. Ing. Zdeněk Žabokrtský, Ph.D.
Řešitel: skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení: 25.08.2008
Datum zadání: 25.09.2008
Datum potvrzení stud. oddělením: 21.06.2011
Datum a čas obhajoby: 11.02.2009 00:00
Datum odevzdání elektronické podoby:11.02.2009
Datum proběhlé obhajoby: 11.02.2009
Oponenti: doc. RNDr. Ondřej Bojar, Ph.D.
 
 
 
Zásady pro vypracování
Student se seznámí s metodami a nástroji pro budování paralelních korpusů
a zaměří se na česko-anglický paralelní korpus Czeng. Hlavním cílem práce
je zvýšit kvalitu té části Czengu, která byla vytvořena z anglických a
českých titulků k filmům a seriálům. Především je nutné vypracovat automatické
metody, které v paralelním korpusu naleznou a odstraní chybně spárované nebo jinak
vadné texty nebo jejich části. Výsledky čištění korpusu budou kvantitativně vyhodnoceny.
Seznam odborné literatury
Bojar, O; Žabokrtský, Z.: CzEng: Czech-English Parallel Corpus, Release version 0.5 PBML 86 (Prague Bulletin of Mathematical Linguistics), 2006.

D. Varga et al.: Parallel Corpora for Medium Density Languages. In N. Nicolov, K. Bontcheva, G. Angelova and R. Mitkov (eds): Recent Advances in Natural Language Processing IV. Selected papers from RANLP-05 John Benjamins.

Specifikace XML, např. http://www.w3.org/XML
Předběžná náplň práce
Student se seznámí s metodami a nástroji pro budování paralelních korpusů
a zaměří se na česko-anglický paralelní korpus Czeng. Hlavním cílem práce
je zvýšit kvalitu té části Czengu, která byla vytvořena z anglických a
českých titulků k filmům a seriálům. Především je nutné vypracovat automatické
metody, které v paralelním korpusu naleznou a odstraní chybně spárované nebo jinak
vadné texty nebo jejich části. Výsledky čištění korpusu budou kvantitativně vyhodnoceny.
Předběžná náplň práce v anglickém jazyce
After learning the basic principles of building parallel corpora, the student will
focus on the Czech-English parallel corpus Czeng. The main goal of the work
is to improve quality of the Czeng part created from Czech/English movie and series
subtitles. Above all, it is necessary to design and implement methods for detecting
wrongly aligned (or otherwise problematic) subtitle files or their parts. Impact of
the cleaning methods on the corpus quality will be evaluated quantitatively.
 
Univerzita Karlova | Informační systém UK