Thesis (Selection of subject)Thesis (Selection of subject)(version: 368)
Thesis details
   Login via CAS
Filmové titulky jako zdroj paralelních textů
Thesis title in thesis language (Slovak): Filmové titulky jako zdroj paralelních textů
Thesis title in Czech: Filmové titulky jako zdroj paralelních textů
Thesis title in English: Movie subtitles as a source of parallel texts
Academic year of topic announcement: 2007/2008
Thesis type: Bachelor's thesis
Thesis language: slovenština
Department: Institute of Formal and Applied Linguistics (32-UFAL)
Supervisor: doc. Ing. Zdeněk Žabokrtský, Ph.D.
Author: hidden - assigned and confirmed by the Study Dept.
Date of registration: 25.08.2008
Date of assignment: 25.09.2008
Confirmed by Study dept. on: 21.06.2011
Date and time of defence: 11.02.2009 00:00
Date of electronic submission:11.02.2009
Date of proceeded defence: 11.02.2009
Opponents: doc. RNDr. Ondřej Bojar, Ph.D.
 
 
 
Guidelines
Student se seznámí s metodami a nástroji pro budování paralelních korpusů
a zaměří se na česko-anglický paralelní korpus Czeng. Hlavním cílem práce
je zvýšit kvalitu té části Czengu, která byla vytvořena z anglických a
českých titulků k filmům a seriálům. Především je nutné vypracovat automatické
metody, které v paralelním korpusu naleznou a odstraní chybně spárované nebo jinak
vadné texty nebo jejich části. Výsledky čištění korpusu budou kvantitativně vyhodnoceny.
References
Bojar, O; Žabokrtský, Z.: CzEng: Czech-English Parallel Corpus, Release version 0.5 PBML 86 (Prague Bulletin of Mathematical Linguistics), 2006.

D. Varga et al.: Parallel Corpora for Medium Density Languages. In N. Nicolov, K. Bontcheva, G. Angelova and R. Mitkov (eds): Recent Advances in Natural Language Processing IV. Selected papers from RANLP-05 John Benjamins.

Specifikace XML, např. http://www.w3.org/XML
Preliminary scope of work
Student se seznámí s metodami a nástroji pro budování paralelních korpusů
a zaměří se na česko-anglický paralelní korpus Czeng. Hlavním cílem práce
je zvýšit kvalitu té části Czengu, která byla vytvořena z anglických a
českých titulků k filmům a seriálům. Především je nutné vypracovat automatické
metody, které v paralelním korpusu naleznou a odstraní chybně spárované nebo jinak
vadné texty nebo jejich části. Výsledky čištění korpusu budou kvantitativně vyhodnoceny.
Preliminary scope of work in English
After learning the basic principles of building parallel corpora, the student will
focus on the Czech-English parallel corpus Czeng. The main goal of the work
is to improve quality of the Czeng part created from Czech/English movie and series
subtitles. Above all, it is necessary to design and implement methods for detecting
wrongly aligned (or otherwise problematic) subtitle files or their parts. Impact of
the cleaning methods on the corpus quality will be evaluated quantitatively.
 
Charles University | Information system of Charles University | http://www.cuni.cz/UKEN-329.html