Thesis (Selection of subject)Thesis (Selection of subject)(version: 368)
Thesis details
   Login via CAS
Nástroj pro sběr paralelních textů z webu
Thesis title in Czech: Nástroj pro sběr paralelních textů z webu
Thesis title in English: A Tool for Collecting Parallel Texts from the Web
Academic year of topic announcement: 2006/2007
Thesis type: Bachelor's thesis
Thesis language: čeština
Department: Institute of Formal and Applied Linguistics (32-UFAL)
Supervisor: doc. RNDr. Ondřej Bojar, Ph.D.
Author: hidden - assigned and confirmed by the Study Dept.
Date of registration: 05.10.2007
Date of assignment: 05.10.2007
Date and time of defence: 22.06.2009 00:00
Date of electronic submission:22.06.2009
Date of proceeded defence: 22.06.2009
Opponents: Mgr. Pavel Ježek, Ph.D.
 
 
 
Guidelines
Cílem práce je implementovat komplexní nástroj, který na základě zadané dvojice požadovaných jazyků (např. čeština a angličtina) a seznamu zdrojových URL nebo seznamu dvojic URL vytvoří soubor vyčištěných paralelních textů, tzv. paralelní korpus. Paralelním korpusem se rozumí množina dvojic dokumentů, které jsou jeden v jednom a druhý ve druhém jazyce, a které jsou sobě (velmi pravděpodobně) překladem. Pro jednotlivé dvojice dokumentů systém odhadne kvalitu párování a umožní tak požadovat menší, ale spojehlivější paralelní korpus. Pomocí již dostuných navazujících nástrojů bude text dále rozčleněn na slova a věty a budou k sobě přiřazeny paralelní věty.

V implementaci musí být kladen důraz na modularitu systému pro snadné zapojení jazykově závislých externích nástrojů, např. pro rozdělení textu na slova a věty, a zároveň na časové nároky použitých algoritmů, aby bylo možno systém použít ke sběru velkého množství dat. Použitelnost nástroje bude doložena sběrem česko-anglického paralelního korpusu pro vybranou doménu, např. doménu cestovního ruchu (ubytování, doprava, ap.).

Volitelně je možné obohatit systém o automatické dohledávání zdrojových URL na základě malého vzorku požadovaného typu korpusu. Toto rozšíření využije vyhledávacích serverů jako Google k identifikaci kandidátských URL.

Nedílnou součástí práce je vytvoření množiny testovacích stránek, u nichž je správně přiřazení známo, a porovnání několika variant automatického přiřazování mezi sebou.
References
(níže uvedené práce rád poskytnu, kontaktujte mne mailem: bojar zav. ufal.mff.cuni.cz)

Ondřej Bojar. 2006. Strojový překlad: zamyšlení nad účelností hloubkových jazykových analýz. In MIS 2006, Josefův Důl, Czech Republic, January. MATFYZPRESS.
František Jahoda, Vladimír Jarý, Jan Kobera, Jaromír Müller, Václav Müller. Generování paralelních textů z webu. Závěrečná zpráva malého studentského projektu. FJFI ČVUT. 2006.
Miroslav Spousta. Web as a corpus. Studentská konference WDS, MFF UK, 2006.
(a další odkazovaná literatura)


 
Charles University | Information system of Charles University | http://www.cuni.cz/UKEN-329.html