Nástroj pro sběr paralelních textů z webu
Thesis title in Czech: | Nástroj pro sběr paralelních textů z webu |
---|---|
Thesis title in English: | A Tool for Collecting Parallel Texts from the Web |
Academic year of topic announcement: | 2006/2007 |
Thesis type: | Bachelor's thesis |
Thesis language: | čeština |
Department: | Institute of Formal and Applied Linguistics (32-UFAL) |
Supervisor: | doc. RNDr. Ondřej Bojar, Ph.D. |
Author: | hidden - assigned and confirmed by the Study Dept. |
Date of registration: | 05.10.2007 |
Date of assignment: | 05.10.2007 |
Date and time of defence: | 22.06.2009 00:00 |
Date of electronic submission: | 22.06.2009 |
Date of proceeded defence: | 22.06.2009 |
Opponents: | Mgr. Pavel Ježek, Ph.D. |
Guidelines |
Cílem práce je implementovat komplexní nástroj, který na základě zadané dvojice požadovaných jazyků (např. čeština a angličtina) a seznamu zdrojových URL nebo seznamu dvojic URL vytvoří soubor vyčištěných paralelních textů, tzv. paralelní korpus. Paralelním korpusem se rozumí množina dvojic dokumentů, které jsou jeden v jednom a druhý ve druhém jazyce, a které jsou sobě (velmi pravděpodobně) překladem. Pro jednotlivé dvojice dokumentů systém odhadne kvalitu párování a umožní tak požadovat menší, ale spojehlivější paralelní korpus. Pomocí již dostuných navazujících nástrojů bude text dále rozčleněn na slova a věty a budou k sobě přiřazeny paralelní věty.
V implementaci musí být kladen důraz na modularitu systému pro snadné zapojení jazykově závislých externích nástrojů, např. pro rozdělení textu na slova a věty, a zároveň na časové nároky použitých algoritmů, aby bylo možno systém použít ke sběru velkého množství dat. Použitelnost nástroje bude doložena sběrem česko-anglického paralelního korpusu pro vybranou doménu, např. doménu cestovního ruchu (ubytování, doprava, ap.). Volitelně je možné obohatit systém o automatické dohledávání zdrojových URL na základě malého vzorku požadovaného typu korpusu. Toto rozšíření využije vyhledávacích serverů jako Google k identifikaci kandidátských URL. Nedílnou součástí práce je vytvoření množiny testovacích stránek, u nichž je správně přiřazení známo, a porovnání několika variant automatického přiřazování mezi sebou. |
References |
(níže uvedené práce rád poskytnu, kontaktujte mne mailem: bojar zav. ufal.mff.cuni.cz)
Ondřej Bojar. 2006. Strojový překlad: zamyšlení nad účelností hloubkových jazykových analýz. In MIS 2006, Josefův Důl, Czech Republic, January. MATFYZPRESS. František Jahoda, Vladimír Jarý, Jan Kobera, Jaromír Müller, Václav Müller. Generování paralelních textů z webu. Závěrečná zpráva malého studentského projektu. FJFI ČVUT. 2006. Miroslav Spousta. Web as a corpus. Studentská konference WDS, MFF UK, 2006. (a další odkazovaná literatura) |