PředmětyPředměty(verze: 962)
Předmět, akademický rok 2024/2025
   Přihlásit přes CAS
Paralelní korpusy - AMLV00011
Anglický název: Parallel Corpora
Zajišťuje: Ústav českého národního korpusu (21-UCNK)
Fakulta: Filozofická fakulta
Platnost: od 2008
Semestr: zimní
Body: 2
E-Kredity: 2
Způsob provedení zkoušky: zimní s.:
Rozsah, examinace: zimní s.:0/2, Z [HT]
Rozsah za akademický rok: 2 [hodiny]
Počet míst: neurčen / neurčen (15)
Minimální obsazenost: neomezen
4EU+: ne
Virtuální mobilita / počet míst pro virtuální mobilitu: ne
Kompetence:  
Stav předmětu: nevyučován
Jazyk výuky: čeština
Způsob výuky: prezenční
Způsob výuky: prezenční
Úroveň:  
Garant: Ing. Alexandr Rosen, Ph.D.
Rozvrh   Nástěnka   
Anotace
Úvodní, prakticky orientovaný kurs pro zájemce o problematiku zpracování a využívání paralelních textů na počítači, včetně jejich uplatnění při (polo)automatickém překladu. Během semestru bude mít každý účastník možnost vytvořit svůj vlastní paralelní korpus v přiměřeném rozsahu.

Předpoklady:

nevyžadují se, ale výhodou je základní orientace v metodách korpusové lingvistiky a počítačového zpracování textu, doporučení: Korpusová lingvistika - úvod
Osnova:

Osnova:

Úvod: korpusy a korpusová lingvistika, paralelní korpusy a jejich využití
Technické aspekty: formát dat, programové nástroje, hardware
Ukázky: existující projekty a zdroje dat
Výběr a získávání textů: vyváženost korpusu, technické a právní problémy
Příprava textů: opravy a úpravy, konverze
Zarovnávání (alignment): automatické nástroje, kontrola a opravy
Hledání v paralelním korpusu: nástroje a práce s nimi
Další způsoby využití paralelních korpusů: komputační lexikografie, hledání v cizojazyčných textech, strojový nebo počítačem podporovaný překlad, ...
Konzultace k individuálním projektům, jejich prezentace
Poslední úprava: Novotná Renata, PhDr., CSc. (13.09.2006)
 
Univerzita Karlova | Informační systém UK