PředmětyPředměty(verze: 945)
Předmět, akademický rok 2023/2024
   Přihlásit přes CAS
Morfologická a syntaktická analýza II - NPFL105
Anglický název: Morphological and Syntactic Analysis II
Zajišťuje: Ústav formální a aplikované lingvistiky (32-UFAL)
Fakulta: Matematicko-fyzikální fakulta
Platnost: od 2017
Semestr: letní
E-Kredity: 6
Rozsah, examinace: letní s.:0/2, Z [HT]
Počet míst: neomezen
Minimální obsazenost: neomezen
4EU+: ne
Virtuální mobilita / počet míst pro virtuální mobilitu: ne
Stav předmětu: zrušen
Jazyk výuky: čeština, angličtina
Způsob výuky: prezenční
Způsob výuky: prezenční
Další informace: https://ufal.mff.cuni.cz/course/npfl105
Garant: RNDr. Daniel Zeman, Ph.D.
Výsledky anket   Termíny zkoušek   Rozvrh   Nástěnka   
Anotace -
Poslední úprava: T_UFAL (09.05.2012)
Tento předmět volně navazuje na NPFL094 Morfologická a syntaktická analýza. Formálně se předchozí absolvování NPFL094 nevyžaduje. Půjde více méně o týmový projekt, jehož cílem bude sehnat či vytvořit co nejvíce zdrojů pro jeden vybraný přirozený jazyk. Jednotliví účastníci budou mít na starosti různé činnosti od stahování korpusů z webu až po navrhování gramatických pravidel či trénování parserů.
Literatura -
Poslední úprava: T_UFAL (09.05.2012)

• Martin Popel, Zdeněk Žabokrtský: TectoMT: Modular NLP Framework. In Proceedings of IceTAL , 7th International Conference on Natural Language Processing, Reykjavík, Iceland, August 17, 2010, pp. 293-304.

• Antonio M. Corbí-Bellot, Mikel L. Forcada, Sergio Ortiz-Rojas, Juan Antonio Pérez-Ortiz, Gema Sánchez-Ramírez, Felipe Sánchez-Martínez, Iñaki Alegria, Aingeru Mayor, Kepa Sarasola (2005) "An open-source shallow-transfer machine translation engine for the romance languages of Spain ", in Proceedings of the European Associtation for Machine Translation, 10th Annual Conference (Budapest, Hungary, 30-31.05.2005), p. 79-86

• Philip Resnik, Noah A. Smith, The Web as a parallel corpus Computational Linguistics, Volume 29 , Issue 3 (September 2003), Pages: 349 - 380.

• Rayid Ghani, Rosie Jones, Dunja Mladenic: "Building Minority Language Corpora by Learning to Generate Web Search Queries"

KAIS Knowledge and Information Systems, volume 7, number 1, 2005

Sylabus -
Poslední úprava: T_UFAL (09.05.2012)

Modelový scénář 1:

Chceme vybudovat systém statistického strojového překladu do/z nového jazyka.

Potřebujeme především paralelní korpus daného jazyka a angličtiny, případně češtiny nebo něčeho jiného, co je k dispozici.

Dále nás budou zajímat nástroje pro morfologickou a syntaktickou analýzu, rozpoznávání pojmenovaných entit atd. za účelem zlepšení překladu.

Modelový scénář 2:

Máme málo nebo žádná paralelní data, zaměříme se na pravidlové systémy.

Navrhneme sadu morfologických značek, vytvoříme jednoduchý morfologický a syntaktický analyzátor,

podle možnosti i dvojjazyčný slovník, to vše se pokusíme zapojit do existujícho pravidlového

překladového systému (Treex, Apertium) a využít při primitivním překladu.

 
Univerzita Karlova | Informační systém UK