Thesis (Selection of subject)Thesis (Selection of subject)(version: 368)
Thesis details
   Login via CAS
Cross-lingual transfer for the annotation of the SynSemClass ontology
Thesis title in Czech: Mezijazykový transfer pro anotaci SynSemClass ontologie
Thesis title in English: Cross-lingual transfer for the annotation of the SynSemClass ontology
Key words: annotation projection|zero-shot cross-lingual transfer|ontologie|vícejazyčné zpracování přirozeného jazyka|lexikální sémantika
English key words: annotation projection|zero-shot cross-lingual transfer|ontology|multilingual natural language processing|lexical semantics
Academic year of topic announcement: 2022/2023
Thesis type: Bachelor's thesis
Thesis language: angličtina
Department: Institute of Formal and Applied Linguistics (32-UFAL)
Supervisor: prof. RNDr. Jan Hajič, Dr.
Author: hidden - assigned and confirmed by the Study Dept.
Date of registration: 07.02.2023
Date of assignment: 19.02.2023
Confirmed by Study dept. on: 21.04.2023
Date of electronic submission:08.05.2024
Opponents: Mgr. Jan Štěpánek, Ph.D.
 
 
 
Advisors: RNDr. Jana Straková, Ph.D.
Guidelines
Práce vyhodnotí dva přístupy k interlingválnímu transferu pro tvorbu ontologie SymSemClass, jako předstupeň manuálního zpracování anotace ontologie v novém jazyce. První přístup použije paralelní korpus skládající se ze dvou jazyků: jednoho, který je již v ontologii přítomen (angličtina), a cílového jazyka, který by měl být přidán. Druhý přístup bude tzv. "zero-shot cross-lingual transfer", který nevyžaduje žádný paralelní korpus. Jako důkaz konceptu budou tyto přístupy demonstrovány na korejštině (která je dostatečně odlišná od jazyků, se kterými nyní ontologie pracuje). Pro obě metodiky mohou být použity stávající nástroje (např. UDPipe a aligner) a programovacím jazykem bude Python. Správné vyhodnocení bude specifikováno a provedeno s cílem vyhodnotit kvalitu metod s cílem minimalizovat manuální dopracování jazykově specifické části ontologie. Software (hlavní řetězec nástrojů včetně vyhodnocení a dat) bude publikován na githubu a distribuován jako open source.
References
Milan Straka, Jakub Náplava, Jana Straková, David Samuel (2021): RobeCzech: Czech RoBERTa, a Monolingual Contextualized Language Representation Model. In: 24th International Conference on Text, Speech and Dialogue, pp. 197-209, Springer, Cham, Switzerland, ISBN 978-3-030-83526-2

Zdeňka Urešová, Eva Fučíková, Eva Hajičová, Jan Hajič (2020): SynSemClass Linked Lexicon: Mapping Synonymy between Languages. In: Proceedings of the 2020 Globalex Workshop on Linked Lexicography (LREC 2020), pp. 10-19, European Language Resources Association, Marseille, France, ISBN 979-10-95546-46-7

Cristina Fernández Alcaina, Eva Fučíková, Zdeňka Urešová (2022): Annotation guidelines for Spanish verbal synonyms in the SynSemClass lexicon (technical report).
Preliminary scope of work in English
The thesis will evaluate the performance of two approaches to cross-lingual transfer on the SymSemClass ontology, as a preprocessing step before annotation of the ontology on a new language. The first approach shall use a parallel corpus consisting of two languages: one that is already present in the ontology (English), and the target language which should be added. The second approach shall be a zero-shot cross-lingual transfer which does not require any parallel corpus. As a proof of concept, these approaches will be demonstrated on the Korean language (which is different enough from the languages the ontology now works with). For both methodologies, existing tools may be used (e.g. UDPipe and an aligner) and the programming language of choice shall be Python. Proper evaluation will be specified and performed to evaluate the quality of the methods, with the goal to minimize manual postediting of the prepared language-specific part of the ontology. The software (the main processing toolchain, evaluations, the data, etc.) will be published on github and made open source.
 
Charles University | Information system of Charles University | http://www.cuni.cz/UKEN-329.html