Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 368)
Detail práce
   Přihlásit přes CAS
Mezijazykový transfer pro anotaci SynSemClass ontologie
Název práce v češtině: Mezijazykový transfer pro anotaci SynSemClass ontologie
Název v anglickém jazyce: Cross-lingual transfer for the annotation of the SynSemClass ontology
Klíčová slova: počítačová lingvistika|jazykové modely|ontologie|vícejazyčné zpracování přirozeného jazyka|lexikální sémantika
Klíčová slova anglicky: computational linguistics|language models|ontologies|multilingual natural language processing|lexical semantics
Akademický rok vypsání: 2022/2023
Typ práce: bakalářská práce
Jazyk práce: čeština
Ústav: Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel: prof. RNDr. Jan Hajič, Dr.
Řešitel: skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení: 07.02.2023
Datum zadání: 19.02.2023
Datum potvrzení stud. oddělením: 21.04.2023
Konzultanti: RNDr. Jana Straková, Ph.D.
Zásady pro vypracování
Práce vyhodnotí dva přístupy k interlingválnímu transferu pro tvorbu ontologie SymSemClass, jako předstupeň manuálního zpracování anotace ontologie v novém jazyce. První přístup použije paralelní korpus skládající se ze dvou jazyků: jednoho, který je již v ontologii přítomen (angličtina), a cílového jazyka, který by měl být přidán. Druhý přístup bude tzv. "zero-shot cross-lingual transfer", který nevyžaduje žádný paralelní korpus. Jako důkaz konceptu budou tyto přístupy demonstrovány na korejštině (která je dostatečně odlišná od jazyků, se kterými nyní ontologie pracuje). Pro obě metodiky mohou být použity stávající nástroje (např. UDPipe a aligner) a programovacím jazykem bude Python. Správné vyhodnocení bude specifikováno a provedeno s cílem vyhodnotit kvalitu metod s cílem minimalizovat manuální dopracování jazykově specifické části ontologie. Software (hlavní řetězec nástrojů včetně vyhodnocení a dat) bude publikován na githubu a distribuován jako open source.
Seznam odborné literatury
Milan Straka, Jakub Náplava, Jana Straková, David Samuel (2021): RobeCzech: Czech RoBERTa, a Monolingual Contextualized Language Representation Model. In: 24th International Conference on Text, Speech and Dialogue, pp. 197-209, Springer, Cham, Switzerland, ISBN 978-3-030-83526-2

Zdeňka Urešová, Eva Fučíková, Eva Hajičová, Jan Hajič (2020): SynSemClass Linked Lexicon: Mapping Synonymy between Languages. In: Proceedings of the 2020 Globalex Workshop on Linked Lexicography (LREC 2020), pp. 10-19, European Language Resources Association, Marseille, France, ISBN 979-10-95546-46-7

Cristina Fernández Alcaina, Eva Fučíková, Zdeňka Urešová (2022): Annotation guidelines for Spanish verbal synonyms in the SynSemClass lexicon (technical report).
Předběžná náplň práce v anglickém jazyce
The thesis will evaluate the performance of two approaches to cross-lingual transfer on the SymSemClass ontology, as a preprocessing step before annotation of the ontology on a new language. The first approach shall use a parallel corpus consisting of two languages: one that is already present in the ontology (English), and the target language which should be added. The second approach shall be a zero-shot cross-lingual transfer which does not require any parallel corpus. As a proof of concept, these approaches will be demonstrated on the Korean language (which is different enough from the languages the ontology now works with). For both methodologies, existing tools may be used (e.g. UDPipe and an aligner) and the programming language of choice shall be Python. Proper evaluation will be specified and performed to evaluate the quality of the methods, with the goal to minimize manual postediting of the prepared language-specific part of the ontology. The software (the main processing toolchain, evaluations, the data, etc.) will be published on github and made open source.
 
Univerzita Karlova | Informační systém UK