Zpracování češtiny s využitím kontextualizované reprezentace
Název práce v češtině: | Zpracování češtiny s využitím kontextualizované reprezentace |
---|---|
Název v anglickém jazyce: | Czech NLP with Contextualized Embeddings |
Klíčová slova: | čeština|zpracování přirozeného jazyka|kontextualizované slovní reprezentace|BERT |
Klíčová slova anglicky: | Czech|natural language processing|contextualized word embeddings|BERT |
Akademický rok vypsání: | 2019/2020 |
Typ práce: | diplomová práce |
Jazyk práce: | čeština |
Ústav: | Ústav formální a aplikované lingvistiky (32-UFAL) |
Vedoucí / školitel: | RNDr. Milan Straka, Ph.D. |
Řešitel: | skrytý - zadáno a potvrzeno stud. odd. |
Datum přihlášení: | 01.04.2020 |
Datum zadání: | 09.04.2020 |
Datum potvrzení stud. oddělením: | 06.05.2020 |
Datum a čas obhajoby: | 02.09.2021 09:00 |
Datum odevzdání elektronické podoby: | 22.07.2021 |
Datum odevzdání tištěné podoby: | 22.07.2021 |
Datum proběhlé obhajoby: | 02.09.2021 |
Oponenti: | prof. RNDr. Jan Hajič, Dr. |
Zásady pro vypracování |
Recently, several methods for unsupervised pre-training of contextualized word embeddings have been proposed, most importantly the BERT model (Devlin et al., 2018). Such contextualized representations have been extremely useful as additional features in many NLP tasks like morphosyntactic analysis, entity recognition or text classification.
Most of the evaluation have been carried out on English. However, several of the released models have been pre-trained on many languages including Czech, like multilingual BERT or XLM-RoBERTa (Conneau et al, 2019). Therefore, the goal of this thesis is to perform experiments quantifying improvements of employing pre-trained contextualized representation in Czech natural language processing. |
Seznam odborné literatury |
- Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. https://arxiv.org/abs/1810.04805
- Alexis Conneau, Kartikay Khandelwal, Naman Goyal, Vishrav Chaudhary, Guillaume Wenzek, Francisco Guzmán, Edouard Grave, Myle Ott, Luke Zettlemoyer, Veselin Stoyanov: Unsupervised Cross-lingual Representation Learning at Scale. https://arxiv.org/abs/1911.02116 |