Témata prací (Výběr práce)

Váš prohlížeč nepodporuje JavaScript nebo je jeho podpora vypnutá. Některé funkce nemusejí být dostupné.

Zpracování češtiny s využitím kontextualizované reprezentace

Název práce v češtině:	Zpracování češtiny s využitím kontextualizované reprezentace
Název v anglickém jazyce:	Czech NLP with Contextualized Embeddings
Klíčová slova:	čeština\|zpracování přirozeného jazyka\|kontextualizované slovní reprezentace\|BERT
Klíčová slova anglicky:	Czech\|natural language processing\|contextualized word embeddings\|BERT
Akademický rok vypsání:	2019/2020
Typ práce:	diplomová práce
Jazyk práce:	čeština
Ústav:	Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel:	RNDr. Milan Straka, Ph.D.
Řešitel:	skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení:	01.04.2020
Datum zadání:	09.04.2020
Datum potvrzení stud. oddělením:	06.05.2020
Datum a čas obhajoby:	02.09.2021 09:00
Datum odevzdání elektronické podoby:	22.07.2021
Datum odevzdání tištěné podoby:	22.07.2021
Datum proběhlé obhajoby:	02.09.2021
Oponenti:	prof. RNDr. Jan Hajič, Dr.

Zásady pro vypracování

Recently, several methods for unsupervised pre-training of contextualized word embeddings have been proposed, most importantly the BERT model (Devlin et al., 2018). Such contextualized representations have been extremely useful as additional features in many NLP tasks like morphosyntactic analysis, entity recognition or text classification.

Most of the evaluation have been carried out on English. However, several of the released models have been pre-trained on many languages including Czech, like multilingual BERT or XLM-RoBERTa (Conneau et al, 2019). Therefore, the goal of this thesis is to perform experiments quantifying improvements of employing pre-trained contextualized representation in Czech natural language processing.

Seznam odborné literatury

- Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. https://arxiv.org/abs/1810.04805

- Alexis Conneau, Kartikay Khandelwal, Naman Goyal, Vishrav Chaudhary, Guillaume Wenzek, Francisco Guzmán, Edouard Grave, Myle Ott, Luke Zettlemoyer, Veselin Stoyanov: Unsupervised Cross-lingual Representation Learning at Scale. https://arxiv.org/abs/1911.02116