Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 384)
Detail práce
   Přihlásit přes CAS
Vektorová reprezentace výzkumných projektů
Název práce v češtině: Vektorová reprezentace výzkumných projektů
Název v anglickém jazyce: Vectorization of research projects
Klíčová slova: výzkumné projekty|vektorová reprezentace|strojové učení|podobnost|shlukování
Klíčová slova anglicky: research projects|vectorization|machine learning|similarity|clustering
Akademický rok vypsání: 2020/2021
Typ práce: bakalářská práce
Jazyk práce: čeština
Ústav: Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel: doc. Mgr. Barbora Vidová Hladká, Ph.D.
Řešitel: skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení: 22.04.2021
Datum zadání: 28.04.2021
Datum potvrzení stud. oddělením: 04.05.2021
Datum a čas obhajoby: 02.07.2021 09:00
Datum odevzdání elektronické podoby:27.05.2021
Datum odevzdání tištěné podoby:27.05.2021
Datum proběhlé obhajoby: 02.07.2021
Oponenti: Mgr. Martin Víta
 
 
 
Zásady pro vypracování
Informační systém výzkumu, vývoje a inovací (IS VaVaI) shromažďuje informace o výzkumu, vývoji a inovacích podporovaných z veřejných rozpočtů v České republice. Webové rozhraní systému (https://www.isvavai.cz/) zahrnuje mj. i základní statistickou analýzu informací o dostupných projektech a výsledcích. Téma bakalářské práce se týká analýzy dostupných informací založené na metodách strojového učení.

Cílem práce je navrhnout vhodné metody reprezentace (vektorizace) projektů dostupných v systému IS VaVaI. Metody vektorizace budou zahrnovat jednak tradiční postupy (skóre TF-IDF), jednak postupy založené na neuronových sítích (např. Word2vec, Doc2vec, FastText, GloVe, VAE, BERT). Jejich vhodnost bude experimentálně testována na úlohách shlukování projektů, měření podobnosti mezi projekty a analýzy projektových výsledků. Součástí vyhodnocení experimentů bude i srozumitelná prezentace jejich výsledků.
Seznam odborné literatury
- Adolfsson, Andreas, Margareta Ackerman, Naomi C. Brownstein: To cluster, or not to cluster: An analysis of clusterability methods, Pattern Recognition, Volume 88, pp. 13-26, 2019 (https://doi.org/10.1016/j.patcog.2018.10.026).
- Bojanowski, Piotr, Grave, Edouard, Joulin, Armand, Mikolov, Tomas. Enriching Word Vectors with Subword Information. Transactions of the Association for Computational Linguistics. pp. 135-146, 2017 (https://www.aclweb.org/anthology/Q17-1010/).
- Devlin, Jacob, Ming-Wei Chang, Kenton Lee, Kristina Toutanova. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (https://arxiv.org/abs/1810.04805).
- Mikolov, Tomas, Ilya Sutskever, Kai Chen, Greg Corrado, Jeffrey Dean: Distributed Representations of Words and Phrases and their Compositionality (https://arxiv.org/abs/1310.4546).
- Vaswani, Ashish, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin. Attention Is All You Need (https://arxiv.org/abs/1706.03762).
 
Univerzita Karlova | Informační systém UK