Vektorová reprezentace výzkumných projektů
Název práce v češtině: | Vektorová reprezentace výzkumných projektů |
---|---|
Název v anglickém jazyce: | Vectorization of research projects |
Klíčová slova: | výzkumné projekty|vektorová reprezentace|strojové učení|podobnost|shlukování |
Klíčová slova anglicky: | research projects|vectorization|machine learning|similarity|clustering |
Akademický rok vypsání: | 2020/2021 |
Typ práce: | bakalářská práce |
Jazyk práce: | čeština |
Ústav: | Ústav formální a aplikované lingvistiky (32-UFAL) |
Vedoucí / školitel: | doc. Mgr. Barbora Vidová Hladká, Ph.D. |
Řešitel: | skrytý - zadáno a potvrzeno stud. odd. |
Datum přihlášení: | 22.04.2021 |
Datum zadání: | 28.04.2021 |
Datum potvrzení stud. oddělením: | 04.05.2021 |
Datum a čas obhajoby: | 02.07.2021 09:00 |
Datum odevzdání elektronické podoby: | 27.05.2021 |
Datum odevzdání tištěné podoby: | 27.05.2021 |
Datum proběhlé obhajoby: | 02.07.2021 |
Oponenti: | Mgr. Martin Víta |
Zásady pro vypracování |
Informační systém výzkumu, vývoje a inovací (IS VaVaI) shromažďuje informace o výzkumu, vývoji a inovacích podporovaných z veřejných rozpočtů v České republice. Webové rozhraní systému (https://www.isvavai.cz/) zahrnuje mj. i základní statistickou analýzu informací o dostupných projektech a výsledcích. Téma bakalářské práce se týká analýzy dostupných informací založené na metodách strojového učení.
Cílem práce je navrhnout vhodné metody reprezentace (vektorizace) projektů dostupných v systému IS VaVaI. Metody vektorizace budou zahrnovat jednak tradiční postupy (skóre TF-IDF), jednak postupy založené na neuronových sítích (např. Word2vec, Doc2vec, FastText, GloVe, VAE, BERT). Jejich vhodnost bude experimentálně testována na úlohách shlukování projektů, měření podobnosti mezi projekty a analýzy projektových výsledků. Součástí vyhodnocení experimentů bude i srozumitelná prezentace jejich výsledků. |
Seznam odborné literatury |
- Adolfsson, Andreas, Margareta Ackerman, Naomi C. Brownstein: To cluster, or not to cluster: An analysis of clusterability methods, Pattern Recognition, Volume 88, pp. 13-26, 2019 (https://doi.org/10.1016/j.patcog.2018.10.026).
- Bojanowski, Piotr, Grave, Edouard, Joulin, Armand, Mikolov, Tomas. Enriching Word Vectors with Subword Information. Transactions of the Association for Computational Linguistics. pp. 135-146, 2017 (https://www.aclweb.org/anthology/Q17-1010/). - Devlin, Jacob, Ming-Wei Chang, Kenton Lee, Kristina Toutanova. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (https://arxiv.org/abs/1810.04805). - Mikolov, Tomas, Ilya Sutskever, Kai Chen, Greg Corrado, Jeffrey Dean: Distributed Representations of Words and Phrases and their Compositionality (https://arxiv.org/abs/1310.4546). - Vaswani, Ashish, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin. Attention Is All You Need (https://arxiv.org/abs/1706.03762). |