Thesis (Selection of subject)Thesis (Selection of subject)(version: 390)
Thesis details
   Login via CAS
Implicit information extraction from news stories
Thesis title in Czech: Získávání implicitních infomací ze zpravodajských textů
Thesis title in English: Implicit information extraction from news stories
Key words: Zpravodajství|Extrakce informací|Český zpravodajský klasifikační dataset|NLP|BERT
English key words: News|Information Extraction|Czech News Classification Dataset|NLP|BERT
Academic year of topic announcement: 2022/2023
Thesis type: Bachelor's thesis
Thesis language: angličtina
Department: Institute of Formal and Applied Linguistics (32-UFAL)
Supervisor: Mgr. Jindřich Libovický, Ph.D.
Author: Bc. Hynek Kydlíček - assigned and confirmed by the Study Dept.
Date of registration: 12.10.2022
Date of assignment: 19.10.2022
Confirmed by Study dept. on: 24.03.2023
Date and time of defence: 29.06.2023 09:00
Date of electronic submission:09.05.2023
Date of submission of printed version:09.05.2023
Date of proceeded defence: 29.06.2023
Opponents: Mgr. Jindřich Helcl, Ph.D.
 
 
 
Guidelines
V první fázi přípravy práce provedeme analýzu toho, jaké informace by se mohly být automaticky zjistitelné z textů na zpravodajských serverech pomocích současných neuronových modelů pro zpracování přirozeného jazky. Minimálně by mělo jít o: (1) zpravodajský server, kde byla zpráva zveřejněna; (2) informace zda se jedná o agenturní nebo původní zprávu; (3) pohlaví nebo věk autora zprávy; (4) publicistický žánr; ale jistě i mnoho dalšího. Kromě potenciálních praktických aplikací při analýze mediální obsahů, by práce měla pomoct odpovědět na otázku, za je možné tyto informace získat pouze z textu za pomocí neuronových modelů. Tyto výsledky pak mohou pomoct určit, do jaké míry předtrénované neuronové jazykové modely obsahují informace, které do velké míry postihují spíše kulturní, než ryze sémantické aspekty jazykového významu.

Řešitel práce nejprve připraví trénovací data s veřejně dostupných zdrojů (částečně řešeno v rámci ročníkového projektu). Dále nastuduje a vybere různé vhodné metody hlubokého učení pro klasifikaci textu, které uplatní na získaná data a porovná jejich výsledky. Na základě emprických výsledků experimentů analyzuje, jaké aspekty jsou či nejsou zachyceny v reprezentacích z předtrénovaných jazykovým modelů.
References
Reimers, Nils, and Iryna Gurevych. "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks." Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP). 2019.

Straka, Milan, et al. "RobeCzech: Czech RoBERTa, a Monolingual Contextualized Language Representation Model." Text, Speech, and Dialogue: 24th International Conference, TSD 2021, Olomouc, Czech Republic, September 6–9, 2021, Proceedings. 2021.

Proceedings of Workshops on Natural Language Processing and Computational Social Science.
 
Charles University | Information system of Charles University | http://www.cuni.cz/UKEN-329.html