Implicit information extraction from news stories
Název práce v češtině: | Získávání implicitních infomací ze zpravodajských textů |
---|---|
Název v anglickém jazyce: | Implicit information extraction from news stories |
Klíčová slova: | Zpravodajství|Extrakce informací|Český zpravodajský klasifikační dataset|NLP|BERT |
Klíčová slova anglicky: | News|Information Extraction|Czech News Classification Dataset|NLP|BERT |
Akademický rok vypsání: | 2022/2023 |
Typ práce: | bakalářská práce |
Jazyk práce: | angličtina |
Ústav: | Ústav formální a aplikované lingvistiky (32-UFAL) |
Vedoucí / školitel: | Mgr. Jindřich Libovický, Ph.D. |
Řešitel: | Bc. Hynek Kydlíček - zadáno a potvrzeno stud. odd. |
Datum přihlášení: | 12.10.2022 |
Datum zadání: | 19.10.2022 |
Datum potvrzení stud. oddělením: | 24.03.2023 |
Datum a čas obhajoby: | 29.06.2023 09:00 |
Datum odevzdání elektronické podoby: | 09.05.2023 |
Datum odevzdání tištěné podoby: | 09.05.2023 |
Datum proběhlé obhajoby: | 29.06.2023 |
Oponenti: | Mgr. Jindřich Helcl, Ph.D. |
Zásady pro vypracování |
V první fázi přípravy práce provedeme analýzu toho, jaké informace by se mohly být automaticky zjistitelné z textů na zpravodajských serverech pomocích současných neuronových modelů pro zpracování přirozeného jazky. Minimálně by mělo jít o: (1) zpravodajský server, kde byla zpráva zveřejněna; (2) informace zda se jedná o agenturní nebo původní zprávu; (3) pohlaví nebo věk autora zprávy; (4) publicistický žánr; ale jistě i mnoho dalšího. Kromě potenciálních praktických aplikací při analýze mediální obsahů, by práce měla pomoct odpovědět na otázku, za je možné tyto informace získat pouze z textu za pomocí neuronových modelů. Tyto výsledky pak mohou pomoct určit, do jaké míry předtrénované neuronové jazykové modely obsahují informace, které do velké míry postihují spíše kulturní, než ryze sémantické aspekty jazykového významu.
Řešitel práce nejprve připraví trénovací data s veřejně dostupných zdrojů (částečně řešeno v rámci ročníkového projektu). Dále nastuduje a vybere různé vhodné metody hlubokého učení pro klasifikaci textu, které uplatní na získaná data a porovná jejich výsledky. Na základě emprických výsledků experimentů analyzuje, jaké aspekty jsou či nejsou zachyceny v reprezentacích z předtrénovaných jazykovým modelů. |
Seznam odborné literatury |
Reimers, Nils, and Iryna Gurevych. "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks." Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP). 2019.
Straka, Milan, et al. "RobeCzech: Czech RoBERTa, a Monolingual Contextualized Language Representation Model." Text, Speech, and Dialogue: 24th International Conference, TSD 2021, Olomouc, Czech Republic, September 6–9, 2021, Proceedings. 2021. Proceedings of Workshops on Natural Language Processing and Computational Social Science. |