Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 390)
Detail práce
   Přihlásit přes CAS
Implicit information extraction from news stories
Název práce v češtině: Získávání implicitních infomací ze zpravodajských textů
Název v anglickém jazyce: Implicit information extraction from news stories
Klíčová slova: Zpravodajství|Extrakce informací|Český zpravodajský klasifikační dataset|NLP|BERT
Klíčová slova anglicky: News|Information Extraction|Czech News Classification Dataset|NLP|BERT
Akademický rok vypsání: 2022/2023
Typ práce: bakalářská práce
Jazyk práce: angličtina
Ústav: Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel: Mgr. Jindřich Libovický, Ph.D.
Řešitel: Bc. Hynek Kydlíček - zadáno a potvrzeno stud. odd.
Datum přihlášení: 12.10.2022
Datum zadání: 19.10.2022
Datum potvrzení stud. oddělením: 24.03.2023
Datum a čas obhajoby: 29.06.2023 09:00
Datum odevzdání elektronické podoby:09.05.2023
Datum odevzdání tištěné podoby:09.05.2023
Datum proběhlé obhajoby: 29.06.2023
Oponenti: Mgr. Jindřich Helcl, Ph.D.
 
 
 
Zásady pro vypracování
V první fázi přípravy práce provedeme analýzu toho, jaké informace by se mohly být automaticky zjistitelné z textů na zpravodajských serverech pomocích současných neuronových modelů pro zpracování přirozeného jazky. Minimálně by mělo jít o: (1) zpravodajský server, kde byla zpráva zveřejněna; (2) informace zda se jedná o agenturní nebo původní zprávu; (3) pohlaví nebo věk autora zprávy; (4) publicistický žánr; ale jistě i mnoho dalšího. Kromě potenciálních praktických aplikací při analýze mediální obsahů, by práce měla pomoct odpovědět na otázku, za je možné tyto informace získat pouze z textu za pomocí neuronových modelů. Tyto výsledky pak mohou pomoct určit, do jaké míry předtrénované neuronové jazykové modely obsahují informace, které do velké míry postihují spíše kulturní, než ryze sémantické aspekty jazykového významu.

Řešitel práce nejprve připraví trénovací data s veřejně dostupných zdrojů (částečně řešeno v rámci ročníkového projektu). Dále nastuduje a vybere různé vhodné metody hlubokého učení pro klasifikaci textu, které uplatní na získaná data a porovná jejich výsledky. Na základě emprických výsledků experimentů analyzuje, jaké aspekty jsou či nejsou zachyceny v reprezentacích z předtrénovaných jazykovým modelů.
Seznam odborné literatury
Reimers, Nils, and Iryna Gurevych. "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks." Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP). 2019.

Straka, Milan, et al. "RobeCzech: Czech RoBERTa, a Monolingual Contextualized Language Representation Model." Text, Speech, and Dialogue: 24th International Conference, TSD 2021, Olomouc, Czech Republic, September 6–9, 2021, Proceedings. 2021.

Proceedings of Workshops on Natural Language Processing and Computational Social Science.
 
Univerzita Karlova | Informační systém UK