Automatická detekcia fake-news v slovenských textoch
Thesis title in thesis language (Slovak): | Automatická detekcia fake-news v slovenských textoch |
---|---|
Thesis title in Czech: | Automatická detekce fake-news na slovenských textech |
Thesis title in English: | Automatic detection of fake-news on Slovak texts |
Key words: | fake-news|hoax |
English key words: | fake-news|hoax |
Academic year of topic announcement: | 2021/2022 |
Thesis type: | diploma thesis |
Thesis language: | slovenština |
Department: | Institute of Formal and Applied Linguistics (32-UFAL) |
Supervisor: | RNDr. David Mareček, Ph.D. |
Author: | hidden - assigned and confirmed by the Study Dept. |
Date of registration: | 14.01.2022 |
Date of assignment: | 18.01.2022 |
Confirmed by Study dept. on: | 10.07.2023 |
Date and time of defence: | 05.09.2023 09:00 |
Date of electronic submission: | 20.07.2023 |
Date of submission of printed version: | 24.07.2023 |
Date of proceeded defence: | 05.09.2023 |
Opponents: | Mgr. Michal Novák, Ph.D. |
Guidelines |
Přítomnost úmyslně nepravdivých nebo zkreslených informací (fake news) na internetu poslední dobou raketově přibývá a je snahou naučit se je automaticky detekovat.
Existuje několik vědeckých prací, které se tímto úkolem zabývaly [1] [2] [3], většina jich je ale pouze na angličtině. Cílem práce je vytvoření nástroje, který bude umět detekovat fake-news na slovenských textech, ať už na novinových článcích nebo příspěvcích na sociálních sítích. První důležitou součástí bude nalezení nebo vytvoření dostatečných evaluačních dat, případně i trénovacích dat [4]. Samotná metoda pro detekci fake-news bude založena na transferu metod a modelů z nástrojů pro angličtinu. Zde se nabízí několik možností: 1) automatický překlad slovenských příspěvků do angličtiny, 2) natrénování modelů na (předpokládáme relativně malých) slovenských datech from-scratch, 3) fine-tuning anglických modelů na slovenštině, 4) jazykově nezávislé rysy (například způsob a rychlost šíření zprávy) půjdou možná použít beze změny, 5) velké předtrénované jazykové modely jak např. BERT, které nemají slovenský ekvivalent bude třeba nahradit jejich vícejazyčnými ekvivalenty (např. m-BERT). V práci budou tyto metody transferu porovnány z hlediska výpočetní náročnosti a úspěšnosti na evaluačních datech. |
References |
[1] Justus Mattern, Yu Qiao, Elma Kerz, Daniel Wiechmann, Markus Strohmaier: FANG-COVID: A New Large-Scale Benchmark Dataset for Fake News Detection in German. In: Proceedings of the Fourth Workshop on Fact Extraction and VERification (FEVER) at EMNLP, 2021
[2] Yi R. Fung, Chris Thomas, Revanth Reddy, Sandeep Polisetty, Heng Ji, Shih-Fu Chang, Kathleen McKeown, Mohit Bansal, Avirup Sil: InfoSurgeon: Cross-Media Fine-grained Information Consistency Checking for Fake News Detection. In: Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing, 2021 [3] Veronica Perez-Rosas, Bennett Kleinberg, Alexandra Lefevre, Rada Mihalcea: Automatic Detection of Fake News. In: Proceedings of the 27th International Conference on Computational Linguistics, 2018 [4] Muhammad Abdul-Mageed, AbdelRahim Elmadany, El Moatez Billah Nagoudi, Dinesh Pabbi, Kunal Verma, Rannie Lin: Mega-COV: A Billion-Scale Dataset of 100+ Languages for COVID-19. In: Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics, 2021 |