Thesis (Selection of subject)Thesis (Selection of subject)(version: 368)
Thesis details
   Login via CAS
Automatická detekcia fake-news v slovenských textoch
Thesis title in thesis language (Slovak): Automatická detekcia fake-news v slovenských textoch
Thesis title in Czech: Automatická detekce fake-news na slovenských textech
Thesis title in English: Automatic detection of fake-news on Slovak texts
Key words: fake-news|hoax
English key words: fake-news|hoax
Academic year of topic announcement: 2021/2022
Thesis type: diploma thesis
Thesis language: slovenština
Department: Institute of Formal and Applied Linguistics (32-UFAL)
Supervisor: RNDr. David Mareček, Ph.D.
Author: hidden - assigned and confirmed by the Study Dept.
Date of registration: 14.01.2022
Date of assignment: 18.01.2022
Confirmed by Study dept. on: 10.07.2023
Date and time of defence: 05.09.2023 09:00
Date of electronic submission:20.07.2023
Date of submission of printed version:24.07.2023
Date of proceeded defence: 05.09.2023
Opponents: Mgr. Michal Novák, Ph.D.
 
 
 
Guidelines
Přítomnost úmyslně nepravdivých nebo zkreslených informací (fake news) na internetu poslední dobou raketově přibývá a je snahou naučit se je automaticky detekovat.
Existuje několik vědeckých prací, které se tímto úkolem zabývaly [1] [2] [3], většina jich je ale pouze na angličtině.

Cílem práce je vytvoření nástroje, který bude umět detekovat fake-news na slovenských textech, ať už na novinových článcích nebo příspěvcích na sociálních sítích.
První důležitou součástí bude nalezení nebo vytvoření dostatečných evaluačních dat, případně i trénovacích dat [4]. Samotná metoda pro detekci fake-news bude založena na transferu metod a modelů z nástrojů pro angličtinu. Zde se nabízí několik možností: 1) automatický překlad slovenských příspěvků do angličtiny, 2) natrénování modelů na (předpokládáme relativně malých) slovenských datech from-scratch, 3) fine-tuning anglických modelů na slovenštině, 4) jazykově nezávislé rysy (například způsob a rychlost šíření zprávy) půjdou možná použít beze změny, 5) velké předtrénované jazykové modely jak např. BERT, které nemají slovenský ekvivalent bude třeba nahradit jejich vícejazyčnými ekvivalenty (např. m-BERT). V práci budou tyto metody transferu porovnány z hlediska výpočetní náročnosti a úspěšnosti na evaluačních datech.
References
[1] Justus Mattern, Yu Qiao, Elma Kerz, Daniel Wiechmann, Markus Strohmaier: FANG-COVID: A New Large-Scale Benchmark Dataset for Fake News Detection in German. In: Proceedings of the Fourth Workshop on Fact Extraction and VERification (FEVER) at EMNLP, 2021

[2] Yi R. Fung, Chris Thomas, Revanth Reddy, Sandeep Polisetty, Heng Ji, Shih-Fu Chang, Kathleen McKeown, Mohit Bansal, Avirup Sil: InfoSurgeon: Cross-Media Fine-grained Information Consistency Checking for Fake News Detection. In: Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing, 2021

[3] Veronica Perez-Rosas, Bennett Kleinberg, Alexandra Lefevre, Rada Mihalcea: Automatic Detection of Fake News. In: Proceedings of the 27th International Conference on Computational Linguistics, 2018

[4] Muhammad Abdul-Mageed, AbdelRahim Elmadany, El Moatez Billah Nagoudi, Dinesh Pabbi, Kunal Verma, Rannie Lin: Mega-COV: A Billion-Scale Dataset of 100+ Languages for COVID-19. In: Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics, 2021
 
Charles University | Information system of Charles University | http://www.cuni.cz/UKEN-329.html