Thesis (Selection of subject)

Your browser does not support JavaScript, or its support is disabled. Some features may not be available.

Automatická detekcia fake-news v slovenských textoch

Thesis title in thesis language (Slovak):	Automatická detekcia fake-news v slovenských textoch
Thesis title in Czech:	Automatická detekce fake-news na slovenských textech
Thesis title in English:	Automatic detection of fake-news on Slovak texts
Key words:	fake-news\|hoax
English key words:	fake-news\|hoax
Academic year of topic announcement:	2021/2022
Thesis type:	diploma thesis
Thesis language:	slovenština
Department:	Institute of Formal and Applied Linguistics (32-UFAL)
Supervisor:	RNDr. David Mareček, Ph.D.
Author:	hidden - assigned and confirmed by the Study Dept.
Date of registration:	14.01.2022
Date of assignment:	18.01.2022
Confirmed by Study dept. on:	10.07.2023
Date and time of defence:	05.09.2023 09:00
Date of electronic submission:	20.07.2023
Date of submission of printed version:	24.07.2023
Date of proceeded defence:	05.09.2023
Opponents:	Mgr. Michal Novák, Ph.D.

Guidelines

Přítomnost úmyslně nepravdivých nebo zkreslených informací (fake news) na internetu poslední dobou raketově přibývá a je snahou naučit se je automaticky detekovat.
Existuje několik vědeckých prací, které se tímto úkolem zabývaly [1] [2] [3], většina jich je ale pouze na angličtině.

Cílem práce je vytvoření nástroje, který bude umět detekovat fake-news na slovenských textech, ať už na novinových článcích nebo příspěvcích na sociálních sítích.
První důležitou součástí bude nalezení nebo vytvoření dostatečných evaluačních dat, případně i trénovacích dat [4]. Samotná metoda pro detekci fake-news bude založena na transferu metod a modelů z nástrojů pro angličtinu. Zde se nabízí několik možností: 1) automatický překlad slovenských příspěvků do angličtiny, 2) natrénování modelů na (předpokládáme relativně malých) slovenských datech from-scratch, 3) fine-tuning anglických modelů na slovenštině, 4) jazykově nezávislé rysy (například způsob a rychlost šíření zprávy) půjdou možná použít beze změny, 5) velké předtrénované jazykové modely jak např. BERT, které nemají slovenský ekvivalent bude třeba nahradit jejich vícejazyčnými ekvivalenty (např. m-BERT). V práci budou tyto metody transferu porovnány z hlediska výpočetní náročnosti a úspěšnosti na evaluačních datech.

References

[1] Justus Mattern, Yu Qiao, Elma Kerz, Daniel Wiechmann, Markus Strohmaier: FANG-COVID: A New Large-Scale Benchmark Dataset for Fake News Detection in German. In: Proceedings of the Fourth Workshop on Fact Extraction and VERification (FEVER) at EMNLP, 2021

[2] Yi R. Fung, Chris Thomas, Revanth Reddy, Sandeep Polisetty, Heng Ji, Shih-Fu Chang, Kathleen McKeown, Mohit Bansal, Avirup Sil: InfoSurgeon: Cross-Media Fine-grained Information Consistency Checking for Fake News Detection. In: Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing, 2021

[3] Veronica Perez-Rosas, Bennett Kleinberg, Alexandra Lefevre, Rada Mihalcea: Automatic Detection of Fake News. In: Proceedings of the 27th International Conference on Computational Linguistics, 2018

[4] Muhammad Abdul-Mageed, AbdelRahim Elmadany, El Moatez Billah Nagoudi, Dinesh Pabbi, Kunal Verma, Rannie Lin: Mega-COV: A Billion-Scale Dataset of 100+ Languages for COVID-19. In: Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics, 2021