Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 368)
Detail práce
   Přihlásit přes CAS
Automatická detekcia fake-news v slovenských textoch
Název práce v jazyce práce (slovenština): Automatická detekcia fake-news v slovenských textoch
Název práce v češtině: Automatická detekce fake-news na slovenských textech
Název v anglickém jazyce: Automatic detection of fake-news on Slovak texts
Klíčová slova: fake-news|hoax
Klíčová slova anglicky: fake-news|hoax
Akademický rok vypsání: 2021/2022
Typ práce: diplomová práce
Jazyk práce: slovenština
Ústav: Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel: RNDr. David Mareček, Ph.D.
Řešitel: skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení: 14.01.2022
Datum zadání: 18.01.2022
Datum potvrzení stud. oddělením: 10.07.2023
Datum a čas obhajoby: 05.09.2023 09:00
Datum odevzdání elektronické podoby:20.07.2023
Datum odevzdání tištěné podoby:24.07.2023
Datum proběhlé obhajoby: 05.09.2023
Oponenti: Mgr. Michal Novák, Ph.D.
 
 
 
Zásady pro vypracování
Přítomnost úmyslně nepravdivých nebo zkreslených informací (fake news) na internetu poslední dobou raketově přibývá a je snahou naučit se je automaticky detekovat.
Existuje několik vědeckých prací, které se tímto úkolem zabývaly [1] [2] [3], většina jich je ale pouze na angličtině.

Cílem práce je vytvoření nástroje, který bude umět detekovat fake-news na slovenských textech, ať už na novinových článcích nebo příspěvcích na sociálních sítích.
První důležitou součástí bude nalezení nebo vytvoření dostatečných evaluačních dat, případně i trénovacích dat [4]. Samotná metoda pro detekci fake-news bude založena na transferu metod a modelů z nástrojů pro angličtinu. Zde se nabízí několik možností: 1) automatický překlad slovenských příspěvků do angličtiny, 2) natrénování modelů na (předpokládáme relativně malých) slovenských datech from-scratch, 3) fine-tuning anglických modelů na slovenštině, 4) jazykově nezávislé rysy (například způsob a rychlost šíření zprávy) půjdou možná použít beze změny, 5) velké předtrénované jazykové modely jak např. BERT, které nemají slovenský ekvivalent bude třeba nahradit jejich vícejazyčnými ekvivalenty (např. m-BERT). V práci budou tyto metody transferu porovnány z hlediska výpočetní náročnosti a úspěšnosti na evaluačních datech.
Seznam odborné literatury
[1] Justus Mattern, Yu Qiao, Elma Kerz, Daniel Wiechmann, Markus Strohmaier: FANG-COVID: A New Large-Scale Benchmark Dataset for Fake News Detection in German. In: Proceedings of the Fourth Workshop on Fact Extraction and VERification (FEVER) at EMNLP, 2021

[2] Yi R. Fung, Chris Thomas, Revanth Reddy, Sandeep Polisetty, Heng Ji, Shih-Fu Chang, Kathleen McKeown, Mohit Bansal, Avirup Sil: InfoSurgeon: Cross-Media Fine-grained Information Consistency Checking for Fake News Detection. In: Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing, 2021

[3] Veronica Perez-Rosas, Bennett Kleinberg, Alexandra Lefevre, Rada Mihalcea: Automatic Detection of Fake News. In: Proceedings of the 27th International Conference on Computational Linguistics, 2018

[4] Muhammad Abdul-Mageed, AbdelRahim Elmadany, El Moatez Billah Nagoudi, Dinesh Pabbi, Kunal Verma, Rannie Lin: Mega-COV: A Billion-Scale Dataset of 100+ Languages for COVID-19. In: Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics, 2021
 
Univerzita Karlova | Informační systém UK