velikost textu
Detection of contradictions in pairs of texts in Kazakh
Upozornění: Informace získané z popisných dat či souborů uložených v Repozitáři závěrečných prací nemohou být použity k výdělečným účelům nebo vydávány za studijní, vědeckou nebo jinou tvůrčí činnost jiné osoby než autora.
Název:
Detection of contradictions in pairs of texts in Kazakh
Název v češtině:
Detekce kontradikce mezi dvěma texty v kazaštině
Typ:
Bakalářská práce
Autor:
Bc. Yuliya Yamalutdinova
Vedoucí:
Mgr. Rudolf Rosa
Oponent:
Mgr. Ondřej Dušek
Id práce:
205118
Fakulta:
Matematicko-fyzikální fakulta (MFF)
Pracoviště:
Ústav formální a aplikované lingvistiky (32-UFAL)
Program studia:
Informatika (B1801)
Obor studia:
Obecná informatika (IOI)
Přidělovaný titul:
Bc.
Datum obhajoby:
5. 9. 2019
Výsledek obhajoby:
Výborně
Jazyk práce:
Angličtina
Klíčová slova:
kontradikce
zpracování přirozeného jazyka
kazaština
Klíčová slova v angličtině:
contradiction
natural language processing
Kazakh
Abstrakt:
Abstrakt
V současné době my máme přístup k obrovskému množství informací na in-
ternetu. Zároveň jsme však konfrontováni s problémem nepravdivé informaci.
Řešením tohoto problému by mohl byt nástroj, který by mohl odhalit rozpory v
textech. Cílem náše práce je nalézt v daných textech v kazaštině věty s podob-
nym obsahem a klasifikovat je jako rozporné nebo podobné. Ve větsině podob-
nych praci autori se snažili zarovnat věty, aby nalezli podobné a pro klasifikaci
vět pouzivali informace o semantice a morfologii. V nášem vyzkumu jsme se
snažili najít podobné věty pomoci word2vec, fastText a BERT vektorů a natré-
novali několik modelů pro jejich klasifikaci jako rozporné nebo podobné pomocí
informací o morfologii, kontroly vět pro antonymy a budování clasifikatoru po-
moci neuronovych sítí trenoványch na velkych souborech dat. Náš nejlepší model
dosáhl lepšího F2 než náhoda.
1
Abstract v angličtině:
Abstract
Nowadays we have access to massive amount of information on the internet. But
at the same time, we are faced with the problem of untrue information. The
solution for this problem would be a tool, which could detect contradictions
in texts. The goal of this work is to find in the given texts in Kazakh the
statements with similar content and classify them as contradictory or similar.
In most of the previous works the authors tried to align the sentences to find the
most similar ones and used the information about semantics and morphology
to classify them as contradictory or not. In our research we have tried to find
semantically similar sentences using word2vec, fastText and BERT embeddings,
and trained several models to classify them as contradictory or not, using the
information about morphology, checking sentences for antonyms and building
the neural network classifiers trained on the huge datasets. Our best model has
achieved F2 better that random.
1
Dokumenty
Stáhnout | Dokument | Autor | Typ | Velikost |
---|---|---|---|---|
Stáhnout | Text práce | Bc. Yuliya Yamalutdinova | 1.13 MB | |
Stáhnout | Abstrakt v českém jazyce | Bc. Yuliya Yamalutdinova | 70 kB | |
Stáhnout | Abstrakt anglicky | Bc. Yuliya Yamalutdinova | 42 kB | |
Stáhnout | Posudek vedoucího | Mgr. Rudolf Rosa | 71 kB | |
Stáhnout | Posudek oponenta | Mgr. Ondřej Dušek | 122 kB | |
Stáhnout | Záznam o průběhu obhajoby | doc. Ing. Petr Tůma, Dr. | 152 kB |