velikost textu

Detection of contradictions in pairs of texts in Kazakh

Upozornění: Informace získané z popisných dat či souborů uložených v Repozitáři závěrečných prací nemohou být použity k výdělečným účelům nebo vydávány za studijní, vědeckou nebo jinou tvůrčí činnost jiné osoby než autora.
Název:
Detection of contradictions in pairs of texts in Kazakh
Název v češtině:
Detekce kontradikce mezi dvěma texty v kazaštině
Typ:
Bakalářská práce
Autor:
Bc. Yuliya Yamalutdinova
Vedoucí:
Mgr. Rudolf Rosa
Oponent:
Mgr. Ondřej Dušek
Id práce:
205118
Fakulta:
Matematicko-fyzikální fakulta (MFF)
Pracoviště:
Ústav formální a aplikované lingvistiky (32-UFAL)
Program studia:
Informatika (B1801)
Obor studia:
Obecná informatika (IOI)
Přidělovaný titul:
Bc.
Datum obhajoby:
5. 9. 2019
Výsledek obhajoby:
Výborně
Jazyk práce:
Angličtina
Klíčová slova:
kontradikce zpracování přirozeného jazyka kazaština
Klíčová slova v angličtině:
contradiction natural language processing Kazakh
Abstrakt:
Abstrakt V současné době my máme přístup k obrovskému množství informací na in- ternetu. Zároveň jsme však konfrontováni s problémem nepravdivé informaci. Řešením tohoto problému by mohl byt nástroj, který by mohl odhalit rozpory v textech. Cílem náše práce je nalézt v daných textech v kazaštině věty s podob- nym obsahem a klasifikovat je jako rozporné nebo podobné. Ve větsině podob- nych praci autori se snažili zarovnat věty, aby nalezli podobné a pro klasifikaci vět pouzivali informace o semantice a morfologii. V nášem vyzkumu jsme se snažili najít podobné věty pomoci word2vec, fastText a BERT vektorů a natré- novali několik modelů pro jejich klasifikaci jako rozporné nebo podobné pomocí informací o morfologii, kontroly vět pro antonymy a budování clasifikatoru po- moci neuronovych sítí trenoványch na velkych souborech dat. Náš nejlepší model dosáhl lepšího F2 než náhoda. 1
Abstract v angličtině:
Abstract Nowadays we have access to massive amount of information on the internet. But at the same time, we are faced with the problem of untrue information. The solution for this problem would be a tool, which could detect contradictions in texts. The goal of this work is to find in the given texts in Kazakh the statements with similar content and classify them as contradictory or similar. In most of the previous works the authors tried to align the sentences to find the most similar ones and used the information about semantics and morphology to classify them as contradictory or not. In our research we have tried to find semantically similar sentences using word2vec, fastText and BERT embeddings, and trained several models to classify them as contradictory or not, using the information about morphology, checking sentences for antonyms and building the neural network classifiers trained on the huge datasets. Our best model has achieved F2 better that random. 1
Dokumenty
Stáhnout Dokument Autor Typ Velikost
Stáhnout Text práce Bc. Yuliya Yamalutdinova 1.13 MB
Stáhnout Abstrakt v českém jazyce Bc. Yuliya Yamalutdinova 70 kB
Stáhnout Abstrakt anglicky Bc. Yuliya Yamalutdinova 42 kB
Stáhnout Posudek vedoucího Mgr. Rudolf Rosa 71 kB
Stáhnout Posudek oponenta Mgr. Ondřej Dušek 122 kB
Stáhnout Záznam o průběhu obhajoby doc. Ing. Petr Tůma, Dr. 152 kB