Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 368)
Detail práce
   Přihlásit přes CAS
Genres classification by means of machine learning
Název práce v češtině: Klasifikace žánrů pomocí strojového učení
Název v anglickém jazyce: Genres classification by means of machine learning
Klíčová slova: Strojové učení, zpracování přirozeného jazyka, klasifikace žánrů, vnoření slov, paragraph vector
Klíčová slova anglicky: Machine learning, natural language processing, genre classification, word embeddings, paragraph vector
Akademický rok vypsání: 2017/2018
Typ práce: diplomová práce
Jazyk práce: angličtina
Ústav: Katedra teoretické informatiky a matematické logiky (32-KTIML)
Vedoucí / školitel: Mgr. Roman Neruda, CSc.
Řešitel: skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení: 10.05.2018
Datum zadání: 04.06.2018
Datum potvrzení stud. oddělením: 18.07.2018
Datum a čas obhajoby: 13.09.2018 00:00
Datum odevzdání elektronické podoby:20.07.2018
Datum odevzdání tištěné podoby:20.07.2018
Datum proběhlé obhajoby: 13.09.2018
Oponenti: Mgr. Marta Vomlelová, Ph.D.
 
 
 
Zásady pro vypracování
The goal of the thesis is to compare several approaches to text processing and classification and apply them on the task of literary genre classification. The student will propose and design a model based on machine learning that can predict genres given a short part from an English text. A corpus of selected texts from project Gutenberg will be used for training and testing the model. As part of the thesis, the dataset will be explored, and interesting text and language properties as well as typical structures for different genres will be identified. A practical implementation of the proposed algorithms in suitable environment (such as Python, scikit-learn, and TensorFlow) is expected.
Seznam odborné literatury
Ian Goodfellow, Yoshua Bengio, Aaron Courville: Deep Learning. MIT Press, 2016. http://www.deeplearningbook.org

Peter Flach: Machine learning. Cambridge University Press, 2012.

Quoc Le, Tomáš Mikolov: Distributed Representations of Sentences and Documents. CoRR journal, 2014. http://arxiv.org/abs/1405.4053v2

Tomáš Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean: Efficient Estimation of Word Representations in Vector Space. CoRR journal, 2013. http://arxiv.org/abs/1301.3781v3

Yoon Kim: Convolutional Neural Networks for Sentence Classification. CoRR journal, 2014. http://arxiv.org/abs/1408.5882v2
 
Univerzita Karlova | Informační systém UK