Genres classification by means of machine learning
Název práce v češtině: | Klasifikace žánrů pomocí strojového učení |
---|---|
Název v anglickém jazyce: | Genres classification by means of machine learning |
Klíčová slova: | Strojové učení, zpracování přirozeného jazyka, klasifikace žánrů, vnoření slov, paragraph vector |
Klíčová slova anglicky: | Machine learning, natural language processing, genre classification, word embeddings, paragraph vector |
Akademický rok vypsání: | 2017/2018 |
Typ práce: | diplomová práce |
Jazyk práce: | angličtina |
Ústav: | Katedra teoretické informatiky a matematické logiky (32-KTIML) |
Vedoucí / školitel: | Mgr. Roman Neruda, CSc. |
Řešitel: | skrytý - zadáno a potvrzeno stud. odd. |
Datum přihlášení: | 10.05.2018 |
Datum zadání: | 04.06.2018 |
Datum potvrzení stud. oddělením: | 18.07.2018 |
Datum a čas obhajoby: | 13.09.2018 00:00 |
Datum odevzdání elektronické podoby: | 20.07.2018 |
Datum odevzdání tištěné podoby: | 20.07.2018 |
Datum proběhlé obhajoby: | 13.09.2018 |
Oponenti: | Mgr. Marta Vomlelová, Ph.D. |
Zásady pro vypracování |
The goal of the thesis is to compare several approaches to text processing and classification and apply them on the task of literary genre classification. The student will propose and design a model based on machine learning that can predict genres given a short part from an English text. A corpus of selected texts from project Gutenberg will be used for training and testing the model. As part of the thesis, the dataset will be explored, and interesting text and language properties as well as typical structures for different genres will be identified. A practical implementation of the proposed algorithms in suitable environment (such as Python, scikit-learn, and TensorFlow) is expected. |
Seznam odborné literatury |
Ian Goodfellow, Yoshua Bengio, Aaron Courville: Deep Learning. MIT Press, 2016. http://www.deeplearningbook.org
Peter Flach: Machine learning. Cambridge University Press, 2012. Quoc Le, Tomáš Mikolov: Distributed Representations of Sentences and Documents. CoRR journal, 2014. http://arxiv.org/abs/1405.4053v2 Tomáš Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean: Efficient Estimation of Word Representations in Vector Space. CoRR journal, 2013. http://arxiv.org/abs/1301.3781v3 Yoon Kim: Convolutional Neural Networks for Sentence Classification. CoRR journal, 2014. http://arxiv.org/abs/1408.5882v2 |