Comparison of approaches to text classification
Název práce v češtině: | Porovnání přístupů ke klasifikaci textu |
---|---|
Název v anglickém jazyce: | Comparison of approaches to text classification |
Klíčová slova: | NLP, klasifikace textu, strojové učení, klasifikace recenzí |
Klíčová slova anglicky: | NLP, text classification, machine learning, review classification |
Akademický rok vypsání: | 2018/2019 |
Typ práce: | bakalářská práce |
Jazyk práce: | angličtina |
Ústav: | Ústav formální a aplikované lingvistiky (32-UFAL) |
Vedoucí / školitel: | RNDr. Jiří Hana, Ph.D. |
Řešitel: | skrytý - zadáno a potvrzeno stud. odd. |
Datum přihlášení: | 01.11.2018 |
Datum zadání: | 01.11.2018 |
Datum potvrzení stud. oddělením: | 27.03.2019 |
Datum a čas obhajoby: | 05.09.2019 09:00 |
Datum odevzdání elektronické podoby: | 18.07.2019 |
Datum odevzdání tištěné podoby: | 19.07.2019 |
Datum proběhlé obhajoby: | 05.09.2019 |
Oponenti: | doc. Mgr. Barbora Vidová Hladká, Ph.D. |
Zásady pro vypracování |
Compare approaches to text classification based on machine learning. Special attention should be paid to an evaluation of the usefulness of various features, ranging from simple (length of text, bag-of-words) to more complicated ones derived from syntax, detected entities, etc.
For training and testing, use the current Yelp challenge dataset of reviews. The data contain several candidate target variables (usefulness of review, rating), select one or more of them. The comparison should include - Comparison of basic algorithms (their results, speed, ...) - Evaluation of impact of training data size - Evaluation of various text features - Comparison of text features with metadata features |
Seznam odborné literatury |
Jurafsky, Daniel a Martin, James H. 2015. Speech and Language Processing. 2015.
Raschka, Sebastian and Vahid Mirjalili 2017. Python Machine Learning Mai, Jens-Erik 2011. The modernity of classification. Journal of Documentation67. 4: 710-730. Sebastiani, Fabrizio 2002. Machine Learning in Automated Text Categorization. ACM Computing Surveys, Vol. 34, No. 1, March 2002, pp. 1–47. |
Předběžná náplň práce |
Compare approaches to text classification based on machine learning. Special attention should be paid to an evaluation of the usefulness of various features, ranging from simple (length of text, bag-of-words) to more complicated ones derived from syntax, detected entities, etc. |
Předběžná náplň práce v anglickém jazyce |
Compare approaches to text classification based on machine learning. Special attention should be paid to an evaluation of the usefulness of various features, ranging from simple (length of text, bag-of-words) to more complicated ones derived from syntax, detected entities, etc.
|