Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 368)
Detail práce
   Přihlásit přes CAS
Comparison of approaches to text classification
Název práce v češtině: Porovnání přístupů ke klasifikaci textu
Název v anglickém jazyce: Comparison of approaches to text classification
Klíčová slova: NLP, klasifikace textu, strojové učení, klasifikace recenzí
Klíčová slova anglicky: NLP, text classification, machine learning, review classification
Akademický rok vypsání: 2018/2019
Typ práce: bakalářská práce
Jazyk práce: angličtina
Ústav: Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel: RNDr. Jiří Hana, Ph.D.
Řešitel: skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení: 01.11.2018
Datum zadání: 01.11.2018
Datum potvrzení stud. oddělením: 27.03.2019
Datum a čas obhajoby: 05.09.2019 09:00
Datum odevzdání elektronické podoby:18.07.2019
Datum odevzdání tištěné podoby:19.07.2019
Datum proběhlé obhajoby: 05.09.2019
Oponenti: doc. Mgr. Barbora Vidová Hladká, Ph.D.
 
 
 
Zásady pro vypracování
Compare approaches to text classification based on machine learning. Special attention should be paid to an evaluation of the usefulness of various features, ranging from simple (length of text, bag-of-words) to more complicated ones derived from syntax, detected entities, etc.

For training and testing, use the current Yelp challenge dataset of reviews. The data contain several candidate target variables (usefulness of review, rating), select one or more of them.

The comparison should include
- Comparison of basic algorithms (their results, speed, ...)
- Evaluation of impact of training data size
- Evaluation of various text features
- Comparison of text features with metadata features
Seznam odborné literatury
Jurafsky, Daniel a Martin, James H. 2015. Speech and Language Processing. 2015.
Raschka, Sebastian and Vahid Mirjalili 2017. Python Machine Learning
Mai, Jens-Erik 2011. The modernity of classification. Journal of Documentation67. 4: 710-730.
Sebastiani, Fabrizio 2002. Machine Learning in Automated Text Categorization. ACM Computing Surveys, Vol. 34, No. 1, March 2002, pp. 1–47.
Předběžná náplň práce
Compare approaches to text classification based on machine learning. Special attention should be paid to an evaluation of the usefulness of various features, ranging from simple (length of text, bag-of-words) to more complicated ones derived from syntax, detected entities, etc.
Předběžná náplň práce v anglickém jazyce
Compare approaches to text classification based on machine learning. Special attention should be paid to an evaluation of the usefulness of various features, ranging from simple (length of text, bag-of-words) to more complicated ones derived from syntax, detected entities, etc.
 
Univerzita Karlova | Informační systém UK