Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 368)
Detail práce
   Přihlásit přes CAS
Text classification with limited training data
Název práce v češtině: Textová klasifikace s limitovanými trénovacími daty
Název v anglickém jazyce: Text classification with limited training data
Klíčová slova: NLP|klasifikace textu|weakly supervised learning
Klíčová slova anglicky: NLP|text classification|weakly supervised learning
Akademický rok vypsání: 2019/2020
Typ práce: diplomová práce
Jazyk práce: angličtina
Ústav: Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel: RNDr. Jiří Hana, Ph.D.
Řešitel: skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení: 06.05.2020
Datum zadání: 06.05.2020
Datum potvrzení stud. oddělením: 17.12.2020
Datum a čas obhajoby: 22.06.2021 09:00
Datum odevzdání elektronické podoby:21.05.2021
Datum odevzdání tištěné podoby:21.05.2021
Datum proběhlé obhajoby: 22.06.2021
Oponenti: doc. Mgr. Barbora Vidová Hladká, Ph.D.
 
 
 
Zásady pro vypracování
Design a system for classification of short text (e.g. reviews) minimizing the cost of manual work (in terms of time, expertise or both) needed to create training data. The system might use a small amount of high-quality annotated data, low-quality crowd-sourced data, noisy data produced by various heuristics, etc.
Seznam odborné literatury
Zhou, Z. (2018). A brief introduction to weakly supervised learning.

Ratner, A.J., Sa, C.D., Wu, S., Selsam, D., & Ré, C. (2016). Data Programming: Creating Large Training Sets, Quickly. Advances in neural information processing systems, 29, 3567-3575 .

Bach, S.H., Rodriguez, D., Liu, Y., Luo, C., Shao, H., Xia, C., Sen, S., Ratner, A., Hancock, B., Alborzi, H., Kuchhal, R., Ré, C., & Malkin, R. (2018). Snorkel DryBell: A Case Study in Deploying Weak Supervision at Industrial Scale. Proceedings. ACM-Sigmod International Conference on Management of Data, 2019, 362-375.

Joulin, A.; Grave, E.; Bojanowski, P. & Mikolov, T. (2017):
Bag of Tricks for Efficient Text Classification
Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics: Volume 2, Short Papers, Association for Computational Linguistics, 427-431
 
Univerzita Karlova | Informační systém UK