Thesis (Selection of subject)Thesis (Selection of subject)(version: 368)
Thesis details
   Login via CAS
Popularita osob automaticky
Thesis title in Czech: Popularita osob automaticky
Thesis title in English: Popularity Meter
Key words: subjektivita, anotace polarity, strojové učení, klasifikace textů
English key words: subjectivity, annotating polarity, machine learning, text classification
Academic year of topic announcement: 2010/2011
Thesis type: Bachelor's thesis
Thesis language: čeština
Department: Institute of Formal and Applied Linguistics (32-UFAL)
Supervisor: doc. RNDr. Ondřej Bojar, Ph.D.
Author: hidden - assigned and confirmed by the Study Dept.
Date of registration: 11.11.2010
Date of assignment: 11.11.2010
Date and time of defence: 07.09.2011 09:00
Date of electronic submission:04.08.2011
Date of submission of printed version:05.08.2011
Date of proceeded defence: 07.09.2011
Opponents: Mgr. Martin Popel, Ph.D.
 
 
 
Guidelines
Cílem bakalářské práce je vytvořit a vyhodnotit systém, který na základě sledovaných zpravodajských webů bude schopen monitorovat předem vybrané osoby a další entity z hlediska "popularity".

Popularitu bude systém odhadovat na základě slov vyskytujících se v okolí jména osoby, přičemž pomocí LSA [1] bude schopen pracovat na automaticky nalezených třídách polárních výrazů a ne jen na konkrétních slovech, což může pomoci překonat nedostatek a řídkost dat. V některých případech půjde o hodnotící výrazy (úspěšný, nepopulární...), v některých případech půjde spíše o spojení zprostředkovávající názor třetí osoby (veřejnost odsoudila, město odmítlo...).

Součástí práce je vytvořit korpus vět ručně označkovaných podle polarity, který bude sloužit tomuto systému jako trénovací data a bude využitelný i v dalším výzkumu.

Evaluace systému bude provedena srovnáním automatického odhadu popularity s ručně ohodnocenými články, abychom se přiblížili způsobu, kterým budou se systémem pracovat případní uživatelé.
References
[1] Thomas Landauer, Peter W. Foltz, Darrell Laham. Introduction to Latent Semantic Analysis. Discourse Processes, 25: 259?284. 1998.

[2] Jan Hajič: Disambiguation of Rich Inflection (Computational Morphology of Czech). Nakladatelství Karolinum. 2004.
http://quest.ms.mff.cuni.cz/pdt/Morphology_and_Tagging/Morphology/
 
Charles University | Information system of Charles University | http://www.cuni.cz/UKEN-329.html