Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 368)
Detail práce
   Přihlásit přes CAS
Anotace lingvistických dat pomocí crowdsourcing metod
Název práce v češtině: Anotace lingvistických dat pomocí crowdsourcing metod
Název v anglickém jazyce: Annotation of lingvuistic data using crowdsourcing methods
Klíčová slova: anotace dat, crowdsourcing
Klíčová slova anglicky: data annotation, crowdsourcing
Akademický rok vypsání: 2015/2016
Typ práce: ročníková práce
Jazyk práce:
Ústav: Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel: Mgr. Ing. Filip Jurčíček, Ph.D.
Řešitel:
Zásady pro vypracování
Základním předpoklade úspěšného vývoje statistických metod v oblasti z pracování přirozené řeči je pořízení dostatečného množství anotovaných dat pro trénování příslušných matematických modelů. Toto pořízení je většinou využívá malého počtu jazykových expertů a je velmi časově náročné a nákladné. Alternativou je využití velkého počtu nezkušených anotátorů (angl. crowd) a vhodnou kontrolou anotací dosáhnout kvalitních dat. Příkladem tzv. crowdsourcing platformy je Amazon Mechanical Turk a CrowedFlower. Tyto službu z umožnují využití jejich velké uživatelské báze k anotacím lingvistických dat. Tématem této práce bude vyvinutí anotačním modulů pro jednu ze zmíněných služeb pro účely transkripce audio nahrávek, anotace sémantických dat, subjektivní hodnocení úspěšného ukončení dialogu. Jelikož se bude jednat o webové aplikace tak použité technologie budou WWW, HTML, AJAX, JavaScript, atd.

Vzhledem k obtížnosti úlohy se nabízí dostatek prostoru pro pokračování v tématu i v rámci práce bakalářské a diplomové.

Více informací na: https://ufal.mff.cuni.cz/filip-jurcicek/theses-proposals


Seznam odborné literatury
Psutka, J. and Müller, L. and Matoušek, J. and Radová, V. : Mluvíme s počítačem česky. p. 752, Academia, Prague, 2006.

C. M. Bishop, Pattern Recognition and Machine Learning, vol. 4, no. 4. Springer, 2006, p. 738.
 
Univerzita Karlova | Informační systém UK