Anotace lingvistických dat pomocí crowdsourcing metod
Název práce v češtině: | Anotace lingvistických dat pomocí crowdsourcing metod |
---|---|
Název v anglickém jazyce: | Annotation of lingvuistic data using crowdsourcing methods |
Klíčová slova: | anotace dat, crowdsourcing |
Klíčová slova anglicky: | data annotation, crowdsourcing |
Akademický rok vypsání: | 2015/2016 |
Typ práce: | ročníková práce |
Jazyk práce: | |
Ústav: | Ústav formální a aplikované lingvistiky (32-UFAL) |
Vedoucí / školitel: | Mgr. Ing. Filip Jurčíček, Ph.D. |
Řešitel: |
Zásady pro vypracování |
Základním předpoklade úspěšného vývoje statistických metod v oblasti z pracování přirozené řeči je pořízení dostatečného množství anotovaných dat pro trénování příslušných matematických modelů. Toto pořízení je většinou využívá malého počtu jazykových expertů a je velmi časově náročné a nákladné. Alternativou je využití velkého počtu nezkušených anotátorů (angl. crowd) a vhodnou kontrolou anotací dosáhnout kvalitních dat. Příkladem tzv. crowdsourcing platformy je Amazon Mechanical Turk a CrowedFlower. Tyto službu z umožnují využití jejich velké uživatelské báze k anotacím lingvistických dat. Tématem této práce bude vyvinutí anotačním modulů pro jednu ze zmíněných služeb pro účely transkripce audio nahrávek, anotace sémantických dat, subjektivní hodnocení úspěšného ukončení dialogu. Jelikož se bude jednat o webové aplikace tak použité technologie budou WWW, HTML, AJAX, JavaScript, atd.
Vzhledem k obtížnosti úlohy se nabízí dostatek prostoru pro pokračování v tématu i v rámci práce bakalářské a diplomové. Více informací na: https://ufal.mff.cuni.cz/filip-jurcicek/theses-proposals |
Seznam odborné literatury |
Psutka, J. and Müller, L. and Matoušek, J. and Radová, V. : Mluvíme s počítačem česky. p. 752, Academia, Prague, 2006.
C. M. Bishop, Pattern Recognition and Machine Learning, vol. 4, no. 4. Springer, 2006, p. 738. |