Automatický sběr jmen všeho možného
Název práce v češtině: | Automatický sběr jmen všeho možného |
---|---|
Název v anglickém jazyce: | General Gazetteer |
Akademický rok vypsání: | 2014/2015 |
Typ práce: | ročníková práce |
Jazyk práce: | |
Ústav: | Ústav formální a aplikované lingvistiky (32-UFAL) |
Vedoucí / školitel: | doc. RNDr. Ondřej Bojar, Ph.D. |
Řešitel: |
Zásady pro vypracování |
Takzvané pojmenované entity jsou cennou informací pro řadu úloh zpracování přirozeného jazyka. Například ve strojovém překladu je třeba Rice University nepřekládat jako Rýžová univerzita nebo Univerzita rýže, komerční subjekty se zajímají o to, jak často a v jakých kontextech jsou jejich produkty zmiňovány, politici chtějí vědět, kde o nich kdo co napsal. Řešit úlohu identifikace pojmenovaných entit v úplnosti (přesně najít a správně označit všechny i vnořené názvy v příkladech jako "Spolek přátel náměstí Jiřího z Poděbrad") je velmi obtížné a překračuje rámec tohoto zadání.
Úkolem ročníkového projektu a navazující bakalářské práce je implementovat systém, který bude dlouhodobě monitorovat zadané zdroje (např. RSS kanály) a automaticky z nich extrahovat kandidáty na pojmenované entity (bez snahy o rozpoznání vnitřní struktury entit). Samotné texty, v nichž se entity vyskytnou, je přitom také žádoucí ukládat, pro řadu aplikací je totiž potřeba nejen entitu poznat, ale i umět správně použit v kontextu. Jádro ročníkového projektu spočívá v implementaci systému dlouhodobého sběru, včetně vhodné organizace získaných surových textů i extrahovaných entit. Systém musí být jazykově nezávislý a (za použití existujících nástrojů pro detekci jazyka) entity i texty archivovat s ohledem na jazyk a datum sběru. Samotná detekce entit musí být řešena modulárně, aby bylo možné postupně zapojovat chytřejší algoritmy. Prvotní detekce může být založena na triviálním sledování velkých písmen v názvech, jako rozšíření vhodné pro balakářskou práci lze navrhnout hledání entit bez kapitalizace (iMac) nebo s ošklivými znaky (Joomla!, O2). Navazující bakalářská práce implementovaný systém nasadí na konkrétní úkol a několik variant detekce entit otestuje v praxi. Součástí bakalářské práce je i volba vhodné metriky úspěšnosti, a to buď z repertoáru zavedených metrik z existujících soutěží v detekci pojmenovaných entit na dostupných či ručně anotovaných datech, nebo pomocí nějaké vnější metriky: zlepšení úspěšnosti nějaké aplikace, která entity používá. Téma je dostatečně široké, lze v něm snadno pokračovat i v diplomové či disertační práci. |
Seznam odborné literatury |
Ziqi Zhang; Jose Iria: A Novel Approach to Automatic Gazetteer Generation using Wikipedia. Proceedings of the 2009 Workshop on The People’s Web Meets NLP: Collaboratively Constructed Semantic Resources (People's Web). ACL 2009.
K. Humphreys, R. Gaizauskas, S. Azzam, C. Huyck, B. Mitchell, H. Cunningham, and Y. Wilks. University of Sheffield: Description of the Lasie-II system as used for MUC-7. In Proc. of the 7th Conf. on Message Understanding (MUC-7), 1998. (a též další příspěvky z konferencí MUC). Ondřej Hálek, Rudolf Rosa, Aleš Tamchyna, and Ondřej Bojar. Named Entities from Wikipedia for Machine Translation. In Markéta Lopatková, editor, ITAT 2011 Information Technologies - Applications and Theory, volume 788, pages 23-30, September 2011. |