Thesis (Selection of subject)Thesis (Selection of subject)(version: 385)
Thesis details
   Login via CAS
Webové rozhraní pro platformu Treex
Thesis title in Czech: Webové rozhraní pro platformu Treex
Thesis title in English: Web Interface for the Treex Framework
Key words: Treex, Treex::Web, NLP framework, Perl, Catalyst, REST, webové služby
English key words: Treex, Treex::Web, NLP framework, Perl, Catalyst, REST, web services
Academic year of topic announcement: 2011/2012
Thesis type: Bachelor's thesis
Thesis language: čeština
Department: Institute of Formal and Applied Linguistics (32-UFAL)
Supervisor: Mgr. Martin Popel, Ph.D.
Author: hidden - assigned and confirmed by the Study Dept.
Date of registration: 22.02.2012
Date of assignment: 22.02.2012
Confirmed by Study dept. on: 06.03.2012
Date and time of defence: 02.09.2013 00:00
Date of electronic submission:02.08.2013
Date of submission of printed version:02.08.2013
Date of proceeded defence: 02.09.2013
Opponents: Mgr. Rudolf Rosa, Ph.D.
 
 
 
Guidelines
Modulární platforma Treex slouží k různým úlohám zpracování přirozeného jazyka: morfologická a syntaktická analýza češtiny, angličtiny i dalších jazyků, syntéza z hloubkové reprezentace vět, strojový překlad, zpracování paralelních (vícejazyčných) dat a další. Student se podrobně seznámí s touto platformou a navrhne a implementuje pro ni webové rozhraní.

Toto webové rozhraní bude primárně určeno pro seznámení s platformou Treex a jejími možnostmi, zároveň však bude umožňovat i spouštění složitějších úloh. Uživatelé budou moci zadat vlastní vstupní data (textové soubory, webové stránky, soubory ve formátech treex, conll a dalších) a spustit nad nimi některou z vybraných aplikací (minimálně analýzu češtiny a angličtiny na analytickou a tektogramatickou rovinu). Bude také možné si sestavit vlastní aplikaci (tzv. "scénář") z modulů (tzv. "bloků"), které jsou již implementovány v Treexu. Výstupní data půjde stáhnout na disk i zobrazit přímo v prohlížeči, zejména jako závislostní stromy jednotlivých vět (nejspíš ve formátu SVG).

Vzhledem k tomu, že Treex je naprogramován v jazyce Perl, preferovaným řešením je naprogramovat i webové rozhraní v tomto jazyce (např. ve frameworku Catalyst). Práce si vyžádá i úpravy platformy Treex, aby vyhovovala požadavkům moderní webové aplikace.
References
Dokumentace platformy Treex http://search.cpan.org/perldoc?Treex::Core

Martin Popel, Zdeněk Žabokrtský: TectoMT: Modular NLP Framework. In Proceedings of IceTAL, 7th International Conference on Natural Language Processing, Reykjavík, Iceland, August 17, 2010, pp. 293–304.

Programovací manuály a informace k Perl, Catalyst, MySQL/Postgress, Javascript, CSS, XHTML/XML, JQuery a další dle potřeby.
 
Charles University | Information system of Charles University | http://www.cuni.cz/UKEN-329.html