Thesis (Selection of subject)

Your browser does not support JavaScript, or its support is disabled. Some features may not be available.

Anonymizace textu

Thesis title in Czech:	Anonymizace textu
Thesis title in English:	Text anonymisation
Key words:	anonymizace textu, rozpoznávání pojmenovaných entit
English key words:	text anonymisationm named entity recognition
Academic year of topic announcement:	2014/2015
Thesis type:	diploma thesis
Thesis language:
Department:	Institute of Formal and Applied Linguistics (32-UFAL)
Supervisor:	doc. RNDr. Pavel Pecina, Ph.D.
Author:

Guidelines

Anonymizace textu spočívá v odstranění částí textu, které by mohly vést k identifikaci nějaké osoby (ať už fyzické nebo právnické). Z hlediska počítačové lingvistiky je to aplikace rozpoznávání pojmenovaných entit (určitého typu) a jejich nahrazením nějakým generickým slovem nebo značkou, tak aby výsledný text neobsahoval žádné osobní údaje.
Pojmenované entity v počítačové lingvistice jsou jedno či víceslovná slovní spojení označující nějakou entitu, např. osobu, instituci, produkt, ale také např. číselný údaj (cenu, čas, datum), adresu (klasickou poštovní nebo elektronickou) apod. Identifikace pojmenovaných entit v textu je tradiční úloha komputační lingvistiky a většina metod, které ji řeší, je založena na značkování (tagging, sequence labeling), případně v kombinaci s ručně psanými pravidly.

Cílem diplomové práce je návrh, implementace a otestování nástroje pro anonymizaci dokumentů. Součástí práce bude podrobná analýza pojmenovaných entit, které bude nutné odstraňovat, analýza nástrojů a metod pro rozpoznávání entit tohoto typu (případně jeho modifikace či kompletní implementace), příprava testovacích data a evaluace.

References

Chris Manning and Hinrich Schütze, Foundations of Statistical Natural Language Processing, MIT Press. Cambridge, MA.1999.