Thesis (Selection of subject)Thesis (Selection of subject)(version: 368)
Thesis details
   Login via CAS
Anonymizace textu
Thesis title in Czech: Anonymizace textu
Thesis title in English: Text anonymisation
Key words: anonymizace textu, rozpoznávání pojmenovaných entit
English key words: text anonymisationm named entity recognition
Academic year of topic announcement: 2014/2015
Thesis type: diploma thesis
Thesis language:
Department: Institute of Formal and Applied Linguistics (32-UFAL)
Supervisor: doc. RNDr. Pavel Pecina, Ph.D.
Author:
Guidelines
Anonymizace textu spočívá v odstranění částí textu, které by mohly vést k identifikaci nějaké osoby (ať už fyzické nebo právnické). Z hlediska počítačové lingvistiky je to aplikace rozpoznávání pojmenovaných entit (určitého typu) a jejich nahrazením nějakým generickým slovem nebo značkou, tak aby výsledný text neobsahoval žádné osobní údaje.
Pojmenované entity v počítačové lingvistice jsou jedno či víceslovná slovní spojení označující nějakou entitu, např. osobu, instituci, produkt, ale také např. číselný údaj (cenu, čas, datum), adresu (klasickou poštovní nebo elektronickou) apod. Identifikace pojmenovaných entit v textu je tradiční úloha komputační lingvistiky a většina metod, které ji řeší, je založena na značkování (tagging, sequence labeling), případně v kombinaci s ručně psanými pravidly.

Cílem diplomové práce je návrh, implementace a otestování nástroje pro anonymizaci dokumentů. Součástí práce bude podrobná analýza pojmenovaných entit, které bude nutné odstraňovat, analýza nástrojů a metod pro rozpoznávání entit tohoto typu (případně jeho modifikace či kompletní implementace), příprava testovacích data a evaluace.
References
Chris Manning and Hinrich Schütze, Foundations of Statistical Natural Language Processing, MIT Press. Cambridge, MA.1999.
 
Charles University | Information system of Charles University | http://www.cuni.cz/UKEN-329.html