Témata prací (Výběr práce)

Váš prohlížeč nepodporuje JavaScript nebo je jeho podpora vypnutá. Některé funkce nemusejí být dostupné.

Anonymizace textu

Název práce v češtině:	Anonymizace textu
Název v anglickém jazyce:	Text anonymisation
Klíčová slova:	anonymizace textu, rozpoznávání pojmenovaných entit
Klíčová slova anglicky:	text anonymisationm named entity recognition
Akademický rok vypsání:	2014/2015
Typ práce:	diplomová práce
Jazyk práce:
Ústav:	Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel:	doc. RNDr. Pavel Pecina, Ph.D.
Řešitel:

Zásady pro vypracování

Anonymizace textu spočívá v odstranění částí textu, které by mohly vést k identifikaci nějaké osoby (ať už fyzické nebo právnické). Z hlediska počítačové lingvistiky je to aplikace rozpoznávání pojmenovaných entit (určitého typu) a jejich nahrazením nějakým generickým slovem nebo značkou, tak aby výsledný text neobsahoval žádné osobní údaje.
Pojmenované entity v počítačové lingvistice jsou jedno či víceslovná slovní spojení označující nějakou entitu, např. osobu, instituci, produkt, ale také např. číselný údaj (cenu, čas, datum), adresu (klasickou poštovní nebo elektronickou) apod. Identifikace pojmenovaných entit v textu je tradiční úloha komputační lingvistiky a většina metod, které ji řeší, je založena na značkování (tagging, sequence labeling), případně v kombinaci s ručně psanými pravidly.

Cílem diplomové práce je návrh, implementace a otestování nástroje pro anonymizaci dokumentů. Součástí práce bude podrobná analýza pojmenovaných entit, které bude nutné odstraňovat, analýza nástrojů a metod pro rozpoznávání entit tohoto typu (případně jeho modifikace či kompletní implementace), příprava testovacích data a evaluace.

Seznam odborné literatury

Chris Manning and Hinrich Schütze, Foundations of Statistical Natural Language Processing, MIT Press. Cambridge, MA.1999.