Anonymizace textu
Název práce v češtině: | Anonymizace textu |
---|---|
Název v anglickém jazyce: | Text anonymisation |
Klíčová slova: | anonymizace textu, rozpoznávání pojmenovaných entit |
Klíčová slova anglicky: | text anonymisationm named entity recognition |
Akademický rok vypsání: | 2014/2015 |
Typ práce: | diplomová práce |
Jazyk práce: | |
Ústav: | Ústav formální a aplikované lingvistiky (32-UFAL) |
Vedoucí / školitel: | doc. RNDr. Pavel Pecina, Ph.D. |
Řešitel: |
Zásady pro vypracování |
Anonymizace textu spočívá v odstranění částí textu, které by mohly vést k identifikaci nějaké osoby (ať už fyzické nebo právnické). Z hlediska počítačové lingvistiky je to aplikace rozpoznávání pojmenovaných entit (určitého typu) a jejich nahrazením nějakým generickým slovem nebo značkou, tak aby výsledný text neobsahoval žádné osobní údaje.
Pojmenované entity v počítačové lingvistice jsou jedno či víceslovná slovní spojení označující nějakou entitu, např. osobu, instituci, produkt, ale také např. číselný údaj (cenu, čas, datum), adresu (klasickou poštovní nebo elektronickou) apod. Identifikace pojmenovaných entit v textu je tradiční úloha komputační lingvistiky a většina metod, které ji řeší, je založena na značkování (tagging, sequence labeling), případně v kombinaci s ručně psanými pravidly. Cílem diplomové práce je návrh, implementace a otestování nástroje pro anonymizaci dokumentů. Součástí práce bude podrobná analýza pojmenovaných entit, které bude nutné odstraňovat, analýza nástrojů a metod pro rozpoznávání entit tohoto typu (případně jeho modifikace či kompletní implementace), příprava testovacích data a evaluace. |
Seznam odborné literatury |
Chris Manning and Hinrich Schütze, Foundations of Statistical Natural Language Processing, MIT Press. Cambridge, MA.1999. |