Thesis (Selection of subject)

Your browser does not support JavaScript, or its support is disabled. Some features may not be available.

Pseudonymizace textových datových kolekcí pro strojové učení

Thesis title in Czech:	Pseudonymizace textových datových kolekcí pro strojové učení
Thesis title in English:	De-identification of text data collections for machine learning
Key words:	pseudonymizace\|textový dataset\|osobní údaje\|GDPR\|pojmenované entity\|webový nástroj
English key words:	pseudonymization\|text dataset\|personal data\|GDPR\|named entities\|web-based tool
Academic year of topic announcement:	2020/2021
Thesis type:	diploma thesis
Thesis language:	čeština
Department:	Institute of Formal and Applied Linguistics (32-UFAL)
Supervisor:	doc. RNDr. Ondřej Bojar, Ph.D.
Author:	hidden - assigned and confirmed by the Study Dept.
Date of registration:	06.04.2021
Date of assignment:	06.04.2021
Confirmed by Study dept. on:	15.04.2021
Date and time of defence:	02.09.2021 09:00
Date of electronic submission:	22.07.2021
Date of submission of printed version:	22.07.2021
Date of proceeded defence:	02.09.2021
Opponents:	doc. Mgr. Martin Nečaský, Ph.D.

Guidelines

Digitální ukládání dokumentů vytváří prostor pro nové úlohy v rámci strojového zpracování textových datasetů. Tyto datasety ale bohužel nebývají často veřejně dostupné z důvodu ochrany osobních údajů.

Cílem práce je vytvořit nástroj, který usnadní pseudonymizaci, tj. odstraňování citlivých údajů z textových datasetů. Nástroj by měl využívat vhodné jazykové nástroje pro předanotaci a v maximální možné míře usnadňovat a urychlovat následnou ruční práci, při níž anotátor provede finální rozhodnutí. Nedílnou součástí práce je empirické vyhodnocení několika dostupných jazykových nástrojů pro předanotaci.

Vzhledem k tomu, že zdrojové kolekce dat nesmějí před pseudonymizací opustit pracoviště vlastníka dat, měl by nástroj být snadno spustitelný přímo na infrastruktuře vlastníka dat. Anotátor by pak měl mít možnost pracovat i vzdáleně, přičemž kromě standardního šifrování je žádoucí chránit kolekci dat např. tím, že anotátor nikdy nebude mít přístup k celým dokumentům, ale jen ke kontextu nutnému pro rozhodnutí o pseudonymizaci. Dále je vhodné předpokládat, že anotátorů může být více.

Jako vhodná rozšíření práce se jeví automatická podpora při ztotožňování pojmenovaných entit, tj. při rozhodování, zda řetězec stejného nebo podobného tvaru v textu zastupuje tutéž entitu, generování zástupných pojmenovaných entit (Jan Novák) místo citlivých části textu tak, aby plynulost textu nebyla poškozena.

Výsledný nástroj by měl být jazykově nezávislý, s ohledem na podporu konkrétních jazyků použitými jazykovými nástroji. V rámci diplomové práce se experimenty omezí na češtinu a angličtinu, podle dostupnosti datových kolekcí.

V rámci analýzy je vhodné též uvést čtenáře orientačně do právní problematiky pseudonymizace, tj. jaké požadavky má na zveřejňování datasetů české právo a do jaké míry navržený nástroj a anotační postup tyto požadavky pomáhají splnit.

References

Straková Jana, Straka Milan, Hajič Jan: Neural Architectures for Nested NER through Linearization. In: Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, Copyright © Association for Computational Linguistics, Stroudsburg, PA, USA, ISBN 978-1-950737-48-2, pp. 5326-5331, 2019.

Straková Jana, Straka Milan and Hajič Jan. Open-Source Tools for Morphology, Lemmatization, POS Tagging and Named Entity Recognition. In Proceedings of 52nd Annual Meeting of the Association for Computational Linguistics: System Demonstrations, pages 13-18, Baltimore, Maryland, June 2014. Association for Computational Linguistics.

Jenny Rose Finkel, Trond Grenager, and Christopher Manning. 2005. Incorporating Non-local Information into Information Extraction Systems by Gibbs Sampling. Proceedings of the 43nd Annual Meeting of the Association for Computational Linguistics (ACL 2005), pp. 363-370. http://nlp.stanford.edu/~manning/papers/gibbscrf3.pdf

Honnibal, Matthew and Montani, Ines and Van Landeghem, Sofie and Boyd, Adriane. spaCy: Industrial-strength Natural Language Processing in Python. 2020. https://doi.org/10.5281/zenodo.1212303

Nařízení Evropského parlamentu a Rady (EU) 2016/679 ze dne 27. dubna 2016 o ochraně fyzických osob v souvislosti se zpracováním osobních údajů a o volném pohybu těchto údajů a o zrušení směrnice 95/46/ES (obecné nařízení o ochraně osobních údajů) (Text s významem pro EHP)
https://eur-lex.europa.eu/legal-content/CS/TXT/?uri=CELEX:32016R0679