Thesis (Selection of subject)Thesis (Selection of subject)(version: 368)
Thesis details
   Login via CAS
Pseudonymizace textových datových kolekcí pro strojové učení
Thesis title in Czech: Pseudonymizace textových datových kolekcí pro strojové učení
Thesis title in English: De-identification of text data collections for machine learning
Key words: pseudonymizace|textový dataset|osobní údaje|GDPR|pojmenované entity|webový nástroj
English key words: pseudonymization|text dataset|personal data|GDPR|named entities|web-based tool
Academic year of topic announcement: 2020/2021
Thesis type: diploma thesis
Thesis language: čeština
Department: Institute of Formal and Applied Linguistics (32-UFAL)
Supervisor: doc. RNDr. Ondřej Bojar, Ph.D.
Author: hidden - assigned and confirmed by the Study Dept.
Date of registration: 06.04.2021
Date of assignment: 06.04.2021
Confirmed by Study dept. on: 15.04.2021
Date and time of defence: 02.09.2021 09:00
Date of electronic submission:22.07.2021
Date of submission of printed version:22.07.2021
Date of proceeded defence: 02.09.2021
Opponents: doc. Mgr. Martin Nečaský, Ph.D.
 
 
 
Guidelines
Digitální ukládání dokumentů vytváří prostor pro nové úlohy v rámci strojového zpracování textových datasetů. Tyto datasety ale bohužel nebývají často veřejně dostupné z důvodu ochrany osobních údajů.

Cílem práce je vytvořit nástroj, který usnadní pseudonymizaci, tj. odstraňování citlivých údajů z textových datasetů. Nástroj by měl využívat vhodné jazykové nástroje pro předanotaci a v maximální možné míře usnadňovat a urychlovat následnou ruční práci, při níž anotátor provede finální rozhodnutí. Nedílnou součástí práce je empirické vyhodnocení několika dostupných jazykových nástrojů pro předanotaci.

Vzhledem k tomu, že zdrojové kolekce dat nesmějí před pseudonymizací opustit pracoviště vlastníka dat, měl by nástroj být snadno spustitelný přímo na infrastruktuře vlastníka dat. Anotátor by pak měl mít možnost pracovat i vzdáleně, přičemž kromě standardního šifrování je žádoucí chránit kolekci dat např. tím, že anotátor nikdy nebude mít přístup k celým dokumentům, ale jen ke kontextu nutnému pro rozhodnutí o pseudonymizaci. Dále je vhodné předpokládat, že anotátorů může být více.

Jako vhodná rozšíření práce se jeví automatická podpora při ztotožňování pojmenovaných entit, tj. při rozhodování, zda řetězec stejného nebo podobného tvaru v textu zastupuje tutéž entitu, generování zástupných pojmenovaných entit (Jan Novák) místo citlivých části textu tak, aby plynulost textu nebyla poškozena.

Výsledný nástroj by měl být jazykově nezávislý, s ohledem na podporu konkrétních jazyků použitými jazykovými nástroji. V rámci diplomové práce se experimenty omezí na češtinu a angličtinu, podle dostupnosti datových kolekcí.

V rámci analýzy je vhodné též uvést čtenáře orientačně do právní problematiky pseudonymizace, tj. jaké požadavky má na zveřejňování datasetů české právo a do jaké míry navržený nástroj a anotační postup tyto požadavky pomáhají splnit.
References
Straková Jana, Straka Milan, Hajič Jan: Neural Architectures for Nested NER through Linearization. In: Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, Copyright © Association for Computational Linguistics, Stroudsburg, PA, USA, ISBN 978-1-950737-48-2, pp. 5326-5331, 2019.

Straková Jana, Straka Milan and Hajič Jan. Open-Source Tools for Morphology, Lemmatization, POS Tagging and Named Entity Recognition. In Proceedings of 52nd Annual Meeting of the Association for Computational Linguistics: System Demonstrations, pages 13-18, Baltimore, Maryland, June 2014. Association for Computational Linguistics.

Jenny Rose Finkel, Trond Grenager, and Christopher Manning. 2005. Incorporating Non-local Information into Information Extraction Systems by Gibbs Sampling. Proceedings of the 43nd Annual Meeting of the Association for Computational Linguistics (ACL 2005), pp. 363-370. http://nlp.stanford.edu/~manning/papers/gibbscrf3.pdf

Honnibal, Matthew and Montani, Ines and Van Landeghem, Sofie and Boyd, Adriane. spaCy: Industrial-strength Natural Language Processing in Python. 2020. https://doi.org/10.5281/zenodo.1212303

Nařízení Evropského parlamentu a Rady (EU) 2016/679 ze dne 27. dubna 2016 o ochraně fyzických osob v souvislosti se zpracováním osobních údajů a o volném pohybu těchto údajů a o zrušení směrnice 95/46/ES (obecné nařízení o ochraně osobních údajů) (Text s významem pro EHP)
https://eur-lex.europa.eu/legal-content/CS/TXT/?uri=CELEX:32016R0679
 
Charles University | Information system of Charles University | http://www.cuni.cz/UKEN-329.html