Pseudonymizace textových datových kolekcí pro strojové učení
Thesis title in Czech: | Pseudonymizace textových datových kolekcí pro strojové učení |
---|---|
Thesis title in English: | De-identification of text data collections for machine learning |
Key words: | pseudonymizace|textový dataset|osobní údaje|GDPR|pojmenované entity|webový nástroj |
English key words: | pseudonymization|text dataset|personal data|GDPR|named entities|web-based tool |
Academic year of topic announcement: | 2020/2021 |
Thesis type: | diploma thesis |
Thesis language: | čeština |
Department: | Institute of Formal and Applied Linguistics (32-UFAL) |
Supervisor: | doc. RNDr. Ondřej Bojar, Ph.D. |
Author: | hidden - assigned and confirmed by the Study Dept. |
Date of registration: | 06.04.2021 |
Date of assignment: | 06.04.2021 |
Confirmed by Study dept. on: | 15.04.2021 |
Date and time of defence: | 02.09.2021 09:00 |
Date of electronic submission: | 22.07.2021 |
Date of submission of printed version: | 22.07.2021 |
Date of proceeded defence: | 02.09.2021 |
Opponents: | doc. Mgr. Martin Nečaský, Ph.D. |
Guidelines |
Digitální ukládání dokumentů vytváří prostor pro nové úlohy v rámci strojového zpracování textových datasetů. Tyto datasety ale bohužel nebývají často veřejně dostupné z důvodu ochrany osobních údajů.
Cílem práce je vytvořit nástroj, který usnadní pseudonymizaci, tj. odstraňování citlivých údajů z textových datasetů. Nástroj by měl využívat vhodné jazykové nástroje pro předanotaci a v maximální možné míře usnadňovat a urychlovat následnou ruční práci, při níž anotátor provede finální rozhodnutí. Nedílnou součástí práce je empirické vyhodnocení několika dostupných jazykových nástrojů pro předanotaci. Vzhledem k tomu, že zdrojové kolekce dat nesmějí před pseudonymizací opustit pracoviště vlastníka dat, měl by nástroj být snadno spustitelný přímo na infrastruktuře vlastníka dat. Anotátor by pak měl mít možnost pracovat i vzdáleně, přičemž kromě standardního šifrování je žádoucí chránit kolekci dat např. tím, že anotátor nikdy nebude mít přístup k celým dokumentům, ale jen ke kontextu nutnému pro rozhodnutí o pseudonymizaci. Dále je vhodné předpokládat, že anotátorů může být více. Jako vhodná rozšíření práce se jeví automatická podpora při ztotožňování pojmenovaných entit, tj. při rozhodování, zda řetězec stejného nebo podobného tvaru v textu zastupuje tutéž entitu, generování zástupných pojmenovaných entit (Jan Novák) místo citlivých části textu tak, aby plynulost textu nebyla poškozena. Výsledný nástroj by měl být jazykově nezávislý, s ohledem na podporu konkrétních jazyků použitými jazykovými nástroji. V rámci diplomové práce se experimenty omezí na češtinu a angličtinu, podle dostupnosti datových kolekcí. V rámci analýzy je vhodné též uvést čtenáře orientačně do právní problematiky pseudonymizace, tj. jaké požadavky má na zveřejňování datasetů české právo a do jaké míry navržený nástroj a anotační postup tyto požadavky pomáhají splnit. |
References |
Straková Jana, Straka Milan, Hajič Jan: Neural Architectures for Nested NER through Linearization. In: Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, Copyright © Association for Computational Linguistics, Stroudsburg, PA, USA, ISBN 978-1-950737-48-2, pp. 5326-5331, 2019.
Straková Jana, Straka Milan and Hajič Jan. Open-Source Tools for Morphology, Lemmatization, POS Tagging and Named Entity Recognition. In Proceedings of 52nd Annual Meeting of the Association for Computational Linguistics: System Demonstrations, pages 13-18, Baltimore, Maryland, June 2014. Association for Computational Linguistics. Jenny Rose Finkel, Trond Grenager, and Christopher Manning. 2005. Incorporating Non-local Information into Information Extraction Systems by Gibbs Sampling. Proceedings of the 43nd Annual Meeting of the Association for Computational Linguistics (ACL 2005), pp. 363-370. http://nlp.stanford.edu/~manning/papers/gibbscrf3.pdf Honnibal, Matthew and Montani, Ines and Van Landeghem, Sofie and Boyd, Adriane. spaCy: Industrial-strength Natural Language Processing in Python. 2020. https://doi.org/10.5281/zenodo.1212303 Nařízení Evropského parlamentu a Rady (EU) 2016/679 ze dne 27. dubna 2016 o ochraně fyzických osob v souvislosti se zpracováním osobních údajů a o volném pohybu těchto údajů a o zrušení směrnice 95/46/ES (obecné nařízení o ochraně osobních údajů) (Text s významem pro EHP) https://eur-lex.europa.eu/legal-content/CS/TXT/?uri=CELEX:32016R0679 |