Cílem práce je vytvořit program, který lékařským zprávám přiřadí diagnozu, resp. diagnozy (ICD-10) pomocí metod strojového učení na základě trénovacích dat. Hlavním problémem bude najít množinu charakteristik textu, jako například výskyt určitých slov či frází, umožňující klasifikačnímu (nebo rankovacímu) algoritmu přiřadit správnou diagnozu. Součástí práce bude i předzpracování textu, například oprava překlepů, rozvinutí zkratek, lemmatizace, atd.
Seznam odborné literatury
- Manning & Schutze (1999): Foundations of Statistical Natural Language Processing
- Pestian et al (2007): A shared task involving multi-label classification of clinical free text
Předběžná náplň práce v anglickém jazyce
The goal of the thesis is to create an application assigning diagnosis codes (ICD-10) to free-text medical reports. It should be implemented in the machine learning paradigm: using labeled training data, the program would learn to assign/rank possible diagnoses to a report on the basis of features of the text (e.g. presence of particular words or phrases). The reports will need preprocessing, e.g. spelling correction, abbreviation expansion, lemmatization, etc.