Kurz je zaměřen na praktické aspekty zpracování a přípravy dat v oblasti Digital Humanities. Kurz je určen pro studenty všech humanitních oborů, byť postupy a materiály použité v kurzu vycházejí především z potřeb lingvistů a historiků.<br>
Účast v kurzu vyžaduje základní dovednosti v oblasti IT, není ale nutná žádná předchozí zkušenost s nástroji či postupy využívanými v kurzu.<br>
<br>
Jednotlivé hodiny obvykle začínají krátkým uvedením zpravidla online a veřejně dostupného zdroje dat, způsobu jeho využití, možnostmi, jak z něj získat data a pokračuje nástroji i technikami užitečnými pro zpracování získaných dat tak, aby je bylo možné dále analyzovat. Na závěr hodiny může dojít i na ukázky různých analýz, analýza ale není posláním tohoto kurzu. Studenti, kteří se chtějí seznámit s datově analytickými metodami doporučujeme např. kurzy Statistics (not only with R) for corpus and quantitative linguistics (AMLV00046), English Diachronic Corpora (AAA500147) apod.<br>
<br>
Nástroje, jejichž využití se v kurzu vyučuje, jsou např. textové editory s pokročilou implementací regulérních výrazů (JEdit, EditPad), XML editory (JEdit or oXygen), tabulkové procesory (Microsoft Excel), relační databáze (MS Excel PowerPivot, MySQL), programovací jazyky vhodné k práci s textovými daty (Perl, Python, R) atp. Konkrétní nástroje a techniky závisí na přáních a potřebách studentů v daném semestru (neváhejte přijít s vlastními projekty).
Poslední úprava: Tichý Ondřej, Mgr., Ph.D. (28.09.2019)
The course will focus on practical aspects of data processing and preparation in Digital Humanities and is aimed at students of humanities in general, although most of the techniques and example material will reflect the usual needs of linguists or historians. The prospective students should have basic IT skills, but no previous experience with methods or apps used in the course is required.<br>
<br>
The classes will usually start with a short introduction of an (usually) online and (usually) publicly available data source, the method of its mining and continues with the tools and techniques allowing its users to exploit the mined data for further analysis. The class may end with examples of such analyses, but those are not the focus of the course. Students looking for data analysis courses may consider e.g. Statistics (not only with R) for corpus and quantitative linguistics (AMLV00046), English Diachronic Corpora (AAA500147) etc.<br>
<br>
The tools students will train with may include (but are not limited to): text editors with advanced RegExp capabilities (e.g. JEdit, EditPad), XML editors and processors (JEdit or oXygen), spreadsheet processor (Microsoft Excel), relational databases (MS Excel PowerPivot, MySQL), programming languages for text processing (Perl, Python, R) etc. The choice of the actual tools and techniques depends on the class composition, student interests and needs (feel free to bring in your own projects).<br>
<br>
<br>
Poslední úprava: Tichý Ondřej, Mgr., Ph.D. (28.09.2019)
Podmínky zakončení předmětu -
Pravidelná účast (max. 3 absence za semestr) a aktivní práce v seminářích. Závěrečný praktický test zpracování dat.
Účast je povinná, povoleny jsou dvě absence za semestr. Větší počet absencí v průběhu pandemických opatření musí být nahrazen prací navíc individuálně zadávanou vyučujícím.
Poslední úprava: Brůhová Gabriela, PhDr., Ph.D. (25.09.2020)
Credit is awarded for regular attendance (no more than 3 missed classes per semester), activity in class and for passing a final practical exercise in data processing.
Attendance is compulsory, max 3 absences per semester are allowed. Any additional absence during the pandemic must be remedied by additional work by individual arrangement with the course instructor.
Poslední úprava: Brůhová Gabriela, PhDr., Ph.D. (25.09.2020)