PředmětyPředměty(verze: 945)
Předmět, akademický rok 2023/2024
   Přihlásit přes CAS
Workshop Sestav si svůj korpus: anotace a prohledávání mluvených dat pomocí programu ELAN - ALINV907B (Lingvistika Praha 2015)
Anglický název: Workshop Create your own corpus: annotation and search of spoken data with ELAN
Zajišťuje: Ústav obecné lingvistiky (21-ULING)
Fakulta: Filozofická fakulta
Platnost: od 2016
Semestr: zimní
Body: 0
E-Kredity: 1
Způsob provedení zkoušky: zimní s.:
Rozsah, examinace: zimní s.:0/4, Z [HS]
Počet míst: neurčen / neurčen (17)
Minimální obsazenost: neomezen
4EU+: ne
Virtuální mobilita / počet míst pro virtuální mobilitu: ne
Kompetence:  
Stav předmětu: nevyučován
Jazyk výuky: čeština
Způsob výuky: prezenční
Způsob výuky: prezenční
Úroveň:  
Další informace: http://lingvistikapraha.ff.cuni.cz
Garant: Mgr. Magdalena Králová Zíková, Ph.D.
Mgr. Jan Křivan, Ph.D.
Rozvrh   Nástěnka   
Anotace
Poslední úprava: KRIVJ1AF (12.10.2015)
Konference Lingvistika Praha 2015 se koná ve dnech 22. až 24. října 2015. Srdečně vás zveme na celý program
konference.

Plenární přednášky a tematické sekce jsou studentům volně přístupné. Na workshopy je vždy třeba se
zaregistrovat pomocí webu na adrese http://lingvistikapraha.ff.cuni.cz.

Studentům navíc umožňujeme, aby si jednotlivé workshopy zapsali v SIS jako volitelný předmět (viz podmínky
atestace). Pro účast na workshopu ale není registrace v SIS nutná.

V rámci workshopů LP 2015 si studenti osvojí praktické technické a metodologické dovednosti potřebné pro
empirický lingvistický výzkum a analýzu jazykových dat obecně. Účastníci pracují individuálně nebo ve skupinách
na plnění zadaných úkolů a společně s vedoucím workshopu procházejí jednotlivé kroky analýzy. K účasti na
workshopech nejsou vyžadovány žádné předběžné znalosti.
Podmínky zakončení předmětu
Poslední úprava: KRIVJ1AF (12.10.2015)
  • aktivní účast (alespoň jedna otázka či komentář)
  • vyplněný pracovní list
  • soubor s přepisem, který během workshopu společně vyhotovíme (či dodatečně, nebudete-li mít s sebou laptop)

Sylabus
Poslední úprava: KRIVJ1AF (12.10.2015)

Čeština disponuje několika velkými veřejně dostupnými mluvenými korpusy, např. řadou ORAL či korpusy DIALOG a MONOLOG, které se snaží pokrýt různé body na škále variet mluveného jazyka. Jeho situační a sociolingvistická rozrůzněnost je ovšem tak veliká, že není těžké narazit na jevy, u nichž nám jazyková intuice sice našeptává, že jsou v jistém ohledu typické a zasluhují bližší popis, ale kvůli povaze sběru dat, situačním či regionálním omezením jsou v dostupných korpusech zastoupeny pouze marginálně či rovnou vůbec. Chce-li je tedy lingvista empiricky zkoumat, nezbývá mu, než si data se zacílením na příslušnou výzkumnou otázku nasbírat sám.

Naštěstí existují různé volně dostupné softwarové nástroje určené k tomu, aby nám jak s transkripcí (tj. přímým přepisem promluvy), tak s anotací (tj. doplněním lingvistických informací nad rámec přepisu) a analýzou (prohledáváním) mluvených dat pomohly. Kromě programů jako je Praat, ANVIL nebo EXMARaLDA patří mezi nejpopulárnější a nejintuitivnější ELAN (EUDICO Linguistic Annotator). ELAN umožňuje anotaci zvukových a video souborů (i několika zároveň) a primárně je zacílen na výzkum multimodální komunikace (gestika, mimika, proxemika…), ale stejně dobře jde použít i pro výzkum v tradičnějších lingvistických disciplínách (morfologie, syntax). Výstupní soubory odpovídají standardu XML, což ulehčuje případnou další práci s nimi v jiných programech, ovšem již sám ELAN obsahuje pokročilé nástroje k prohledávání více souborů najednou a funguje tedy i jako konkordancer.

Cílem workshopu bude nastínit typický postup práce v ELANu od sběru dat přes jejich přepis až po analýzu. Důraz bude kladen především na úskalí při volbě způsobu transkripce mluveného jazyka a možnosti jeho další (para)lingvistické anotace. Postupně si projdeme:

jak vzorky mluveného jazyka získat (jak nahrát sondu);

jak zvuk naimportovat do ELANu a založit přepis;

jak postupovat při přepisu, ať už koncepčně (sestavení transkripčního a anotačního schématu s ohledem na výzkumnou otázku) či metodologicky (samotný akt přepisování);

jak výsledná data v případě potřeby hromadně upravovat a korpus prohledávat.

Pokud možno, vezměte si s sebou prosím vlastní notebook, abyste si vše mohli na místě vyzkoušet.

Literatura

k programu ELAN

uživatelská příručka: http://www.mpi.nl/corpus/manuals/manual-elan_ug.pdf

plný manuál: http://www.mpi.nl/corpus/manuals/manual-elan.pdf

ke specifikům mluveného jazyka a výzkumným otázkám, které se s nimi pojí:

Adolphs, S. (2008): Corpus and context: investigating pragmatic functions in spoken discourse. Amsterdam: John Benjamins.

Auer, P. (2009): On-line syntax: Thoughts on the temporality of spoken language. Language Sciences, 31, 1-13.

Hoffmannová, J., Čmejrková a S., eds. (2011): Mluvená čeština. Praha: Academia.

Kopřivová, M. a Waclawičová, M., eds. (2008): Čeština v mluveném korpusu. Praha: Nakladatelství Lidové noviny.

Miller, J. a Weinert, R. (1998): Spontaneous Spoken Language: Syntax and Discourse. Oxford: Clarendon Press.

Müllerová, O., Hoffmannová, J. a Schneiderová, E. (1991): Mluvená čeština v autentických textech. Praha: H&H.

 
Univerzita Karlova | Informační systém UK