Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 368)
Detail práce
   Přihlásit přes CAS
Identifikace mluvčího v temporální doméně řeči
Název práce v češtině: Identifikace mluvčího v temporální doméně řeči
Název v anglickém jazyce: Speaker identification in the temporal domain of speech
Klíčová slova: forenzní fonetika, identifikace mluvčího, rytmus, tempo řeči, temporální charakteristiky
Klíčová slova anglicky: forensic phonetics, rhythm, speaker identification, speech rate, temporal characteristics
Akademický rok vypsání: 2011/2012
Typ práce: disertační práce
Jazyk práce: čeština
Ústav: Fonetický ústav (21-FU)
Vedoucí / školitel: prof. PhDr. Jan Volín, Ph.D.
Řešitel: skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení: 22.01.2013
Datum zadání: 22.01.2013
Schválení administrátorem: zatím neschvalováno
Datum potvrzení stud. oddělením: 17.04.2013
Datum a čas obhajoby: 27.05.2015 15:00
Datum odevzdání elektronické podoby:02.04.2015
Datum proběhlé obhajoby: 27.05.2015
Odevzdaná/finalizovaná: odevzdaná pracovníkem v zastoupení a finalizovaná
Oponenti: doc. Mgr. Radek Skarnitzl, Ph.D.
  doc. Ing. Petr Pollák, CSc.
 
 
Zásady pro vypracování
Studentka se zaměří na temporální doménu řeči a její možný příspěvek k rozpoznávání mluvčího. Do této oblasti spadají veškeré rysy týkající se uspořádání akustických událostí na časové ose, zejména trvání těchto událostí a rychlost jejich změn a v neposlední řadě také komplexní problematika rytmu. Naváže na diplomovou práci a bude dále zkoumat globální i lokální temporální rytmické ukazatele.
Dále prozkoumá také osobní vzorce temporálních redukcí hlásek, a to z různých pohledů – podle umístění v prozodické struktuře, podle hláskového okolí apod. Kontextuální podmíněnost trvání českých hlásek nebyla dosud zkoumána podrobněji, přestože její poznání je pro popis temporální struktury češtiny nezbytné. Pro popis individuálních odchylek od temporálního standardu bude nicméně nejprve nutné tento standard popsat. Úkolem doktorandky tedy bude vytvořit model temporálních vlastností češtiny, na jehož základě budou posléze zkoumány jeho modifikace jednotlivými mluvčími. K tomto účelu budou využity různé řečové korpusy, od vysoce kontrolované čtené řeči až po spontánní dialogy. V souladu s požadavky na současný empirický výzkum budou výsledky důsledně statisticky ověřovány.
Seznam odborné literatury
Abad, A. & Luque, J. (2010). Connectionist Transformation Network Features for Speaker Recognition. In Proc. Odyssey 2010.
Batůšek, R. (2002). A duration model for Czech text-to-speech synthesis. In Proceedings of Speech Prosody 2002, Aix-en-Provence, France.
Beigi, H. (2011). Fundamentals of Speaker Recognition.New York: Springer.
Crystal, T. H. & House, A. S. (1982). Segmental durations in connected speech signals: preliminary results. JASA, 72: 705–716.
De Leon, P. L., Pucher, M. & Yamagishi, J. (2010). Evaluation of the Vulnerability of Speaker Verification to Synthetic Speech. In Proc. Odyssey 2010.
Doddington, G. (1985). Speaker Recognition – Identifying People by their Voices. Proc. IEEE, 73: 1651-1664.
Doddington, G., Liggett, W., Martin, A., Przybocki, M. & Reynolds, D. (1998). Sheep, goats, lambs and wolves: A statistical analysis of speaker performance in the NIST 1998 speaker recognition evaluation. In ICSLP 98,Sydney,Australia.
Farrús, M. (2010). Prosody in Automatic Speaker Recognition Prosody in Automatic Speaker Recognition: Applications in Biometrics and Voice Imitation. Saarbrücken: VDM Verlag Dr. Müller.
Furui, S. (1994). An Overview of Speaker Recognition Technology. ESCA Workshop on Automatic Speaker Recognition, Identification and Verification, 1-9.
Hermansky, H. (1998). Should recognizers have ears? In Speech Communication, 25, 3-27.
Hermansky, H. & Sharma, S. (1998). TRAPS – Classifiers of Temporal Patterns. In ICSLP'98, Sydney, Australia.
Hermansky, H. & Sharma, S. (1999). Temporal Patterns (TRAPS) in ASR of Noisy Speech. In ICASSP'99, Phoenix, Arizona, USA.
Hollien, H. (2002). Forensic Voice Identification.London: Academic Press.
Klatt, D. H. (1976): Linguistic uses of segmental duration in English: Acoustic and perceptual evidence. JASA, 59, 5, 1208-1221.
Kua, J. M. K., Thiruvaran, T., Nosratighods, M., Ambikairajah, E. & Epps, J. (2010). Investigation of Spectral Centroid Magnitude and Frequency for Speaker Recognition. In Proc. Odyssey 2010.
Künzel, H. J. (1994). Current Approaches to Forensic Speaker Recognition. Tutorial paper, Proc. of ESCA workshop on Automatic Speaker Recognition, 135-141, Martigny (Switzerland).
Laver, J. (1980). The Phonetic Description of Voice Quality.Cambridge:CambridgeUniversity Press.
Low, E. L., Grabe, E. & Nolan, F. (2000). Quantitative Characterizations of Speech Rhythm: Syllable-Timing in SingaporeEnglish. Language & Speech, 43 (4), 377-401.
Nolan, F. (1983, reedice 2009). The phonetic bases of speaker recognition.Cambridge:CambridgeUniversity Press.
Ramus, F., Nespor, M. & Mehler, J. (1999). Correlates of linguistic rhythm in the speech signal. Cognition, 73 (3), 265-292.
Reynolds, D. A. (1997). Comparison of background normalization methods for text-independent speaker verification. In Proceedings of Eurospeech 1997.
Reynolds, D. A., Quatieri, T. F. & Dunn, R. B. (2000). Speaker verification using adapted gaussian mixture models, In Digital Signal Processing, 10, 1-3.
Reynolds, D. A. & Rose, R. C. (1995). Robust text-independent speaker identification using Gaussian mixture speaker models, IEEE Trans. Speech Audio Process. 3, 72–83.
Rose, R. C. & Reynolds, D. A. (1990). Text-independent speaker identification using automatic acoustic segmentation. In Proceedings of ICASSP, 293–296.
Sarkar, A. K., Umesh, S. & Rath, S. P. (2010). Computationally Efficient Speaker Identification for Large Population Tasks using MLLR and Sufficient Statistics. In Proc. Odyssey 2010.
Senoussaoui, M., Kenny, P., Dehak, N. & Dumouchel, P. (2010). An i-vector Extractor Suitable for Speaker Recognition with both Microphone and Telephone Speech. In Proc. Odyssey 2010.
Strik, H. (2005). Is phonetic knowledge of any use for speech technology? In B. Barry & W. van Dommelen (eds.), The Integration of Phonetic Knowledge in Speech Technology Series: Text, Speech and Language Technology, 25. Springer,Dordrecht.
Tanner, D. C. & Tanner, M. E. (2004). Forensic Aspects of Speech Patterns: Voice Prints, Speaker Profiling, Lie and Intoxication Detection.Tucson: Lawyers & Judges Publishing Company.
Umeda, N. (1975): Vowel duration in American English. JASA, 58:434–445.
Volín, J. & Skarnitzl, R. (2007). Temporal downtrends in Czech read speech. In: Proceedings of Interspeech 2007, 442-445. Antwerpen.
Volín, J. (2009). Metric warping in Czech newsreading. In: R. Vích (ed.), Speech Processing - 19th Czech-German Workshop, 52-55.
Zhang, W., Shan, Y. & Liu, J. (2010). Multiple Background Models for Speaker Verification. In Proc. Odyssey 2010.
 
Univerzita Karlova | Informační systém UK