Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 368)
Detail práce
   Přihlásit přes CAS
Sequential analysis of transaction data
Název práce v češtině: Sekvenční analýza transakčních dat
Název v anglickém jazyce: Sequential analysis of transaction data
Klíčová slova: bankovní transakce|sekvenční analýza|hluboké učení|rekurentní neuronové sítě
Klíčová slova anglicky: banking transactions|sequential analysis|deep learning|recurrent neural networks
Akademický rok vypsání: 2020/2021
Typ práce: diplomová práce
Jazyk práce: angličtina
Ústav: Katedra softwaru a výuky informatiky (32-KSVI)
Vedoucí / školitel: RNDr. Jan Blažek, Ph.D.
Řešitel: skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení: 26.10.2020
Datum zadání: 24.11.2020
Datum potvrzení stud. oddělením: 09.12.2020
Datum a čas obhajoby: 07.09.2022 09:00
Datum odevzdání elektronické podoby:20.07.2022
Datum odevzdání tištěné podoby:25.07.2022
Datum proběhlé obhajoby: 07.09.2022
Oponenti: Mgr. Marta Vomlelová, Ph.D.
 
 
 
Konzultanti: Mgr. Petr Paščenko
Zásady pro vypracování
Banking transactions on the current account generate a stream of events described by the flag vector (direction, counterparty, type, amount, etc.). Sequence data are generally difficult to process by machine learning methods. The usual way of statistical preprocessing of this data is simple aggregations in time sections (average monthly income, the share of payments made by card, etc.). This work aims to explore the possibility of using advanced machine learning algorithms, especially recurrent neural networks and neural embedding, to obtain additional symptoms describing the state and development of the client over time.

The student will examine existing methods for converting sequence data into Cartesian space based on embedding and compare them. By concerning the possibility of interpreting the development of client behavior over time, the student identifies commercially usable events (e.g. vacation, apartment renovation, purchase, or sale of a car, etc.).

Based on the obtained events, the student compiles a predictive model and tests the detected events for the prediction of selected target variables (the client takes/cancels a product, the client leaves the bank, etc.).
Seznam odborné literatury
[1] Ian Goodfellow, Yoshua Bengio, and Aaron Courville. 2016. Deep Learning. The MIT Press.

[2] Zachary C. Lipton, John Berkowitz, Charles Elkan. A Critical Review of Recurrent Neural Networks for Sequence Learning. 2015. arXiv:1506.00019v4

[3] Quoc V. Le and Tomas Mikolov. Distributed Representations of Sentences and Documents. 2014. arXiv:1405.4053

[4] Ilya Sutskever, Oriol Vilnayals and Quoc V. Le. Sequence to Sequence Learning with Neural Networks. Electronic Proceedings of the Neural Information Processing Systems Conference

[5] Nguyen D., Luo W., Nguyen T.D., Venkatesh S., Phung D. (2019) Sqn2Vec: Learning Sequence Representation via Sequential Patterns with a Gap Constraint. In: Berlingerio M., Bonchi F., Gärtner T., Hurley N., Ifrim G. (eds) Machine Learning and Knowledge Discovery in Databases. ECML PKDD 2018. Lecture Notes in Computer Science, vol 11052. Springer, Cham. https://doi.org/10.1007/978-3-030-10928-8_34

[6] Zhongfang Zhuang, Xiangnan Kong, Elke Rundensteiner, Jihane Zouaoui, Aditya Arora. Attributed Sequence Embedding. 2019. arXiv:1911.00949

[7] Ilya Sutskever, Oriol Vinyals, and Quoc V. Le. 2014. Sequence to sequence learning with neural networks. In Proceedings of the 27th International Conference on Neural Information Processing Systems - Volume 2 (NIPS'14). MIT Press, Cambridge, MA, USA, 3104–3112.
Předběžná náplň práce
Bankovní transakce na běžném účtu vytvářejí proud událostí popsaných vektorem příznaků (směr, protistrana, typ, částka atd.). Sekvenční data jsou obecně obtížně zpracovatelná metodami strojového učení. Obvyklým způsobem statistického předzpracování těchto dat jsou prosté agregace v časových řezech (průměrný měsíční příjem, podíl plateb provedených kartou, atd.). Cílem práce je prozkoumat možnost využití pokročilých algoritmů strojového učení, zejména rekurentních neuronových sítí a neuronových embeddingů pro získání dodatečných příznaků popisujících stav a vývoj klienta v čase.
Předběžná náplň práce v anglickém jazyce
Banking transactions on the current account generate a stream of events described by the flag vector (direction, counterparty, type, amount, etc.). Sequence data are generally difficult to process by machine learning methods. The usual way of statistical preprocessing of this data is simple aggregations in time sections (average monthly income, the share of payments made by card, etc.). This work aims to explore the possibility of using advanced machine learning algorithms, especially recurrent neural networks and neural embedding, to obtain additional symptoms describing the state and development of the client over time.
 
Univerzita Karlova | Informační systém UK