Sequential analysis of transaction data
Název práce v češtině: | Sekvenční analýza transakčních dat |
---|---|
Název v anglickém jazyce: | Sequential analysis of transaction data |
Klíčová slova: | bankovní transakce|sekvenční analýza|hluboké učení|rekurentní neuronové sítě |
Klíčová slova anglicky: | banking transactions|sequential analysis|deep learning|recurrent neural networks |
Akademický rok vypsání: | 2020/2021 |
Typ práce: | diplomová práce |
Jazyk práce: | angličtina |
Ústav: | Katedra softwaru a výuky informatiky (32-KSVI) |
Vedoucí / školitel: | RNDr. Jan Blažek, Ph.D. |
Řešitel: | skrytý - zadáno a potvrzeno stud. odd. |
Datum přihlášení: | 26.10.2020 |
Datum zadání: | 24.11.2020 |
Datum potvrzení stud. oddělením: | 09.12.2020 |
Datum a čas obhajoby: | 07.09.2022 09:00 |
Datum odevzdání elektronické podoby: | 20.07.2022 |
Datum odevzdání tištěné podoby: | 25.07.2022 |
Datum proběhlé obhajoby: | 07.09.2022 |
Oponenti: | Mgr. Marta Vomlelová, Ph.D. |
Konzultanti: | Mgr. Petr Paščenko |
Zásady pro vypracování |
Banking transactions on the current account generate a stream of events described by the flag vector (direction, counterparty, type, amount, etc.). Sequence data are generally difficult to process by machine learning methods. The usual way of statistical preprocessing of this data is simple aggregations in time sections (average monthly income, the share of payments made by card, etc.). This work aims to explore the possibility of using advanced machine learning algorithms, especially recurrent neural networks and neural embedding, to obtain additional symptoms describing the state and development of the client over time.
The student will examine existing methods for converting sequence data into Cartesian space based on embedding and compare them. By concerning the possibility of interpreting the development of client behavior over time, the student identifies commercially usable events (e.g. vacation, apartment renovation, purchase, or sale of a car, etc.). Based on the obtained events, the student compiles a predictive model and tests the detected events for the prediction of selected target variables (the client takes/cancels a product, the client leaves the bank, etc.). |
Seznam odborné literatury |
[1] Ian Goodfellow, Yoshua Bengio, and Aaron Courville. 2016. Deep Learning. The MIT Press.
[2] Zachary C. Lipton, John Berkowitz, Charles Elkan. A Critical Review of Recurrent Neural Networks for Sequence Learning. 2015. arXiv:1506.00019v4 [3] Quoc V. Le and Tomas Mikolov. Distributed Representations of Sentences and Documents. 2014. arXiv:1405.4053 [4] Ilya Sutskever, Oriol Vilnayals and Quoc V. Le. Sequence to Sequence Learning with Neural Networks. Electronic Proceedings of the Neural Information Processing Systems Conference [5] Nguyen D., Luo W., Nguyen T.D., Venkatesh S., Phung D. (2019) Sqn2Vec: Learning Sequence Representation via Sequential Patterns with a Gap Constraint. In: Berlingerio M., Bonchi F., Gärtner T., Hurley N., Ifrim G. (eds) Machine Learning and Knowledge Discovery in Databases. ECML PKDD 2018. Lecture Notes in Computer Science, vol 11052. Springer, Cham. https://doi.org/10.1007/978-3-030-10928-8_34 [6] Zhongfang Zhuang, Xiangnan Kong, Elke Rundensteiner, Jihane Zouaoui, Aditya Arora. Attributed Sequence Embedding. 2019. arXiv:1911.00949 [7] Ilya Sutskever, Oriol Vinyals, and Quoc V. Le. 2014. Sequence to sequence learning with neural networks. In Proceedings of the 27th International Conference on Neural Information Processing Systems - Volume 2 (NIPS'14). MIT Press, Cambridge, MA, USA, 3104–3112. |
Předběžná náplň práce |
Bankovní transakce na běžném účtu vytvářejí proud událostí popsaných vektorem příznaků (směr, protistrana, typ, částka atd.). Sekvenční data jsou obecně obtížně zpracovatelná metodami strojového učení. Obvyklým způsobem statistického předzpracování těchto dat jsou prosté agregace v časových řezech (průměrný měsíční příjem, podíl plateb provedených kartou, atd.). Cílem práce je prozkoumat možnost využití pokročilých algoritmů strojového učení, zejména rekurentních neuronových sítí a neuronových embeddingů pro získání dodatečných příznaků popisujících stav a vývoj klienta v čase. |
Předběžná náplň práce v anglickém jazyce |
Banking transactions on the current account generate a stream of events described by the flag vector (direction, counterparty, type, amount, etc.). Sequence data are generally difficult to process by machine learning methods. The usual way of statistical preprocessing of this data is simple aggregations in time sections (average monthly income, the share of payments made by card, etc.). This work aims to explore the possibility of using advanced machine learning algorithms, especially recurrent neural networks and neural embedding, to obtain additional symptoms describing the state and development of the client over time. |