text size

Application of machine learning methods for estimating apartment prices in the Czech Republic

Notice: I hereby declare that I am aware that the information acquired from theses published by Charles University may not be used for commercial purposes or may not be published for educational, scientific or other creative activities as activities of person other than the author.
Title:
Application of machine learning methods for estimating apartment prices in the Czech Republic
Title (in czech):
Aplikace metod strojového učení pro odhad cen bytů v České republice
Type:
Diploma thesis
Author:
Bc. Jakub Nikodym
Supervisor:
PhDr. Ladislav Krištoufek, Ph.D.
Opponent:
PhDr. Jozef Baruník, Ph.D.
Thesis Id:
203087
Faculty:
Faculty of Social Sciences (FSV)
Department:
Institute of Economic Studies (23-IES)
Study programm:
Economics (N6201)
Study branch:
Economics and Finance (NEF)
Degree granted:
Mgr.
Defence date:
16/09/2019
Defence result:
Excellent (A)
Language:
English
Abstract (in czech):
Abstrakt V této diplomové práci navrhujeme alternativní způsoby hromadného oceňování bytů. Práce obohacuje současnou literaturu pomocí využití několika způsobů sběru dat a odhadu cen. Autor nemá vědomí o žádné práci, která by poskytla podobný přehled o českém trhu s nemovitostmi. Pomocí empirické analýzy aplikujeme pět různých metod (metoda nej- menších čtverců, regresní metoda lasso, rozhodovací strom, náhodné lesy a al- goritmus k-nejbližších sousedů) na datovou sadu 15 848 inzerátů. Cílem studie je najít nejpřesnější způsob odhadu cen, pomocí strukturovaných proměnných a dat extrahovaných z textu. K ověření výsledků používáme několik statistik přesnosti a grafickou analýzu. Metody obsahující rozhodovací stromy, konkrétně pak metoda náhodného lesa, dosahuje při předpovídání nabídkových cen ne- jvyšší přesnosti. Obsažení textových proměnných v lineárních modelech navíc způsobuje zmenšení chyb v odhadech. Poslední část analýzy zahrnuje porovnání determinantů cen nemovitosti v Praze a ve zbytku České republiky. Ukazujeme, že ceny v Praze lze odhadnout s vyšší přesností a s nižším počtem nezávislých proměnných.
Abstract:
Abstract In this thesis, we propose alternative ways to apartments’ mass appraisal. This work enriches the current literature by combining several techniques of data extraction and price estimation. We are not aware of any similar work providing an in-depth overview of the Czech apartment market. Throughout the empirical analysis, five different methods (OLS, LASSO, decision tree, random forests, and kNN) are applied to the dataset of 15,848 classifieds. The aim of the study is to find the most accurate method of esti- mating offering prices, using structured variables as well as data extracted by text mining. We use various accuracy statistics and graphical analysis to vali- date our results. Tree-based methods, specifically the random forest algorithm, results with the highest accuracy in predicting offering prices. Additionally, text-based variables included in the model cause the reduction of errors on linear models. The last part of the analysis covers the main determinants of property value in Prague and the rest of the Czech Republic. We show that prices in Prague can be estimated with higher preciseness and with the lower number of independent variables.
Documents
Download Document Author Type File size
Download Text of the thesis Bc. Jakub Nikodym 1.56 MB
Download Abstract in czech Bc. Jakub Nikodym 42 kB
Download Abstract in english Bc. Jakub Nikodym 42 kB
Download Supervisor's review PhDr. Ladislav Krištoufek, Ph.D. 181 kB
Download Opponent's review PhDr. Jozef Baruník, Ph.D. 131 kB
Download Defence's report prof. Ing. Michal Mejstřík, CSc. 152 kB