Archívy Nezaradené - Stránka 2 z 2

Úvod

V tomto blogovom príspevku prejdem procesom prípravy a tvorby ML modelu, ktorý bude na základe vložených parametrov predikovať cenu bytu. Dáta boli vopred nachystané, ich čistenie a manipuláciu si môžete pozrieť v tomto článku.

Explainable ML

V rámci strojového učenia predstavuje koncept “explainable/interpretable ML” (vysvetliteľné strojové učenie) kľúčový posun smerom k transparentnosti a interpretovateľnosti modelov. Napriek tomu, že modely ako XGBoost ponúkajú výnimočnú prediktívnu silu, ich interné rozhodovacie procesy môžu byť zložité a nejasné, a teda môžu byť tiež vnímané ako “black box”, čo znamená, že nie je ľahké pochopiť, ako sa k predikciám dospelo. Toto vnímanie komplikuje dôveru a akceptáciu modelov v kritických aplikáciách, kde je potrebné pochopenie dôvodov za predikciami.

Vysvetliteľné strojové učenie sa snaží preklenúť túto priepasť poskytujúc nástroje a metódy na objasnenie, ako modely dospeli k svojim rozhodnutiam. Knižnice ako “vip” v jazyku R a metódy ako SHAP (Shapley Additive exPlanations) hodnoty umožňujú analytikom a vývojárom lepšie pochopiť príspevky jednotlivých funkcií k výslednému predikovanému výstupu. Táto schopnosť detailne rozložiť predikčný proces umožňuje nielen hlbšiu analýzu a optimalizáciu modelov, ale tiež zvyšuje transparentnosť a dôveru zo strany koncových užívateľov.

Vysvetliteľné strojové učenie. Zdroj: Lundberg, Scott & Erion, Gabriel & Chen, Hugh & DeGrave, Alex & Prutkin, Jordan & Nair, Bala & Katz, Ronit & Himmelfarb, Jonathan & Bansal, Nisha & Lee, Su-In. (2019). Explainable AI for Trees: From Local Explanations to Global Understanding.

Dôležitosť explainable/interpretable ML naberá na váhe najmä v sektoroch, kde sú dôsledky rozhodnutí založených na predikciách modelu vysoké, ako sú zdravotníctvo, financie alebo právo. V týchto oblastiach je kľúčové, aby boli modely nielen presné, ale aj ich rozhodnutia pochopiteľné a spravodlivé. Vysvetliteľné strojové učenie tak stojí v centre úsilia o vytvorenie technológií, ktoré sú nielen inteligentné, ale aj zrozumiteľné a etické.

Výborná kniha na túto tému je napríklad Interpretable Machine Learning: A Guide For Making Black Box Models Explainable, ktorá je veľmi zrorumiteľne napísaná a obsahuje aj odkazy na knižnice v R aj Pythone. Navyše je dostupná aj online. Náročnejšia publikácia je potom Explainable AI for Trees: From Local Explanations to Global Understanding, ktorá ide viac do detailu a “matematiky” na pozadí.

Načítanie knižníc a dát

Klasicky začíname s načítaním knižníc. Aj tento krát použijeme tidyverse – súbor knižníc navrhnutých na prácu s dátami v R, ktorý zahŕňa napr. ggplot2 pre vizualizáciu, dplyr pre manipuláciu s dátami, tidyr pre úpravu tvaru dát, a iné. Opäť sa objavuje knižnica sf, keďže dáta obsahujú priestorové objekty. Novikou v tomto blogu je tidymodels. Je to framework pre modelovanie a strojové učenie, ktorý poskytuje koherentnú súpravu knižníc na predspracovanie dát, rozdelenie dát, cross-validáciu, výber modelu atď. Je navrhnutý tak, aby bol v súlade s princípmi tidyverse a umožňoval ľahkú integráciu s inými nástrojmi z tohto ekosystému. Dve nasledujúce knižnice pomáhajú s konceptom “explainable/interpretable ML”. Knižnica vip je určená na vizualizáciu dôležitosti premenných v rôznych modeloch strojového učenia. Umožňuje ľahko identifikovať, ktoré premenné majú najväčší vplyv na predikcie modelu, čo je kľúčové pre interpretáciu modelu a pochopenie dát. Knižnica shapviz je špecificky navrhnutá na výpočet a vizualizáciu SHAP hodnôt pre modely vytvorené pomocou XGBoost v R. SHAP hodnoty poskytujú podrobné vysvetlenie predikcií modelu na úrovni jednotlivých pozorovaní, čo pomáha v interpretácii “black box” modelov. Umožnujú pochopiť, ako dôležité sú premenné v rámci modelu. doParallel slúži na paralelné výpočty, a teda skrátenie času trénovania modelu. Posledná knižnica extrafont slúži na načítanie fontov inštalovaných na Windows-e.

Knižnice

# import libraries
if (!require("pacman")) {
  install.packages("pacman")
}

pacman::p_load(
  tidyverse,
  sf, # data contain geometry
  tidymodels,
  vip,
  shapviz,
  doParallel,
  extrafont,
  vetiver,
  xgboost
)

loadfonts(device = "win")
options(scipen = 999)

unregister_dopar <- function() {
  env <- foreach:::.foreachGlobals
  rm(list = ls(name = env), pos = env)
}

Dáta

# import data
original_conditions <- c(
  "Pôvodný stav", "Čiastočná rekonštrukcia", "Kompletná rekonštrukcia",
  "Novostavba", "Vo výstavbe", "Developerský projekt"
)
english_conditions <- c(
  "Original condition", "Partial reconstruction", "Complete reconstruction",
  "New building", "Under construction", "Development project"
)

original_type <- c("3 izbový byt", "1 izbový byt", "2 izbový byt", "4 izbový byt", "Garsónka", "5 a viac izbový byt", "Dvojgarsónka")
english_type <- c("3-room apartment", "1-room apartment", "2-room apartment", "4-room apartment", "Studio", "5 or more room apartment", "Two-room apartment")

apartments_analysis_data <- readRDS("data/apartments_final_data.rds") |>
  filter(!is.na(price)) |>
  mutate(
    coord = st_coordinates(st_centroid(geometry)),
    lon = coord[, 1],
    lat = coord[, 2],
    type = str_replace_na(recode(type, !!!setNames(original_type, english_type)),"Neznáme"),
    condition = str_replace_na(recode(condition, !!!setNames(original_conditions, english_conditions)),"Neznáme"),
    certificate = str_replace_na(str_replace(certificate, "none", "Nemá"), "Neznáme")
  ) |>
  select(-coord) # Optionally remove the original coordinates column

# remove geometry since we have coordinates now
apartments_analysis_data$geometry <- NULL

saveRDS(apartments_analysis_data, "data/apartments_data_App.RDS")

Tidymodels framework

Tidymodels je súbor knižníc v R, ktorý poskytuje jednotné a flexibilné rozhranie pre celý proces strojového učenia, od predspracovania dát cez ich analýzu až po modelovanie. Vytvorenie modelu v rámci frameworku tidymodels pozostáva z niekoľkých základných krokov:

Príprava a rozdelenie dát: Prvý krok je rozdelenie nášho “dátového budgetu”. Typicky sa dáta delia na trénovaciu (slúži na odhad parametrov modelu) a testovaciu (slúži na nezávislé zhodnotenie modelu) sadu pomocou funkcie initial_split(). Tento krok je základom pre overovanie modelu a zabránenie overfittingu. S využitím vfold_cv() alebo podobných funkcií vytvoríme schému krížovej validácie (rôzne verzie tréningových dát – tzv. “folds”), ktorá sa použije na evaluáciu modelu.
Ako rozdelenie na tréningovú a testovaciu sadu, tak aj vytvorenie validačných schém umožnuje specifikovať premennú, ktorej rozdelenie ostane (približne) zachované (strata =).

Rozdelenie dátového budgetu. Zdroj: https://www.tidymodels.org/start/resampling/#data-split

Vytvorenie receptu (recipe): recipe() definuje predspracovanie dát, vrátane výberu premenných, transformácií, normalizácie, kódovania kategorických premenných a riešenia chýbajúcich hodnôt. Jednotlivé kroky sa pridávajú pomocou step_*() funkcií. Recipies zabezpečujú, že predspracovanie je konzistentné a reprodukovateľné.
Špecifikácia modelu: Model sa špecifikuje nezávisle od dát. Pomocou funkcií ako linear_reg(), rand_forest(), boost_tree() a iných definujeme typ modelu, mód (regresia, klasifikácia), engine(xgboost, lightgbm…) a jeho hlavné parametre bez toho, aby sme ich ihneď fitovali na dáta. Tento krok umožňuje flexibilitu v experimentovaní s rôznymi modelmi.
Nastavenie workflow: workflow() integruje recept a model do jednotného objektu. Workflow umožňuje efektívnejšie spracovanie, keďže spojíme predspracovanie dát a modelovanie do jednej operácie, čo zjednodušuje evaluáciu a porovnávanie modelov.
Výber a nastavenie hyperparametrov: Pomocou parameters() môžeme definovať a prispôsobiť rozsahy hyperparametrov pre tuning modelu. Tidymodels ponúka rôzne metódy pre vyhľadávanie optimálnych hodnôt, napr. tune_grid(), tune_bayes(), tune_race() a iné.
Cross-validácia a tuning modelu: Tuning hyperparametrov prebieha na trénovacej sade (resp. na jednotlivých “fold-och”) s cieľom nájsť najlepšiu kombináciu hyperparametrov. Najlepší model vyberieme pomocou funkcie select_best(), pričom špecifikujeme metriku, podľa ktorej model vyberáme.
Finalizácia a fitovanie modelu: Po vybraní najlepších hyperparametrov finalizujeme model pomocou finalize_model() a potom ho fitujete na trénovacie dáta s fit(). Tento krok produkuje finálny model pripravený na evaluáciu a predikcie.
Evaluácia modelu: Pomocou testovacej sady dát overíme výkonnosť modelu. Metriky ako RMSE, presnosť (accuracy), AUC a mnoho iných (výber by mal zodpovedať nášmu cieľu, čo platí najmä pri klasifikácii) poskytujú hodnotenie, ako dobre model predpovedá nevidené dáta.

Tieto kroky poskytujú ucelený prístup k vytváraniu, optimalizácii a evaluácii prediktívnych modelov. Tidymodels zabezpečuje konzistenciu a reprodukovateľnosť po celom procese.

Toto je opis základného procesu tvorby ML modelu pomocou tidymodels frameworku. Je možné samozrejme vytvoriť aj omnoho komplikovanejší proces s postupným tuningom hyperparametrov, tvorbou stacked modelu (meta-learner modelu) atď.

Tvorba modelu

Rozdelenie dát

# split dataframes to train(80)/test(20)
set.seed(123)
apartments_train_split <- initial_split(apartments_analysis_data, prop = 0.7, strata = price)

apartments_train <- training(apartments_train_split)
apartments_test <- testing(apartments_train_split)

folds <- vfold_cv(apartments_train, v = 5, strata = price)
saveRDS(apartments_test, "data/test_set.RDS")

Spracovanie dát

apartments_xgboost_recipe <- recipe(apartments_train, price ~ .) |>
  step_rm(name_nsi) |>
  step_string2factor(all_nominal_predictors()) |>
  step_impute_knn(all_nominal_predictors()) |>
  step_unknown(all_nominal_predictors()) |>
  step_dummy(all_nominal_predictors())

Špeficikácia modelu

xgb_model <-
  boost_tree(
    trees = tune(), loss_reduction = tune(),
    tree_depth = tune(), min_n = tune(),
    mtry = tune(), sample_size = tune(),
    learn_rate = tune()
  ) |>
  set_mode("regression") |>
  set_engine("xgboost")

Workflow

apartments_workflow <- workflow() |>
  add_recipe(apartments_xgboost_recipe) |>
  add_model(xgb_model)

Výber parametrov

apartments_xgboost_params <- parameters(
  trees(), learn_rate(), loss_reduction(),
  tree_depth(), min_n(),
  sample_size = sample_prop(),
  finalize(mtry(), apartments_train)
)

apartments_xgboost_params <- apartments_xgboost_params |> update(trees = trees(c(300, 600)))

Pri tuningu použijeme paralelné spracovanie na x – 2 jadrách. Niektoré algoritmy umožnujú aj spracovanie pomocou GPU ak je dostupná kompatibilná grafická karta (bavíme sa o tvorbe modelu na lokálnom zariadení, samozrejme v produkcii je vhodnejšie využiť služby ako GCP, AWS a iné)

Tuning parametrov

registerDoParallel(cores = detectCores() - 1)

xgboost_tune <-
  apartments_workflow |>
  tune_bayes(
    resamples = folds,
    param_info = apartments_xgboost_params,
    iter = 100,
    metrics = metric_set(rmse, mape),
    control = control_bayes(
      no_improve = 20,
      save_pred = T, verbose = F
    )
  )

unregister_dopar()

Finalizácia modelu

apartments_best_model <- select_best(xgboost_tune, metric = "rmse")
apartments_final_model <- finalize_model(xgb_model, apartments_best_model)
apartments_workflow <- apartments_workflow |> update_model(apartments_final_model)
apartments_xgb_fit <- fit(apartments_workflow, data = apartments_train)

saveRDS(apartments_xgb_fit, "data/xgb_fit.RDS")

Výsledné metriky a testovacia predikcia

apartments_final_res <- last_fit(apartments_workflow, split = apartments_train_split)
apartments_pred <-
  predict(apartments_xgb_fit, apartments_test) |>
  bind_cols(apartments_test)

Vyhodnotenie modelu

Z grafu je zrejmé, že výsledný model vcelku dobre predikuje ceny bytov s hodnotou do približne 300 tisíc EUR. Pri drahších bytoch je variabilita odchýlok od reálnych cien vyššia.

Porovnanie predikcie s reálnou cenou 1

plot1 <-
  apartments_pred |>
  ggplot(aes(x = .pred, y = price)) +
  geom_point() +
  geom_smooth(method = "loess", color = "red") +
  scale_y_continuous(labels = function(x) format(x, big.mark = " ", scientific = FALSE), breaks = c(200000, 400000, 600000)) +
  scale_x_continuous(labels = function(x) format(x, big.mark = " ", scientific = FALSE), breaks = c(200000, 400000, 600000)) +
  labs(
    title = NULL,
    x = "Predikovaná cena",
    y = "Reálna Cena"
  ) +
  theme_minimal() +
  theme(
    text = element_text(family = "Courier New", size = 12)
  ) +
  coord_fixed()

plot1

Pri pohľade na rozloženie reálnych a predikovaných cien môžeme vidieť kde presne dochádza k najväčším odchýlkam. Model predikoval viac bytov v cene približne 100 až 170 tisíc EUR a približne 200 až 225 tisíc EUR. Naopak menej zastúpené sú najmä byty s cenou približne 250 až 300 tisíc EUR. Teraz je potrebné rozhodnutie, či sa treba vrátiť k procesu feature engineering, čiže manipulácii s premennými alebo pokračovať s model v stave v akom je.

Porovnanie predikcie s reálnou cenou 2

plot2 <-
  apartments_pred |>
  select(predikcia = .pred, realita = price) |>
  gather(key, value) |>
  ggplot(aes(x = value, color = key)) +
  geom_density(alpha = .5) +
  labs(
    title = NULL,
    x = "Cena",
    y = "Hustota",
    color = ""
  ) +
  scale_y_continuous(labels = function(x) format(x, big.mark = " ", scientific = FALSE)) +
  scale_x_continuous(labels = function(x) format(x, big.mark = " ", scientific = FALSE)) +
  theme_minimal() +
  theme(
    text = element_text(family = "Courier New", size = 12),
    legend.position = "bottom"
  )

plot2

Rozloženie reálnych vs predikovaných cien

Model v priemere mierne nadhodnocuje (do 5 percent) byty s reálnou cenou medzi 100 až 170 tisíc EUR. Najvyššie nadhodnotenie (viac ako 5 percent) je pri cenách do 100 tisíc EUR. Naopak byty s cenou od 180 tisíc EUR do 260 tisíc eur mierne podhodnocuje. V prípade bytov od 260 tisíc EUR (približne 7 percent z inzerátov) sú už odchýlky nestabilné, trend je však smerom k výraznejšiemu podhodnocovaniu.

Odchýlky

# Calculate the difference between prediction and actual value
plot3_data <- apartments_pred |>
  select(.pred, price) |> 
  mutate(diff = .pred - price,
         bin = floor(price/10000)*10000) |>
  group_by(bin) |>
  summarize(mean_diff = mean(diff)) |> 
  mutate(rel_diff = case_when(
    mean_diff/bin >= 0.05 ~ 0.05,
    mean_diff/bin >= 0 ~ 0,
    mean_diff/bin <= -0.05 ~ -0.05,
    mean_diff/bin < 0 ~ -0.02
    ))


# Plot with coloring based on mean difference
plot3 <- ggplot(plot3_data, aes(x = bin, y = mean_diff, color = factor(rel_diff))) +
  geom_point() +
  labs(
    title = NULL,
    x = "Cena",
    y = "Priemerná chyba"
  ) +
  scale_color_manual(values = c("#506BA0", "#55B9F5", "#90ee90","#037f51" )) +
  scale_y_continuous(labels = function(x) format(x, big.mark = " ", scientific = FALSE)) +
  scale_x_continuous(labels = function(x) format(x, big.mark = " ", scientific = FALSE)) +
  theme_minimal() +
  theme(
    text = element_text(family = "Courier New", size = 12),
    legend.position = "none")

plot3

Pri XGBoost je dôležitosť premenných založená na Gain, tento termín odkazuje na príspevok každej premennej k celkovému zlepšeniu modelu, ktoré je dosiahnuté vďaka rozdeleniam (splits) na konkrétnej premennej. Keď XGBoost vytvára stromy, každé rozdelenie v strome sa vyberá tak, aby maximalizovalo “zisk”, čo znamená, že sa snaží o čo najväčšie zlepšenie prediktívnej presnosti. Gain v tomto kontexte meria, o koľko sa zlepšuje predikcia, keď sa použije rozdelenie založené na danej premennej. Tento zisk je často vážený a sumarizovaný cez všetky stromy v modeli. Premenné, ktoré najviac prispievajú k zlepšeniu sú tie, ktoré model najviac využíva na dosiahnutie presnejších predikcií, a preto sú považované za dôležitejšie. Viac informácií môžete nájsť napríklad v tomto článku na medium.com.

Najdôležitejšou premennou je podľa modelu geografická dĺžka. Nasledujú rozloha bytu a lokalita Bratislava I. Až 4 z top 10 premenných súvisia s indexom bývania.

vip – Variable Importance Plots

apartments_xgb_fit |>
  fit(data = apartments_train) |>
  pull_workflow_fit() |>
  vip(geom = "point", include_type = TRUE) + 
  theme_minimal() +
  theme(
    panel.grid.minor = element_blank(),
    text = element_text(family = "Courier New", size = 12)
  ) + 
  labs(
    y = "Dôležitosť",
    x = "Premenná"
  ) +
  theme(
    panel.grid.minor = element_blank(),
    text = element_text(family = "Courier New", size = 12)
  )

SHAP (Shapley Additive exPlanations) hodnoty sú metóda používaná na vysvetlenie príspevku jednotlivých premenných k predikcii konkrétneho modelu strojového učenia. SHAP hodnoty poskytujú detailné vysvetlenie predikcie pre každý záznam (riadok dát) tým, že ukážu, ako každá premenná prispieva k výslednej predikcii, či už zvyšovaním alebo znížením predikovanej hodnoty. Tiež zaručujú konzistentnosť, čo znamená, že ak máme dve premenné a jedna konzistentne prispieva k predikcii viac než druhá, bude mať aj vyššiu SHAP hodnotu. Okrem poskytovania vysvetlení na úrovni jednotlivých predikcií (lokálne vysvetlenie) môžu byť SHAP hodnoty agregované na poskytnutie prehľadu o dôležitosti premenných v celom modeli (globálne vysvetlenie).

SHAP hodnoty nám poskytujú ďaľšie informácie k dôležitosti premenných. Napr. sa potvrdzuje západo-východný gradient, ktorý sme spomínali v závere tretej časti tejto série. Ak sa byt nachádza v okrese Bratislava I, môže mu to pridať na hodnote 45 až 95 tisíc EUR. Ak sa jedná o novostavbu cena môže stúpnuť o 15 až 50 tisíc EUR, kompletná rekonštrukcia pridáva na hodnote do 25 tisíc EUR, naopak pôvodný stav má negatívny efekt do približne -20 tisíc EUR.

SHAP

fitted_data <- apartments_xgboost_recipe |>
  prep() |>
  bake(new_data = apartments_analysis_data) |>
  select(-price)

set.seed(123)
shp <- shapviz(extract_fit_engine(apartments_xgb_fit), X_pred = fitted_data |> as.matrix())

shap_plot <- sv_importance(shp, kind = "beeswarm")  +
  scale_x_continuous(labels = function(x) format(x, big.mark = " ", scientific = FALSE)) +
  scale_color_gradient(low = "blue", high = "red",
                      breaks = c(0,1),
                      labels = c("nízka", "vysoká"),
                      guide = guide_colorbar(barwidth = 12, barheight = 0.3)) + # Customize based on your exact needs
  labs(x = "SHAP hodnota (vplyv na predikovanú cenu)",
       y = "Premenná",
       color = "Hodnota premennej "
       ) +
  theme_minimal() +
  theme(
    panel.grid.minor = element_blank(),
    text = element_text(family = "Courier New", size = 10),
    legend.position = "bottom"
  )

Okrem celkového príspevku jednotlivých premenných v rámci modelu ako celku (globálne vysvetlenie) sa vieme pozrieť aj na jednotlivé predikcie. Napr. keď sa pozrieme na inzerát na riadku 1804, môžeme vidieť, že lokalita v okrese Bratislava I mu pridala na hodnote 63 tisíc EUR, geografická dĺžka ďalších 33 tisíc EUR a rozloha 84 m² 20 tisíc EUR. Naopak to, že sa nejedná o novostavbu znižuje cenu o 12 tisíc EUR a pôvodný stav uberá ďalších 9 tisíc EUR.

Uloženie modelu a dát pre aplikáciu

Aby sa model dal použiť v Shiny aplikácii, je nutné ho uložiť vo vhodnom formáte. Natrénovaný model transformujeme na vetiver model. Tento objekt obsahuje všetko, čo treba, aby sa dal použiť v novom prostredí. Ďalej ukladáme engine pomocou knižnice xgboost. Budeme ho potrebovať pri SHAP grafe.

Úvod

V tomto blogu sa budem venovať Exploratory Data Analysis (EDA), čiže úvodnej analýze údajov, ktorej cieľom je zistiť aká je kvalita, obsah a štruktúra údajov. V tomto prípade ide o dáta z inzercií nehnuteľností. Dáta sú scrape-nuté z webu Nehnutelnosti, procesmi webscraping-u a geokódovania som prešiel v predchádzajúcich blokoch “Web scrapingpomocou jazyka R” a “Geocoding pomocou jazyka R”.

Čo je EDA

Exploratory Data Analysis je neoddeliteľnou súčasťou dátovej analytiky/dátovej vedy (Data science).

EDA v data science projekte. Zdroj: https://commons.wikimedia.org/wiki/File:Data_visualization_process_v1.png

Účelom EDA je zhrnúť hlavné charakteristiky súboru údajov (ako kvalita, obsah a štruktúra), objaviť vzorce a vzťahy medzi premennými a identifikovať trendy. Malo by nás viesť k pochopeniu údajov a identifikácii kritických premenných vzhľadom na naše ciele. Ako je znázornené na obrázku, ide o iteratívny proces. Na základe vašich zistení môžete buď pokračovať v modelovaní/testovaní hypotéz a reportovaní, alebo sa vrátiť k čisteniu/spracovaniu údajov.
EDA zvyčajne začína načítaním údajov a kontrolou niekoľkých riadkov, aby ste získali prvotný “pocit” z údajov spolu s kontrolou štruktúry údajov, veľkosti vzorky, typov údajov, chýbajúcich hodnôt atď. Potom pokračuje podrobnejšou analýzou, ktorá nám pomáha pochopiť vzťahy a identifikovať odľahlé hodnoty a dôležité premenné. V EDA používame rôzne techniky a nástroje. Vo všeobecnosti ich možno rozdeliť do niekoľkých skupín:

Súhrnné (jednopremenné) štatistiky – min, max, priemer, medián, kvartily, IQR, štandardná odchýlka, počty, frekvencia atď.
Vizualizácia dát – histogram, boxplot, Paretov graf, bodové grafy, korelačná matica, čiarové grafy (pre časové rady), heatmapy atď.
Bi-/viacpremenné štatistiky – korelácia, t-test, chí-kvadrát test, ANOVA, Kruskal-Wallisov test atď.

Na základe zistení vytvoríme záver a buď pokračujeme v projekte, alebo sa vrátime k dodatočnému upratovaniu dát. Je to teda iteratívny proces.
Aj keď radšej robím EDA manuálne, existuje niekoľko R knižníc pre automatizované EDA. Sú užitočné pri prvotnom skúmaní údajov a identifikácii napr. dátových typov, premenných s veľkou časťou chýbajúcich hodnôt a iných “high-level” charakteristík. Sú to napríklad:

DataExplorer
ExPanDaR
dataMaid
dlookr

Úvodné čistenie dát

Začínam klasicky, načítaním knižníc pomocou funkcie p_load z knižnice pacman.

Knižnice

# import libraries
if (!require("pacman")) {
  install.packages("pacman")
}

pacman::p_load(
  janitor, # clean_names()
  skimr, # skim()
  sf, # geospatial data
  ggpubr,
  ggQC, # pareto chart
  scales, # scales
  GGally, # eval_data_col
  knitr,
  modelsummary, # datasummary_correlation()
  gtsummary, # tables
  ggstatsplot, # ggwithinstats()
  effectsize, # interpret_kendalls_w()
  tidyverse, # data wrangling
  kableExtra, # tables
  extrafont # fonts
)

loadfonts(device = "win")

Nasleduje prvotné čistenie dát. V nasledujúcom kóde spájam 3 rôzne súbory. Keďže sú z rôznych zdrojov, je potrebné niektoré hodnoty upraviť do rovnakého tvaru (prípad názvov obcí).
Následne upravujem premenné do správnych typov, odfiltrujem preč záznamy, ktorých hodnoty sú odľahlé alebo úplne chýbajú a nemá zmysel ich imputovať.
Krok preloženia slovenských výrazov do angličtiny nie je nevzhnutný. Robím ho jednak z dôvodu, že som zvyknutý pracovať s anglickými výrazmi pri kódovaní a chcem aby aj dataset bol v tomto ohľade konzistentný. Druhým dôvodom je, že budem dataset nahrávať na Kaggle.
V poslednom kroku robím dve verzie datasetu. Jedna obsahuje premennú ‘geometry’ typu sfc_MULTIPOLYGON, ktorá robí problém alebo extrémne spomaluje výpočty niektorých sumačných funkciách, ak sú aplikované na celý dataset. Preto na všetku EDA budem používať verziu bez nej.

Feature engineering

# Load advertisements data from RDS file
advertisements <- readRDS("data/advertisements.RDS")

# Clean and restructure advertisements data
advertisements <- advertisements %>%
  separate(type_of_real_estate, c("type", "area"), sep = " • ", remove = TRUE) %>%
  select(link, type)

# Load and process districts mapping data from Excel file
districts_mapping <- openxlsx::read.xlsx("data/obce_okresy.xlsx") %>%
  mutate(
    municipality = str_replace(municipality, "Košice - ", "Košice - mestská časť "),
    municipality = str_replace(municipality, "Bratislava - ", "Bratislava - mestská časť ")
  )

# Load and process scraped data with geocoding
scraped_data <- readRDS("data/advertisements_complete_geocoded.RDS") %>%
  filter(!is.na(link)) %>%
  select(-c(address1, address2, info_text, district, municipality, address)) %>%
  rename(quality_of_living = quanlity_of_living) %>%
  mutate(
    NAME_NSI = str_replace(NAME_NSI, "Hodruša-Hámre", "Hodruša - Hámre"),
    NAME_NSI = str_replace(NAME_NSI, "Perín-Chym", "Perín - Chym"),
    NAME_NSI = str_replace(NAME_NSI, "Šaštín-Stráže", "Šaštín - Stráže"),
    NAME_NSI = str_replace(NAME_NSI, "Kostolná-Záriečie", "Kostolná - Záriečie")
  )

# Join advertisements and scraped data
joined_data <- scraped_data %>%
  left_join(advertisements, by = "link", multiple = "first", keep = FALSE) %>%
  clean_names() %>%
  filter(!is.na(price)) %>%
  mutate(
    # Convert relevant columns to numeric format
    pocet_izieb_miestnosti = as.numeric(pocet_izieb_miestnosti),
    uzit_plocha = str_replace(str_replace(uzit_plocha, ",", "."), " m2", ""),
    energie = str_replace(str_replace(energie, ",", "."), " €/mesiac", ""),
    provizia_zahrnuta_v_cene = str_replace_na(provizia_zahrnuta_v_cene, "Nie"),
    # Create a 'rooms' column based on 'type' and handle missing values
    rooms = case_when(type == "1 izbový byt" ~ 1,
      type == "2 izbový byt" ~ 2,
      type == "3 izbový byt" ~ 3,
      type == "4 izbový byt" ~ 4,
      type == "5 a viac izbový byt" ~ 5,
      type == "Garsónka" ~ 1,
      type == "Dvojgarsónka" ~ 2,
      .default = NA
    ),
    pocet_izieb_miestnosti = coalesce(pocet_izieb_miestnosti, rooms, pocet_izieb_miestnosti)
  ) %>%
  mutate_at(c(
    "index_of_living",
    "uzit_plocha",
    "energie",
    "pocet_nadzemnych_podlazi",
    "podlazie",
    "pocet_izieb_miestnosti",
    "rok_vystavby",
    "rok_poslednej_rekonstrukcie",
    "pocet_balkonov",
    "pocet_lodzii"
  ), as.numeric) %>%
  select(-link) %>%
  filter(pocet_izieb_miestnosti < 10 & !is.na(pocet_izieb_miestnosti)) %>%
  mutate(
    type = coalesce(type, case_when(
      pocet_izieb_miestnosti == 1 ~ "1 izbový byt",
      pocet_izieb_miestnosti == 2 ~ "2 izbový byt",
      pocet_izieb_miestnosti == 3 ~ "3 izbový byt",
      pocet_izieb_miestnosti == 4 ~ "4 izbový byt",
      pocet_izieb_miestnosti >= 5 ~ "5 a viac izbový byt"
    ))
  ) %>%
  select(-rooms) %>%
  filter(!(type %in% c("Apartmán", "Mezonet", "Iný byt", "Loft"))) %>%
  rename(
    index = index_of_living,
    condition = stav,
    area = uzit_plocha,
    provision = provizia_zahrnuta_v_cene,
    certificate = energeticky_certifikat,
    energy_costs = energie,
    construction_type = typ_konstrukcie,
    year_built = rok_vystavby,
    last_reconstruction = rok_poslednej_rekonstrukcie,
    total_floors = pocet_nadzemnych_podlazi,
    floor = podlazie,
    lift = vytah,
    balkonies = pocet_balkonov,
    loggia = pocet_lodzii,
    cellar = pivnica,
    orientation = orientacia
  ) %>%
  mutate(
    # Recreate 'rooms' column after filtering and handle missing values
    rooms = as.numeric(case_when(
      type == "1 izbový byt" ~ 1,
      type == "2 izbový byt" ~ 2,
      type == "3 izbový byt" ~ 3,
      type == "4 izbový byt" ~ 4,
      type == "5 a viac izbový byt" ~ 5,
      type == "Garsónka" ~ 1,
      type == "Dvojgarsónka" ~ 2,
      .default = NA
    )),
    # Transform 'provision' to binary
    provision = as.numeric(case_when(
      provision == "Áno" ~ 1,
      provision == "Nie" ~ 0,
      .default = NA
    )),
    # Transform 'lift' to binary
    lift = as.numeric(case_when(
      lift == "Áno" ~ 1,
      .default = 0
    )),
    # Transform 'cellar' to binary
    cellar = as.numeric(case_when(
      cellar == "Áno" ~ 1,
      .default = 0
    )),
    certificate = if_else(certificate == "nemá", "none", certificate)
  ) %>%
  select(-pocet_izieb_miestnosti) %>%
  mutate(
    # Convert relevant columns to numeric format
    across(c(
      "environment", "safety", "transport", "relax", "quality_of_living", "services"
    ), na_if, "0"),
    across(c(
      "environment", "safety", "transport", "relax", "quality_of_living", "services"
    ), as.numeric)
  )

# Translating Slovak terms into English
# Define mapping vectors
original_conditions <- c(
  "Pôvodný stav", "Čiastočná rekonštrukcia", "Kompletná rekonštrukcia",
  "Novostavba", "Vo výstavbe", "Developerský projekt"
)
english_conditions <- c(
  "Original condition", "Partial reconstruction", "Complete reconstruction",
  "New building", "Under construction", "Development project"
)
original_construction_type <- c("Tehlová", "Panelová", "Iná", "Kvádrová", "Zmiešaná", "Panelová, Tehlová", "Skeletová", "Tehlová, Železobetónová", "Kamenná", "Montovaná", "Drevená")
english_construction_type <- c("Brick", "Panel", "Other", "Cube", "Mixed", "Panel, Brick", "Skeletal", "Brick, Reinforced concrete", "Stone", "Mounted", "Wooden")
original_orientation <- c("Juhozápadná", "Južná", "Západná", "Východná", "Juhovýchodná", "Severovýchodná", "Severozápadná", "Severná")
english_orientation <- c("Southwest", "South", "West", "East", "Southeast", "Northeast", "Northwest", "North")
original_type <- c("3 izbový byt", "1 izbový byt", "2 izbový byt", "4 izbový byt", "Garsónka", "5 a viac izbový byt", "Dvojgarsónka")
english_type <- c("3-room apartment", "1-room apartment", "2-room apartment", "4-room apartment", "Studio", "5 or more room apartment", "Double studio")

# Translate values
joined_data <- joined_data %>%
  mutate(
    condition = recode(condition, !!!setNames(english_conditions, original_conditions)),
    construction_type = recode(construction_type, !!!setNames(english_construction_type, original_construction_type)),
    orientation = recode(orientation, !!!setNames(english_orientation, original_orientation)),
    type = recode(type, !!!setNames(english_type, original_type))
  )

# Join with districts mapping data
joined_data <- joined_data %>%
  left_join(districts_mapping, join_by(name_nsi == municipality), keep = FALSE, multiple = "first")

# Create a copy of joined data without geometry information
joined_data_wo_geom <- joined_data
joined_data_wo_geom$geometry <- NULL

write.csv2(joined_data_wo_geom, "data/apartments_appraisal.csv", row.names = F)

EDA

Prvý krok v EDA je pozrieť sa na dáta ako celok. V jazyku R môžeme použiť napr. základnú funkciu summary(). Ja osobne používam rád funkciu skim() z knižnice skimr. Obe poskytujú zhrnutie a deskriptívne štatistiky premenných. Funkcia skim() je však podrobnejšia a vracia aj údaje o type premennej, formátovaní kompletnosti atď.

Sumár kvalitatívnych dát

skimmed_summary <- skim(joined_data_wo_geom)

skimmed_summary %>%
  filter(skim_type == "character") %>%
  mutate(complete_rate = round(complete_rate, 1)) %>%
  select(c(variable = skim_variable, missing = n_missing, complete_rate, empty = character.empty, unique = character.n_unique)) %>%
  kable(format = "html", format.args = list(big.mark = " ")) %>%
  kable_styling(
    bootstrap_options = c("striped", "hover"),
    full_width = F,
    font_size = 12,
    position = "left"
  )

variable	missing	complete_rate	unique
name_nsi	0	1.0	598
condition	327	1.0	6
certificate	8 958	0.4	8
construction_type	13 036	0.2	11
orientation	14 380	0.1	8
type	0	1.0	7
district	0	1.0	79

Sumár kvantitatívnych dát

skimmed_summary %>%
  filter(skim_type == "numeric") %>%
  mutate(
    complete_rate = round(complete_rate, 1),
    numeric.mean = round(numeric.mean, 1),
    numeric.sd = round(numeric.sd, 1)
  ) %>%
  select(c(variable = skim_variable, missing = n_missing, complete_rate, mean = numeric.mean, sd = numeric.sd, p0 = numeric.p0, p25 = numeric.p25, p50 = numeric.p50, p75 = numeric.p75, p100 = numeric.p100, hist = numeric.hist)) %>%
  kable(format = "html", digits = 1, format.args = list(big.mark = " ")) %>%
  kable_styling(
    bootstrap_options = c("striped", "hover"),
    full_width = F,
    font_size = 12,
    position = "left"
  )

variable	missing	complete_rate	mean	sd	p0	p25	p50	p75	p100	hist
price	0	1.0	165 205.7	162 973.6	11 500.0	99 900.0	136 900.0	190 000.0	9 936 000.0	▇▁▁▁▁
index	10 241	0.3	7.8	0.9	3.3	7.3	8.0	8.5	9.5	▁▁▃▇▇
environment	11 271	0.3	7.8	0.9	2.7	7.3	8.0	8.4	10.0	▁▁▂▇▂
quality_of_living	11 271	0.3	8.8	0.9	2.7	8.4	9.0	9.4	10.0	▁▁▁▃▇
safety	11 271	0.3	8.0	2.0	2.0	7.2	8.7	9.5	10.0	▁▁▂▃▇
transport	11 271	0.3	8.4	1.4	2.0	7.7	8.6	9.3	10.0	▁▁▁▃▇
services	11 271	0.3	8.0	1.6	2.0	7.2	8.4	9.2	10.0	▁▁▂▅▇
relax	11 271	0.3	5.7	1.8	2.0	4.5	5.8	7.1	9.5	▃▇▇▇▃
area	716	1.0	104.7	2 589.6	1.0	51.9	65.0	77.0	209 900.0	▇▁▁▁▁
energy_costs	14 423	0.1	150.6	52.3	20.0	110.0	150.0	190.0	365.0	▂▇▅▁▁
provision	0	1.0	0.2	0.4	0.0	0.0	0.0	0.0	1.0	▇▁▁▁▂
year_built	11 525	0.3	1 901.7	499.1	1.0	1 971.0	1 980.0	2 020.0	19 741.0	▇▁▁▁▁
last_reconstruction	14 721	0.0	2 018.3	6.0	1 968.0	2 016.0	2 020.0	2 023.0	2 024.0	▁▁▁▁▇
total_floors	8 117	0.5	5.6	3.7	1.0	3.0	5.0	8.0	46.0	▇▁▁▁▁
floor	7 087	0.5	3.5	2.6	-7.0	2.0	3.0	5.0	34.0	▂▇▁▁▁
lift	0	1.0	0.3	0.4	0.0	0.0	0.0	1.0	1.0	▇▁▁▁▃
balkonies	13 636	0.1	1.1	0.4	1.0	1.0	1.0	1.0	6.0	▇▁▁▁▁
loggia	13 883	0.1	1.1	0.4	1.0	1.0	1.0	1.0	5.0	▇▁▁▁▁
cellar	0	1.0	0.0	0.1	0.0	0.0	0.0	0.0	1.0	▇▁▁▁▁
rooms	0	1.0	2.5	0.9	1.0	2.0	3.0	3.0	5.0	▃▇▇▂▁

Prvých/posledných 5 riadkov si zobrazíme pomocou funkcií head() resp. tail() s parametrom 5.

Náhľad dát

head(joined_data_wo_geom, 5) %>%
  mutate_if(is.numeric,
    round,
    digits = 1
  ) %>%
  kable(format = "html") %>%
  kable_styling(
    bootstrap_options = c("striped", "hover"),
    full_width = F,
    font_size = 12,
    position = "left"
  ) %>%
  scroll_box(width = "100%")

name_nsi	price	index	environment	quality_of_living	safety	transport	services	relax	condition	area	energy_costs	provision	certificate	construction_type	orientation	year_built	last_reconstruction	total_floors	floor	lift	balkonies	loggia	type	rooms	district
Semerovo	42000	NA	NA	NA	NA	NA	NA	NA	Original condition	58	NA	0	NA	NA	NA	NA	NA	NA	NA	0	NA	NA	3-room apartment	3	Nové Zámky
Semerovo	42000	NA	NA	NA	NA	NA	NA	NA	Original condition	58	NA	0	none	Brick	NA	NA	NA	2	NA	0	NA	NA	3-room apartment	3	Nové Zámky
Štúrovo	107000	8.3	NA	NA	NA	NA	NA	NA	Partial reconstruction	40	NA	0	NA	NA	NA	NA	NA	5	3	0	NA	NA	1-room apartment	1	Nové Zámky
Štúrovo	105000	NA	NA	NA	NA	NA	NA	NA	Complete reconstruction	76	200	1	C	NA	NA	NA	NA	7	4	1	NA	NA	3-room apartment	3	Nové Zámky
Štúrovo	82000	NA	NA	NA	NA	NA	NA	NA	Partial reconstruction	63	NA	0	NA	NA	NA	NA	2018	NA	2	0	NA	NA	2-room apartment	2	Nové Zámky

Dataset pozostáva z 27 premenných. 10 je kategorických (kvalitatívnych) a 17 kvantitatívnych. Z tabuliek je hneď vidieť prvý problém, ktorý bude nutné vyriešiť – chýbajúce dáta. Tu sa ponúka niekoľko možností, ako sa k tomuto problému postaviť:

Odstránenie riadkov alebo stĺpcov s chýbajúcimi hodnotami: Táto metóda je vhodná, ak počet chýbajúcich hodnôt je malý v porovnaní s celkovým počtom hodnôt v dátovom sete. Avšak táto metóda môže viesť k strate informácií a môže ovplyvniť výsledky analýzy.
Imputácia hodnôt: Táto metóda spočíva v nahradení chýbajúcich hodnôt inými hodnotami. Existuje niekoľko spôsobov, ako to dosiahnuť, ako napríklad nahradenie chýbajúcich hodnôt priemerom, mediánom, modusom alebo inými štatistickými metódami. Táto metóda môže byť vhodná, ak počet chýbajúcich hodnôt je relatívne malý a poznáme vlastnosti premennej (napr. rozloženie má veľký vplyv na hodnotu priemeru. Ak premenná obsahuje odľahlé hodnoty, medián je lepšou voľbou). Výhodou týchto metód je rýchlosť aplikovania.
Použitie modelov strojového učenia: Táto metóda spočíva v použití modelov strojového učenia (napr. KNN, LM, Random Forest) na predpovedanie chýbajúcich hodnôt. Táto metóda môže byť vhodná, ak počet chýbajúcich hodnôt je vysoký a ak existuje dostatočné množstvo dát na trénovanie modelu. Ich použitie je tiež vhodné, ak predpokladáme komplexné vzťahy medzi premennými a máme niekoľko prediktorov s výrazným vplyvom na premennú s chýbajúcimi hodnotami. Tiež je vhodné zvážit tieto metódy v prípade nelineárnych vzťahov medzi premennými.
Ponechanie chýbajúcich hodnôt: Ponechanie chýbajúcich hodnôt a pristupovanie k nim ako ku špecifickej situácii je tiež možnosťou.

Druhým problémom, ktorý treba bežne riešiť, je prítomnosť odľahlých hodnôt (outliers). Opäť máme niekoľko možných riešení.

Odstránenie riadkov alebo stĺpcov s odľahlými hodnotami: Keďže počet odľahlých hodnôt je malý (sú to extrémne hodnoty), táto metóda je schodnejšia než bola pri výskyte chýbajúcich hodnôt, ktorých počet je vysoký.
Nahradenie odľahlých hodnôt: Na výber máme z viacerých možností. Priemer, medián, použitie KNN imputácie.
Transformácia: Existuje množstvo metód transformácie dát, ktoré môžeme použit. Veľmi často sa používa logaritmická transformácia, v prípade ktorej aplikujeme logaritmus (najčastejšie prirodzený) na každú hodnotu vo vektore. Ďalšou možnosťou je štandardizácia (z-skóre), ak naše dáta spĺňajú predpoklady pre túto metódu. Použiť môžeme aj winsorizáciu, ktorá sa používa na nahradenie odľahlých hodnôt s hodnotami, ktoré sú bližšie k ostatným hodnotám v datasete (capping/trimming). Môžeme použiť štandardnú winsorizáciu alebo winsorizáciu na základe percentilov. Binning je posledná metóda, ktorú uvediem. Je zaujímavá, lebo jej výsledkom nemusí byť nevyhnutne číselná hodnota, ale kategorická premenná. Pôvodná hodnota sa nahradí intervalom (bin), do ktorého spadá (napr. osoba vo veku 32 rokov spadá do kategórie 30-34). Môže sa však nahradiť aj strednou hodnotou v rámci tohto binu (napr. priemerom 33,2 alebo mediánom 32,9).

Chýbajúce hodnoty

Ako prvé sa zbavím stĺpcov, ktoré majú veľmi vysoký počet chýbajúcich záznamov a ich imputácia by mohla skresliť výsledky a spôsobiť nepresnosti v analýze.

Následne môžem vyriešiť tie prípady, kde imputácia dáva zmysel.
Je to napríklad stĺpec index a jeho šesť kategórií: environment, quality_of_living, safety, transport, services a relax. Index môže mať hodnotu od 0 do 10 a pripravuje ho slovenský startup City Performer. Tento údaj nie je k dispozícii pre všetky inzeráty. Môžem však zoskupiť záznamy podľa obce a chýbajúce hodnoty doplniť priemerom.

Imputácia dát

joined_data_cleaned_wo_geom <- joined_data_cleaned
joined_data_cleaned_wo_geom$geometry <- NULL

# price where we have index
mun_ind_price <- joined_data_cleaned_wo_geom %>%
  filter(!is.na(index)) %>%
  group_by(name_nsi) %>%
  summarize(price_with_before = mean(price, na.rm = TRUE)) %>%
  summary() %>%
  as.data.frame() %>%
  filter(str_trim(Var2) != "name_nsi") %>%
  separate(col = Freq, sep = ":", c("measure", "value")) %>%
  mutate(value = as.numeric(str_squish(value))) %>%
  select(
    Measure = measure,
    `Price with index before` = value
  )

# price where we don't have index
mun_no_ind_price <- joined_data_cleaned_wo_geom %>%
  filter(is.na(index)) %>%
  group_by(name_nsi) %>%
  summarize(price_without_before = mean(price, na.rm = TRUE)) %>%
  summary() %>%
  as.data.frame() %>%
  filter(str_trim(Var2) != "name_nsi") %>%
  separate(col = Freq, sep = ":", c("measure", "value")) %>%
  mutate(value = as.numeric(str_squish(value))) %>%
  select(`Price without index before` = value)

# imputation on municipality level
joined_data_cleaned <- joined_data_cleaned %>%
  group_by(name_nsi) %>%
  mutate(
    index2 = mean(index, na.rm = TRUE),
    environment2 = mean(environment, na.rm = TRUE),
    quality_of_living2 = mean(quality_of_living, na.rm = TRUE),
    safety2 = mean(safety, na.rm = TRUE),
    transport2 = mean(transport, na.rm = TRUE),
    services2 = mean(services, na.rm = TRUE),
    relax2 = mean(relax, na.rm = TRUE),
    price_after = mean(price, na.rm = TRUE)
  ) %>%
  ungroup()

joined_data_cleaned_wo_geom <- joined_data_cleaned
joined_data_cleaned_wo_geom$geometry <- NULL

# price where we have index after imputation
mun_imputed_ind_price <- joined_data_cleaned_wo_geom %>%
  filter(!is.na(index2)) %>%
  group_by(name_nsi) %>%
  summarize(price_with_after = mean(price_after, na.rm = TRUE)) %>%
  summary() %>%
  as.data.frame() %>%
  filter(str_trim(Var2) != "name_nsi") %>%
  separate(col = Freq, sep = ":", c("measure", "value")) %>%
  mutate(value = as.numeric(str_squish(value))) %>%
  select(`Price with index after` = value)

# price where we don't have index after imputation
mun_imputed_no_ind_price <- joined_data_cleaned_wo_geom %>%
  filter(is.na(index2)) %>%
  group_by(name_nsi) %>%
  summarize(price_with_after = mean(price_after, na.rm = TRUE)) %>%
  summary() %>%
  as.data.frame() %>%
  filter(str_trim(Var2) != "name_nsi") %>%
  separate(col = Freq, sep = ":", c("measure", "value")) %>%
  mutate(value = as.numeric(str_squish(value))) %>%
  select(`Price without index after` = value)

comparison_mun_ind <- cbind(mun_ind_price, mun_imputed_ind_price, mun_no_ind_price, mun_imputed_no_ind_price)

joined_data_cleaned <- joined_data_cleaned %>%
  mutate(
    index = coalesce(index, index2),
    environment = coalesce(environment, environment2),
    quality_of_living = coalesce(quality_of_living, quality_of_living2),
    safety = coalesce(safety, safety2),
    transport = coalesce(transport, transport2),
    services = coalesce(services, services2),
    relax = coalesce(relax, relax2)
  ) %>%
  select(-c(
    index2,
    environment2,
    quality_of_living2,
    safety2,
    transport2,
    services2,
    relax2,
    price_after
  ))

comparison_mun_ind %>%
  kable(format = "html", format.args = list(big.mark = " ")) %>%
  kable_styling(
    bootstrap_options = c("striped", "hover"),
    full_width = F,
    font_size = 12,
    position = "left"
  )

Measure	Price with index before	Price with index after	Price without index before	Price without index after
Min.	23 000	23 000	19 200	19 200
1st Qu.	113 792	111 288	78 130	72 995
Median	153 976	145 008	105 813	99 987
Mean	159 949	154 151	117 100	106 715
3rd Qu.	193 002	187 453	141 992	130 131
Max.	425 664	416 350	888 888	888 888

Po imputácii sa distribúcia ceny nehnuteľnosti (ako premennej, pre ktorú budeme vytvárať predikčný model) zásadne nezmenila.

Odľahlé hodnoty

Podobne ako pri indexe, odľahlé hodnoty cien nehnuteľností odstraňujem v kontexte obcí. Dáta agregujem podľa názvu obce a pokiaľ niektorý záznam presahuje hodnotu mediánu +- 1,5 násobok medzikvartilového rozpätia, tak záznam odstránim.

Odstránenie odľahlých hodnôt

joined_data_cleaned <- joined_data_cleaned %>%
  filter(!is.na(price)) %>%
  group_by(name_nsi) %>%
  mutate(
    IQR = IQR(price),
    median = median(price),
    lower = median - 1.5 * IQR,
    upper = median + 1.5 * IQR,
  ) %>%
  ungroup() %>%
  filter(price >= lower & price <= upper) %>%
  select(-lower, -upper, -median, -IQR)

Niekedy je potrebné ešte zvážiť jednotlivé prípady. Napr. po predchádzajúcom odfiltrovaní niektorých záznamov ostal v datasete záznam s cenou 888 888, celkom určite to nie je skutočná cena a tento riadok zmažem tiež.

Rozloha tiež obsahuje záznamy, ktoré bude lepšie odstrániť. Keď sa pozriem na hodnoty prvých a posledných piatich promile, je jasné, že odstraňovať budem len veľmi malé množstvo záznamov.

Prvých 5 promile podľa rozlohy

quantile(joined_data_cleaned$area, probs = seq(.0, 0.005, by = .001), na.rm = TRUE) %>%
  as.data.frame() %>%
  rownames_to_column() %>%
  `colnames<-`(c("Percentil", "Rozloha")) %>%
  kable(format = "html", digits = 1, format.args = list(big.mark = " ")) %>%
  kable_styling(
    bootstrap_options = c("striped", "hover"),
    full_width = F,
    font_size = 12,
    position = "left"
  )

Percentil	Rozloha
0%	1.0
0.1%	1.0
0.2%	1.0
0.3%	1.0
0.4%	14.9
0.5%	19.0

Posledných 5 promile podľa rozlohy

quantile(joined_data_cleaned$area, probs = seq(.995, 1, by = .001), na.rm = TRUE) %>%
  as.data.frame() %>%
  rownames_to_column() %>%
  `colnames<-`(c("Percentil", "Rozloha")) %>%
  kable(format = "html", digits = 1, format.args = list(big.mark = " ")) %>%
  kable_styling(
    bootstrap_options = c("striped", "hover"),
    full_width = F,
    font_size = 12,
    position = "left"
  )

Percentil	Rozloha
99.5%	157.5
99.6%	161.1
99.7%	170.3
99.8%	194.8
99.9%	246.1
100%	209 900.0

Odstránenie odľahlých hodnôt

min_area <- quantile(joined_data_cleaned$area, 0.003, na.rm = TRUE)[[1]]
max_area <- quantile(joined_data_cleaned$area, 0.999, na.rm = TRUE)[[1]]

joined_data_cleaned <- joined_data_cleaned[joined_data_cleaned$area > min_area & joined_data_cleaned$area < max_area, ]

Ostatné faktory

Nasleduje posledné dočistenie dát pred tým, než budem pokračovať v detailnejšej EDA. V tomto kroku odstraňujem záznamy z obcí, ktoré majú menej ako 5 inzerátov. Namiesto 5 by som mohol vybrať aj iné číslo, ale existuje “rule of thumb”, ktoré tvrdí, že je 93,75% šanca, že medián populácie je medzi najnižšou a najvyššou hodnotou náhodne vybranej vzorky.

Po týchto pár zmenách je stav viditeľne lepší. Ostáva niekoľko premenných, ktoré obsahujú chýbajúce záznamy. O tie sa postarám neskôr pri príprave ML modelu.

Sumár kvalitatívnych dát po očistení

skimmed_summary_cleaned %>%
  filter(skim_type == "character") %>%
  mutate(complete_rate = round(complete_rate, 1)) %>%
  select(c(variable = skim_variable, missing = n_missing, complete_rate, empty = character.empty, unique = character.n_unique)) %>%
  kable(format = "html", format.args = list(big.mark = " ")) %>%
  kable_styling(
    bootstrap_options = c("striped", "hover"),
    full_width = F,
    font_size = 12,
    position = "left"
  )

variable	missing	complete_rate	unique
name_nsi	0	1.0	203
condition	3	1.0	6
certificate	7 106	0.4	8
type	0	1.0	7
district	0	1.0	72

Sumár kvantitatívnych dát po očistení

skimmed_summary_cleaned %>%
  filter(skim_type == "numeric") %>%
  mutate(
    complete_rate = round(complete_rate, 1),
    numeric.mean = round(numeric.mean, 1),
    numeric.sd = round(numeric.sd, 1)
  ) %>%
  select(c(variable = skim_variable, missing = n_missing, complete_rate, mean = numeric.mean, sd = numeric.sd, p0 = numeric.p0, p25 = numeric.p25, p50 = numeric.p50, p75 = numeric.p75, p100 = numeric.p100, hist = numeric.hist)) %>%
  kable(format = "html", digits = 1, format.args = list(big.mark = " ")) %>%
  kable_styling(
    bootstrap_options = c("striped", "hover"),
    full_width = F,
    font_size = 12,
    position = "left"
  )

variable	missing	complete_rate	mean	sd	p0	p25	p50	p75	p100	hist
price	0	1.0	149 723.1	72 018.2	22 997.0	99 990.0	135 000.0	1.8e+05	600 000.0	▇▆▁▁▁
index	2 887	0.8	7.8	0.8	3.3	7.5	8.0	8.3e+00	9.5	▁▁▁▇▅
environment	2 921	0.8	7.9	0.8	2.7	7.5	7.8	8.4e+00	10.0	▁▁▁▇▂
quality_of_living	2 921	0.8	8.7	0.7	2.7	8.4	8.9	9.2e+00	10.0	▁▁▁▃▇
safety	2 921	0.8	8.2	1.7	2.0	7.7	8.6	9.5e+00	10.0	▁▁▁▅▇
transport	2 921	0.8	8.4	1.2	2.0	7.9	8.6	8.9e+00	10.0	▁▁▁▅▇
services	2 921	0.8	8.0	1.3	2.0	7.4	8.3	8.8e+00	10.0	▁▁▂▇▇
relax	2 921	0.8	5.8	1.5	2.0	4.9	5.9	6.7e+00	9.5	▂▆▇▇▁
area	0	1.0	63.0	20.4	3.0	51.0	63.0	7.4e+01	238.0	▃▇▁▁▁
provision	0	1.0	0.2	0.4	0.0	0.0	0.0	0.0e+00	1.0	▇▁▁▁▂
rooms	0	1.0	2.4	0.8	1.0	2.0	2.0	3.0e+00	5.0	▃▇▇▂▁

Cena je hlavná premenná, ktorá ma zaujíma a ktorú budem neskôr predikovať pomocou natrénovaného ML modelu.

Rozloženie hodnôt je asymetrické s pozitívnym (pravostranným) zošikmením. Toto sa dalo očakávať vzľadom na to, že drahé nehnuteľnosti sa nachádzajú v ponuke menej často. V prípade potreby môžem využiť logaritmickú transformáciu, aby som získal viac normálne rozdelenie.

Index udáva agregované hodnotenie šiestich rôznych charakteristík miesta, kde sa nehnuteľnosť nachádza.

2887 inzerátov ( 23.1 % zo všetkých) nemá ani po imputácii dostupný tento údaj.

Na rozdiel od cien, index bývania má negatívne zošikmenie. Priemerná hodnota je 7.8 bodu a medián 8 bodov. Medzi inzerátmi však nájdeme aj hodnoty nižšie ako 4 body.
Jednotlivé kategórie, ktoré sa podieľajú na výslednom indexe, majú niekoľko spoločných vlasností. Všetky majú medián aj priemer v hornej polovici možných bodov. Je to do istej miery očakávateľné, keďže hodnotenie je zrejme zamerané najmä na mestá a väčšie obce. Je tam jednak dostatok ponúk na trhu s nehnuteľnosťami aby sa vôbec oplatilo venovať mu pozornosť a vzhľadom na veľkú ponuku, a teda pravdepodobne aj dopyt, bude občianska vybavenosť aspoň na uspokojivej úrovni. Zo šiestich kategórií sa mierne odchyľuje “životné prostredie” a celkom evidentne “relax”, pri ktorom ani jedna lokalita nedosiahla maximálny počet bodov.

Category	Min	1st Qu.	Median	Mean	3rd Qu.	Max
environment	2.7	7.5	7.8	7.9	8.4	10.0
quality_of_living	2.7	8.4	8.9	8.7	9.2	10.0
safety	2.0	7.7	8.6	8.2	9.5	10.0
transport	2.0	7.9	8.6	8.4	8.9	10.0
services	2.0	7.4	8.3	8.0	8.8	10.0
relax	2.0	4.9	5.9	5.8	6.7	9.5

Napriek podobnostiam medzi kategóriami, rozdiely ich hodnôt sú štatisticky významne odlišné (p hodnota < 0.01) a táto odlišnosť je mierna (moderate agreement). Durbinov test párového porovnania ukazuje, že všetky kategórie sú navzájom odlišné (podľa Holm adjustovaných p hodnôt).

Pri pohľade na koreláciu indexu a jeho komponentov s cenou je zaujímavé, že samotný index má nižšiu koreláciu s cenou ako väčšina jednotlivých komponentov. Ak sa pozriem na tie, tak negatívny vzťah je len pri životnom prostredí. Naopak najvyšší pozitívny vzťah s cenou majú relax, služby a transport.

Rozloha bude zrejme jednou z najpodstatnejších premenných pri predikovaní ceny nehnuteľnosti. Tiež bude úzko súvisieť s typom nehnuteľnosti – viac izieb zväčša znamená väčšiu plochu (ale nie vždy, ako ukazuje histogram).

Podobne ako pri cene, aj rozloha má rozdelenie hodnôt s pozitívnym (pravostranným) zošikmením. Dôvodom je, podobne ako pri drahých nehnuteľnostiach, že ponuka bytov s veľkou plochou je malá, a preto je ich výskyt ojedinelý (hoci nemusí platiť, že drahý byt má nevyhnutne aj veľkú plochu).

V datasete máme 7 typov nehnuteľností:

Najčastejší typ je 3 izbový byt a v tesnom závese 2 izbový byt. Tretie sú 1 izbové byty, avšak v porovnaní s prvými dvoma kategóriami je zrejmý výrazný prepad v ich počte.

2 a 3 izbové byty majú veľmi podobné ceny. 3 izby sú samozrejme drahšie, ale rozdiel (najmä keď vezmem do úvahy zvýšenie ceny z 1 izbových bytov na 2 izbové a z 3 izbových na 4 izbové) je mierny.

Characteristic	1-room apartment, N = 1,565	2-room apartment, N = 4,605	3-room apartment, N = 4,960	4-room apartment, N = 921	5 or more room apartment, N = 55	Double studio, N = 60	Studio, N = 322	p-value¹
price, Median (IQR)	97,900 (76,900 – 123,000)	133,900 (103,000 – 178,000)	145,000 (112,000 – 189,999)	185,000 (140,990 – 244,900)	220,000 (163,500 – 364,000)	128,750 (69,675 – 150,743)	75,300 (55,000 – 99,960)	<0.001
area, Median (IQR)	37 (33 – 40)	55 (50 – 62)	72 (66 – 78)	85 (80 – 96)	108 (95 – 148)	43 (40 – 48)	24 (20 – 28)	<0.001
¹ Kruskal-Wallis rank sum test

Kruskal-Wallisov rank sum test potvrdzuje, že existujú rozdiely v cenách a rozlohe medzi jednotlivými typmi bytov, ktoré nie sú náhodné.

Energetický certifikát budovy (ECB) je právny dokument, ktorý hodnotí budovy z hľadiska energetickej efektívnosti a emisií oxidu uhličitého, čo vedie k ich klasifikácii v energetických stupniciach z najúčinnejšej triedy A po nehospodárnu triedu G.
Energetický certifikát hodnotí budovy z hľadiska štyroch bodov spotreby energie:

Tepelná ochrana budov
Energetické požiadavky na zahrievanie a prípravu horúcej vody
Energetická potreba klimatizácie, klimatizácia
Energetická potreba na osvetlenia

Na základe týchto spotrebných bodov ECB prepočítava požadované množstvo energie v kWh / m² ročne pre celú budovu pre celú budovu.

57% inzerovaných bytov nemá uvedený energetický certifikát. Skoro 25% má explicitne uvedené, že takýto certifikát nemá. Najhoršie certifikáty D až F sú zastúpené veľmi málo.

Box-plot graf pekne ilustruje vzťah medzi úrovňou certifikátu a cenou. S klesajúcou úrovňou certifikátu klesá aj cena. Z grafu je tiež vidno, že ak certifikát chýba (nie je uvedený), nemôžem automaticky uvažovať, že ho inzerovaný byt nemá. Preto aj tieto hodnoty budú imputované pri príprave ML modelu.

Characteristic	A, N = 1,115	B, N = 884	C, N = 141	D, N = 20	E, N = 7	F, N = 2	G, N = 63	none, N = 3,150	p-value¹
price, Median (IQR)	163,500 (132,498 – 218,667)	138,950 (103,000 – 189,923)	114,900 (92,990 – 152,000)	88,400 (57,500 – 142,993)	96,000 (66,000 – 130,995)	107,900 (107,350 – 108,450)	103,500 (74,995 – 134,235)	120,000 (91,000 – 159,375)	<0.001
¹ Kruskal-Wallis rank sum test

Kruskal-Wallisov rank sum test potvrdzuje, že existuje rozdiel v cenách medzi jednotlivými certifikátmi, ktorý nie je náhodný.

Najbežnejší stav ponúkaných nehnuteľností sú Kompletná rekonštrukcia, Čiastočná rekonštrukcia a Novostavba. Nasleduje výraznejší prepad na štvrté miesto, kde sa nachádzajú byty v pôvodnom stave.

Medzi jednotlivými stavmi sú zjavné rozdiely v cene. Najvyššie hodnoty sú v troch kategóriách: Vo výstavbe, novostavba a developerský projekt. Nie je veľkým prekvapením, že nové a ešte nedokončené byty sú najdrahšie. Naopak najlacnejšie sú pôvodný stav a čiastočná rekonštrukcia. Uprostred sa nachádzajú byty s kompletnou rekonštrukciou. Všetky stavy majú odľahlé hodnoty vo vyšších cenových rozpätiach, rozloženie je pozitívne zošikmené.

Characteristic	Complete reconstruction, N = 3,773	Development project, N = 54	New building, N = 3,057	Original condition, N = 1,854	Partial reconstruction, N = 3,439	Under construction, N = 308	p-value¹
price, Median (IQR)	134,900 (102,950 – 178,000)	164,904 (146,100 – 192,271)	169,900 (132,500 – 222,900)	112,700 (85,000 – 149,990)	117,500 (89,900 – 153,000)	184,950 (139,968 – 263,875)	<0.001
area, Median (IQR)	64 (50 – 73)	59 (43 – 68)	59 (49 – 74)	65 (55 – 75)	64 (52 – 73)	58 (51 – 76)	<0.001
¹ Kruskal-Wallis rank sum test

Kruskal-Wallisov rank sum test potvrdzuje, že existujú rozdiely v cenách a rozlohe medzi jednotlivými stavmi bytov, ktoré nie sú náhodné. Zaujímavé je, že novšie byty (Novostavba, developerský projekt) majú menšiu plochu ako staršie byty (teda tie, ktoré majú stav úplná alebo čiastočná rekonštrukcia, resp. pôvodný stav)

Regionálne rozdiely na Slovensku majú v mnohých sociokultúrnych aspektoch západo-východný gradient. Najmä južná časť stredného Slovenska patrí medzi najmenej rozvinuté regióny. Preto je rozumné očakávať rovnaký vzorec aj v cenách bytov.

Okresy s najvyššou a najnižšou priemernou cenou bytov

Najdrahšie byty sú zo západného Slovenska s výnimkou okresu Košice I, ktoré je centrom na východe. Na druhej strane 9 z 10 okresov sa nachádza v južnej a vo východnej časti republiky. Tu je potrebné poznamenať, že väčšina týchto okresov má veľmi nízky počet záznamov (inzerátov). To nám môže povedať dve veci:

Nízke ceny môžu byť spôsobené náhodou (čo však zrejme nebude pravda, cena bude odrážať širšie ekonomické súvislosti)
Realitný trh v tejto časti Slovenska je málo rozvinutý.

Na Mape nižšie sú zobrazené priemerné ceny v obciach (resp. mestských častiach) s aspoň piatimi inzerovanými bytmi.

tinytable_f925bcd0ugx5422u28py

	price	index	environment	quality_of_living	safety	transport	services	relax	area	provision	rooms
price	1	.	.	.	.	.	.	.	.	.	.
index	.10	1	.	.	.	.	.	.	.	.	.
environment	-.28	-.04	1	.	.	.	.	.	.	.	.
quality_of_living	.22	.65	-.10	1	.	.	.	.	.	.	.
safety	.11	.80	-.24	.45	1	.	.	.	.	.	.
transport	.23	.60	-.28	.56	.42	1	.	.	.	.	.
services	.21	.83	-.25	.64	.83	.51	1	.	.	.	.
relax	.20	.83	-.24	.53	.81	.47	.88	1	.	.	.
area	.47	.01	.00	.01	.01	.01	.00	.02	1	.	.
provision	-.05	.02	.00	.01	.02	.00	.02	.04	-.01	1	.
rooms	.38	.01	-.01	.02	.01	-.01	.01	.01	.84	.00	1

Záver a nasledujúce kroky

EDA poskytla cenné poznatky, ktoré budú zohľadnené v predikčnom modeli:

Rozloženie cien je vychýlené doprava – ponuky drahých bytov sú obmedzené
Geopriestorové rozloženie má západ-východný gradient – nižšie ceny sú na východe a juhu, s výnimkou niekoľkých regionálnych centier.
Väčšina miest v datasete má pomerne vysokú úroveň indexu bývania. Vo všeobecnosti existuje pozitívny vzťah medzi jeho hodnotou a cenou.
Existujú preukázané rozdiely medzi cenami bytov s rôznymi stavmi. Nie je prekvapujúce, že nové byty majú najvyššie ceny.
Podobný efekt je pri energetickom certifikáte. Počet chýbajúcich údajov je v tomto prípade vysoký a budem ho riešiť imputáciou.
Veľká väčšina bytov v súbore má 2 a 3 izby. Cena rastie s rastúcou veľkostnou triedou. Zvýšenie ceny z 2 izbovej na 3 izbovú skupinu je v však priemere dosť nízke. Dva možné dôvody sú – dopyt po 2 izbových bytoch (keďže sú stále lacnejšie ako 3 izbové) a lokalita. Ak by sa väčšina 2-izbových bytov nachádzala na západe, ich cena by bola v priemere za celú krajinu vyššia v porovnaní s rovnomerným priestorovým rozložením.

Nezaradené

Machine learning v jazyku R – Odhad cien bytov

Úvod

Explainable ML

Načítanie knižníc a dát

Tidymodels framework

Tvorba modelu

Vyhodnotenie modelu

Uloženie modelu a dát pre aplikáciu

Exploratory data analysis (EDA) v jazyku R

Úvod

Čo je EDA

Úvodné čistenie dát

EDA

Záver a nasledujúce kroky

Geocoding pomocou jazyka R

Knižnice pre geocoding

Načítanie dát a geocoding

Nasledujúce kroky