cleandata, autor na cleandata.sk

Úvod

V tomto blogu sa budem venovať Exploratory Data Analysis (EDA), čiže úvodnej analýze údajov, ktorej cieľom je zistiť aká je kvalita, obsah a štruktúra údajov. V tomto prípade ide o dáta z inzercií nehnuteľností. Dáta sú scrape-nuté z webu Nehnutelnosti, procesmi webscraping-u a geokódovania som prešiel v predchádzajúcich blokoch “Web scrapingpomocou jazyka R” a “Geocoding pomocou jazyka R”.

Čo je EDA

Exploratory Data Analysis je neoddeliteľnou súčasťou dátovej analytiky/dátovej vedy (Data science).

EDA v data science projekte. Zdroj: https://commons.wikimedia.org/wiki/File:Data_visualization_process_v1.png

Účelom EDA je zhrnúť hlavné charakteristiky súboru údajov (ako kvalita, obsah a štruktúra), objaviť vzorce a vzťahy medzi premennými a identifikovať trendy. Malo by nás viesť k pochopeniu údajov a identifikácii kritických premenných vzhľadom na naše ciele. Ako je znázornené na obrázku, ide o iteratívny proces. Na základe vašich zistení môžete buď pokračovať v modelovaní/testovaní hypotéz a reportovaní, alebo sa vrátiť k čisteniu/spracovaniu údajov.
EDA zvyčajne začína načítaním údajov a kontrolou niekoľkých riadkov, aby ste získali prvotný “pocit” z údajov spolu s kontrolou štruktúry údajov, veľkosti vzorky, typov údajov, chýbajúcich hodnôt atď. Potom pokračuje podrobnejšou analýzou, ktorá nám pomáha pochopiť vzťahy a identifikovať odľahlé hodnoty a dôležité premenné. V EDA používame rôzne techniky a nástroje. Vo všeobecnosti ich možno rozdeliť do niekoľkých skupín:

Súhrnné (jednopremenné) štatistiky – min, max, priemer, medián, kvartily, IQR, štandardná odchýlka, počty, frekvencia atď.
Vizualizácia dát – histogram, boxplot, Paretov graf, bodové grafy, korelačná matica, čiarové grafy (pre časové rady), heatmapy atď.
Bi-/viacpremenné štatistiky – korelácia, t-test, chí-kvadrát test, ANOVA, Kruskal-Wallisov test atď.

Na základe zistení vytvoríme záver a buď pokračujeme v projekte, alebo sa vrátime k dodatočnému upratovaniu dát. Je to teda iteratívny proces.
Aj keď radšej robím EDA manuálne, existuje niekoľko R knižníc pre automatizované EDA. Sú užitočné pri prvotnom skúmaní údajov a identifikácii napr. dátových typov, premenných s veľkou časťou chýbajúcich hodnôt a iných “high-level” charakteristík. Sú to napríklad:

DataExplorer
ExPanDaR
dataMaid
dlookr

Úvodné čistenie dát

Začínam klasicky, načítaním knižníc pomocou funkcie p_load z knižnice pacman.

Knižnice

# import libraries
if (!require("pacman")) {
  install.packages("pacman")
}

pacman::p_load(
  janitor, # clean_names()
  skimr, # skim()
  sf, # geospatial data
  ggpubr,
  ggQC, # pareto chart
  scales, # scales
  GGally, # eval_data_col
  knitr,
  modelsummary, # datasummary_correlation()
  gtsummary, # tables
  ggstatsplot, # ggwithinstats()
  effectsize, # interpret_kendalls_w()
  tidyverse, # data wrangling
  kableExtra, # tables
  extrafont # fonts
)

loadfonts(device = "win")

Nasleduje prvotné čistenie dát. V nasledujúcom kóde spájam 3 rôzne súbory. Keďže sú z rôznych zdrojov, je potrebné niektoré hodnoty upraviť do rovnakého tvaru (prípad názvov obcí).
Následne upravujem premenné do správnych typov, odfiltrujem preč záznamy, ktorých hodnoty sú odľahlé alebo úplne chýbajú a nemá zmysel ich imputovať.
Krok preloženia slovenských výrazov do angličtiny nie je nevzhnutný. Robím ho jednak z dôvodu, že som zvyknutý pracovať s anglickými výrazmi pri kódovaní a chcem aby aj dataset bol v tomto ohľade konzistentný. Druhým dôvodom je, že budem dataset nahrávať na Kaggle.
V poslednom kroku robím dve verzie datasetu. Jedna obsahuje premennú ‘geometry’ typu sfc_MULTIPOLYGON, ktorá robí problém alebo extrémne spomaluje výpočty niektorých sumačných funkciách, ak sú aplikované na celý dataset. Preto na všetku EDA budem používať verziu bez nej.

Feature engineering

# Load advertisements data from RDS file
advertisements <- readRDS("data/advertisements.RDS")

# Clean and restructure advertisements data
advertisements <- advertisements %>%
  separate(type_of_real_estate, c("type", "area"), sep = " • ", remove = TRUE) %>%
  select(link, type)

# Load and process districts mapping data from Excel file
districts_mapping <- openxlsx::read.xlsx("data/obce_okresy.xlsx") %>%
  mutate(
    municipality = str_replace(municipality, "Košice - ", "Košice - mestská časť "),
    municipality = str_replace(municipality, "Bratislava - ", "Bratislava - mestská časť ")
  )

# Load and process scraped data with geocoding
scraped_data <- readRDS("data/advertisements_complete_geocoded.RDS") %>%
  filter(!is.na(link)) %>%
  select(-c(address1, address2, info_text, district, municipality, address)) %>%
  rename(quality_of_living = quanlity_of_living) %>%
  mutate(
    NAME_NSI = str_replace(NAME_NSI, "Hodruša-Hámre", "Hodruša - Hámre"),
    NAME_NSI = str_replace(NAME_NSI, "Perín-Chym", "Perín - Chym"),
    NAME_NSI = str_replace(NAME_NSI, "Šaštín-Stráže", "Šaštín - Stráže"),
    NAME_NSI = str_replace(NAME_NSI, "Kostolná-Záriečie", "Kostolná - Záriečie")
  )

# Join advertisements and scraped data
joined_data <- scraped_data %>%
  left_join(advertisements, by = "link", multiple = "first", keep = FALSE) %>%
  clean_names() %>%
  filter(!is.na(price)) %>%
  mutate(
    # Convert relevant columns to numeric format
    pocet_izieb_miestnosti = as.numeric(pocet_izieb_miestnosti),
    uzit_plocha = str_replace(str_replace(uzit_plocha, ",", "."), " m2", ""),
    energie = str_replace(str_replace(energie, ",", "."), " €/mesiac", ""),
    provizia_zahrnuta_v_cene = str_replace_na(provizia_zahrnuta_v_cene, "Nie"),
    # Create a 'rooms' column based on 'type' and handle missing values
    rooms = case_when(type == "1 izbový byt" ~ 1,
      type == "2 izbový byt" ~ 2,
      type == "3 izbový byt" ~ 3,
      type == "4 izbový byt" ~ 4,
      type == "5 a viac izbový byt" ~ 5,
      type == "Garsónka" ~ 1,
      type == "Dvojgarsónka" ~ 2,
      .default = NA
    ),
    pocet_izieb_miestnosti = coalesce(pocet_izieb_miestnosti, rooms, pocet_izieb_miestnosti)
  ) %>%
  mutate_at(c(
    "index_of_living",
    "uzit_plocha",
    "energie",
    "pocet_nadzemnych_podlazi",
    "podlazie",
    "pocet_izieb_miestnosti",
    "rok_vystavby",
    "rok_poslednej_rekonstrukcie",
    "pocet_balkonov",
    "pocet_lodzii"
  ), as.numeric) %>%
  select(-link) %>%
  filter(pocet_izieb_miestnosti < 10 & !is.na(pocet_izieb_miestnosti)) %>%
  mutate(
    type = coalesce(type, case_when(
      pocet_izieb_miestnosti == 1 ~ "1 izbový byt",
      pocet_izieb_miestnosti == 2 ~ "2 izbový byt",
      pocet_izieb_miestnosti == 3 ~ "3 izbový byt",
      pocet_izieb_miestnosti == 4 ~ "4 izbový byt",
      pocet_izieb_miestnosti >= 5 ~ "5 a viac izbový byt"
    ))
  ) %>%
  select(-rooms) %>%
  filter(!(type %in% c("Apartmán", "Mezonet", "Iný byt", "Loft"))) %>%
  rename(
    index = index_of_living,
    condition = stav,
    area = uzit_plocha,
    provision = provizia_zahrnuta_v_cene,
    certificate = energeticky_certifikat,
    energy_costs = energie,
    construction_type = typ_konstrukcie,
    year_built = rok_vystavby,
    last_reconstruction = rok_poslednej_rekonstrukcie,
    total_floors = pocet_nadzemnych_podlazi,
    floor = podlazie,
    lift = vytah,
    balkonies = pocet_balkonov,
    loggia = pocet_lodzii,
    cellar = pivnica,
    orientation = orientacia
  ) %>%
  mutate(
    # Recreate 'rooms' column after filtering and handle missing values
    rooms = as.numeric(case_when(
      type == "1 izbový byt" ~ 1,
      type == "2 izbový byt" ~ 2,
      type == "3 izbový byt" ~ 3,
      type == "4 izbový byt" ~ 4,
      type == "5 a viac izbový byt" ~ 5,
      type == "Garsónka" ~ 1,
      type == "Dvojgarsónka" ~ 2,
      .default = NA
    )),
    # Transform 'provision' to binary
    provision = as.numeric(case_when(
      provision == "Áno" ~ 1,
      provision == "Nie" ~ 0,
      .default = NA
    )),
    # Transform 'lift' to binary
    lift = as.numeric(case_when(
      lift == "Áno" ~ 1,
      .default = 0
    )),
    # Transform 'cellar' to binary
    cellar = as.numeric(case_when(
      cellar == "Áno" ~ 1,
      .default = 0
    )),
    certificate = if_else(certificate == "nemá", "none", certificate)
  ) %>%
  select(-pocet_izieb_miestnosti) %>%
  mutate(
    # Convert relevant columns to numeric format
    across(c(
      "environment", "safety", "transport", "relax", "quality_of_living", "services"
    ), na_if, "0"),
    across(c(
      "environment", "safety", "transport", "relax", "quality_of_living", "services"
    ), as.numeric)
  )

# Translating Slovak terms into English
# Define mapping vectors
original_conditions <- c(
  "Pôvodný stav", "Čiastočná rekonštrukcia", "Kompletná rekonštrukcia",
  "Novostavba", "Vo výstavbe", "Developerský projekt"
)
english_conditions <- c(
  "Original condition", "Partial reconstruction", "Complete reconstruction",
  "New building", "Under construction", "Development project"
)
original_construction_type <- c("Tehlová", "Panelová", "Iná", "Kvádrová", "Zmiešaná", "Panelová, Tehlová", "Skeletová", "Tehlová, Železobetónová", "Kamenná", "Montovaná", "Drevená")
english_construction_type <- c("Brick", "Panel", "Other", "Cube", "Mixed", "Panel, Brick", "Skeletal", "Brick, Reinforced concrete", "Stone", "Mounted", "Wooden")
original_orientation <- c("Juhozápadná", "Južná", "Západná", "Východná", "Juhovýchodná", "Severovýchodná", "Severozápadná", "Severná")
english_orientation <- c("Southwest", "South", "West", "East", "Southeast", "Northeast", "Northwest", "North")
original_type <- c("3 izbový byt", "1 izbový byt", "2 izbový byt", "4 izbový byt", "Garsónka", "5 a viac izbový byt", "Dvojgarsónka")
english_type <- c("3-room apartment", "1-room apartment", "2-room apartment", "4-room apartment", "Studio", "5 or more room apartment", "Double studio")

# Translate values
joined_data <- joined_data %>%
  mutate(
    condition = recode(condition, !!!setNames(english_conditions, original_conditions)),
    construction_type = recode(construction_type, !!!setNames(english_construction_type, original_construction_type)),
    orientation = recode(orientation, !!!setNames(english_orientation, original_orientation)),
    type = recode(type, !!!setNames(english_type, original_type))
  )

# Join with districts mapping data
joined_data <- joined_data %>%
  left_join(districts_mapping, join_by(name_nsi == municipality), keep = FALSE, multiple = "first")

# Create a copy of joined data without geometry information
joined_data_wo_geom <- joined_data
joined_data_wo_geom$geometry <- NULL

write.csv2(joined_data_wo_geom, "data/apartments_appraisal.csv", row.names = F)

EDA

Prvý krok v EDA je pozrieť sa na dáta ako celok. V jazyku R môžeme použiť napr. základnú funkciu summary(). Ja osobne používam rád funkciu skim() z knižnice skimr. Obe poskytujú zhrnutie a deskriptívne štatistiky premenných. Funkcia skim() je však podrobnejšia a vracia aj údaje o type premennej, formátovaní kompletnosti atď.

Sumár kvalitatívnych dát

skimmed_summary <- skim(joined_data_wo_geom)

skimmed_summary %>%
  filter(skim_type == "character") %>%
  mutate(complete_rate = round(complete_rate, 1)) %>%
  select(c(variable = skim_variable, missing = n_missing, complete_rate, empty = character.empty, unique = character.n_unique)) %>%
  kable(format = "html", format.args = list(big.mark = " ")) %>%
  kable_styling(
    bootstrap_options = c("striped", "hover"),
    full_width = F,
    font_size = 12,
    position = "left"
  )

variable	missing	complete_rate	unique
name_nsi	0	1.0	598
condition	327	1.0	6
certificate	8 958	0.4	8
construction_type	13 036	0.2	11
orientation	14 380	0.1	8
type	0	1.0	7
district	0	1.0	79

Sumár kvantitatívnych dát

skimmed_summary %>%
  filter(skim_type == "numeric") %>%
  mutate(
    complete_rate = round(complete_rate, 1),
    numeric.mean = round(numeric.mean, 1),
    numeric.sd = round(numeric.sd, 1)
  ) %>%
  select(c(variable = skim_variable, missing = n_missing, complete_rate, mean = numeric.mean, sd = numeric.sd, p0 = numeric.p0, p25 = numeric.p25, p50 = numeric.p50, p75 = numeric.p75, p100 = numeric.p100, hist = numeric.hist)) %>%
  kable(format = "html", digits = 1, format.args = list(big.mark = " ")) %>%
  kable_styling(
    bootstrap_options = c("striped", "hover"),
    full_width = F,
    font_size = 12,
    position = "left"
  )

variable	missing	complete_rate	mean	sd	p0	p25	p50	p75	p100	hist
price	0	1.0	165 205.7	162 973.6	11 500.0	99 900.0	136 900.0	190 000.0	9 936 000.0	▇▁▁▁▁
index	10 241	0.3	7.8	0.9	3.3	7.3	8.0	8.5	9.5	▁▁▃▇▇
environment	11 271	0.3	7.8	0.9	2.7	7.3	8.0	8.4	10.0	▁▁▂▇▂
quality_of_living	11 271	0.3	8.8	0.9	2.7	8.4	9.0	9.4	10.0	▁▁▁▃▇
safety	11 271	0.3	8.0	2.0	2.0	7.2	8.7	9.5	10.0	▁▁▂▃▇
transport	11 271	0.3	8.4	1.4	2.0	7.7	8.6	9.3	10.0	▁▁▁▃▇
services	11 271	0.3	8.0	1.6	2.0	7.2	8.4	9.2	10.0	▁▁▂▅▇
relax	11 271	0.3	5.7	1.8	2.0	4.5	5.8	7.1	9.5	▃▇▇▇▃
area	716	1.0	104.7	2 589.6	1.0	51.9	65.0	77.0	209 900.0	▇▁▁▁▁
energy_costs	14 423	0.1	150.6	52.3	20.0	110.0	150.0	190.0	365.0	▂▇▅▁▁
provision	0	1.0	0.2	0.4	0.0	0.0	0.0	0.0	1.0	▇▁▁▁▂
year_built	11 525	0.3	1 901.7	499.1	1.0	1 971.0	1 980.0	2 020.0	19 741.0	▇▁▁▁▁
last_reconstruction	14 721	0.0	2 018.3	6.0	1 968.0	2 016.0	2 020.0	2 023.0	2 024.0	▁▁▁▁▇
total_floors	8 117	0.5	5.6	3.7	1.0	3.0	5.0	8.0	46.0	▇▁▁▁▁
floor	7 087	0.5	3.5	2.6	-7.0	2.0	3.0	5.0	34.0	▂▇▁▁▁
lift	0	1.0	0.3	0.4	0.0	0.0	0.0	1.0	1.0	▇▁▁▁▃
balkonies	13 636	0.1	1.1	0.4	1.0	1.0	1.0	1.0	6.0	▇▁▁▁▁
loggia	13 883	0.1	1.1	0.4	1.0	1.0	1.0	1.0	5.0	▇▁▁▁▁
cellar	0	1.0	0.0	0.1	0.0	0.0	0.0	0.0	1.0	▇▁▁▁▁
rooms	0	1.0	2.5	0.9	1.0	2.0	3.0	3.0	5.0	▃▇▇▂▁

Prvých/posledných 5 riadkov si zobrazíme pomocou funkcií head() resp. tail() s parametrom 5.

Náhľad dát

head(joined_data_wo_geom, 5) %>%
  mutate_if(is.numeric,
    round,
    digits = 1
  ) %>%
  kable(format = "html") %>%
  kable_styling(
    bootstrap_options = c("striped", "hover"),
    full_width = F,
    font_size = 12,
    position = "left"
  ) %>%
  scroll_box(width = "100%")

name_nsi	price	index	environment	quality_of_living	safety	transport	services	relax	condition	area	energy_costs	provision	certificate	construction_type	orientation	year_built	last_reconstruction	total_floors	floor	lift	balkonies	loggia	type	rooms	district
Semerovo	42000	NA	NA	NA	NA	NA	NA	NA	Original condition	58	NA	0	NA	NA	NA	NA	NA	NA	NA	0	NA	NA	3-room apartment	3	Nové Zámky
Semerovo	42000	NA	NA	NA	NA	NA	NA	NA	Original condition	58	NA	0	none	Brick	NA	NA	NA	2	NA	0	NA	NA	3-room apartment	3	Nové Zámky
Štúrovo	107000	8.3	NA	NA	NA	NA	NA	NA	Partial reconstruction	40	NA	0	NA	NA	NA	NA	NA	5	3	0	NA	NA	1-room apartment	1	Nové Zámky
Štúrovo	105000	NA	NA	NA	NA	NA	NA	NA	Complete reconstruction	76	200	1	C	NA	NA	NA	NA	7	4	1	NA	NA	3-room apartment	3	Nové Zámky
Štúrovo	82000	NA	NA	NA	NA	NA	NA	NA	Partial reconstruction	63	NA	0	NA	NA	NA	NA	2018	NA	2	0	NA	NA	2-room apartment	2	Nové Zámky

Dataset pozostáva z 27 premenných. 10 je kategorických (kvalitatívnych) a 17 kvantitatívnych. Z tabuliek je hneď vidieť prvý problém, ktorý bude nutné vyriešiť – chýbajúce dáta. Tu sa ponúka niekoľko možností, ako sa k tomuto problému postaviť:

Odstránenie riadkov alebo stĺpcov s chýbajúcimi hodnotami: Táto metóda je vhodná, ak počet chýbajúcich hodnôt je malý v porovnaní s celkovým počtom hodnôt v dátovom sete. Avšak táto metóda môže viesť k strate informácií a môže ovplyvniť výsledky analýzy.
Imputácia hodnôt: Táto metóda spočíva v nahradení chýbajúcich hodnôt inými hodnotami. Existuje niekoľko spôsobov, ako to dosiahnuť, ako napríklad nahradenie chýbajúcich hodnôt priemerom, mediánom, modusom alebo inými štatistickými metódami. Táto metóda môže byť vhodná, ak počet chýbajúcich hodnôt je relatívne malý a poznáme vlastnosti premennej (napr. rozloženie má veľký vplyv na hodnotu priemeru. Ak premenná obsahuje odľahlé hodnoty, medián je lepšou voľbou). Výhodou týchto metód je rýchlosť aplikovania.
Použitie modelov strojového učenia: Táto metóda spočíva v použití modelov strojového učenia (napr. KNN, LM, Random Forest) na predpovedanie chýbajúcich hodnôt. Táto metóda môže byť vhodná, ak počet chýbajúcich hodnôt je vysoký a ak existuje dostatočné množstvo dát na trénovanie modelu. Ich použitie je tiež vhodné, ak predpokladáme komplexné vzťahy medzi premennými a máme niekoľko prediktorov s výrazným vplyvom na premennú s chýbajúcimi hodnotami. Tiež je vhodné zvážit tieto metódy v prípade nelineárnych vzťahov medzi premennými.
Ponechanie chýbajúcich hodnôt: Ponechanie chýbajúcich hodnôt a pristupovanie k nim ako ku špecifickej situácii je tiež možnosťou.

Druhým problémom, ktorý treba bežne riešiť, je prítomnosť odľahlých hodnôt (outliers). Opäť máme niekoľko možných riešení.

Odstránenie riadkov alebo stĺpcov s odľahlými hodnotami: Keďže počet odľahlých hodnôt je malý (sú to extrémne hodnoty), táto metóda je schodnejšia než bola pri výskyte chýbajúcich hodnôt, ktorých počet je vysoký.
Nahradenie odľahlých hodnôt: Na výber máme z viacerých možností. Priemer, medián, použitie KNN imputácie.
Transformácia: Existuje množstvo metód transformácie dát, ktoré môžeme použit. Veľmi často sa používa logaritmická transformácia, v prípade ktorej aplikujeme logaritmus (najčastejšie prirodzený) na každú hodnotu vo vektore. Ďalšou možnosťou je štandardizácia (z-skóre), ak naše dáta spĺňajú predpoklady pre túto metódu. Použiť môžeme aj winsorizáciu, ktorá sa používa na nahradenie odľahlých hodnôt s hodnotami, ktoré sú bližšie k ostatným hodnotám v datasete (capping/trimming). Môžeme použiť štandardnú winsorizáciu alebo winsorizáciu na základe percentilov. Binning je posledná metóda, ktorú uvediem. Je zaujímavá, lebo jej výsledkom nemusí byť nevyhnutne číselná hodnota, ale kategorická premenná. Pôvodná hodnota sa nahradí intervalom (bin), do ktorého spadá (napr. osoba vo veku 32 rokov spadá do kategórie 30-34). Môže sa však nahradiť aj strednou hodnotou v rámci tohto binu (napr. priemerom 33,2 alebo mediánom 32,9).

Chýbajúce hodnoty

Ako prvé sa zbavím stĺpcov, ktoré majú veľmi vysoký počet chýbajúcich záznamov a ich imputácia by mohla skresliť výsledky a spôsobiť nepresnosti v analýze.

Následne môžem vyriešiť tie prípady, kde imputácia dáva zmysel.
Je to napríklad stĺpec index a jeho šesť kategórií: environment, quality_of_living, safety, transport, services a relax. Index môže mať hodnotu od 0 do 10 a pripravuje ho slovenský startup City Performer. Tento údaj nie je k dispozícii pre všetky inzeráty. Môžem však zoskupiť záznamy podľa obce a chýbajúce hodnoty doplniť priemerom.

Imputácia dát

joined_data_cleaned_wo_geom <- joined_data_cleaned
joined_data_cleaned_wo_geom$geometry <- NULL

# price where we have index
mun_ind_price <- joined_data_cleaned_wo_geom %>%
  filter(!is.na(index)) %>%
  group_by(name_nsi) %>%
  summarize(price_with_before = mean(price, na.rm = TRUE)) %>%
  summary() %>%
  as.data.frame() %>%
  filter(str_trim(Var2) != "name_nsi") %>%
  separate(col = Freq, sep = ":", c("measure", "value")) %>%
  mutate(value = as.numeric(str_squish(value))) %>%
  select(
    Measure = measure,
    `Price with index before` = value
  )

# price where we don't have index
mun_no_ind_price <- joined_data_cleaned_wo_geom %>%
  filter(is.na(index)) %>%
  group_by(name_nsi) %>%
  summarize(price_without_before = mean(price, na.rm = TRUE)) %>%
  summary() %>%
  as.data.frame() %>%
  filter(str_trim(Var2) != "name_nsi") %>%
  separate(col = Freq, sep = ":", c("measure", "value")) %>%
  mutate(value = as.numeric(str_squish(value))) %>%
  select(`Price without index before` = value)

# imputation on municipality level
joined_data_cleaned <- joined_data_cleaned %>%
  group_by(name_nsi) %>%
  mutate(
    index2 = mean(index, na.rm = TRUE),
    environment2 = mean(environment, na.rm = TRUE),
    quality_of_living2 = mean(quality_of_living, na.rm = TRUE),
    safety2 = mean(safety, na.rm = TRUE),
    transport2 = mean(transport, na.rm = TRUE),
    services2 = mean(services, na.rm = TRUE),
    relax2 = mean(relax, na.rm = TRUE),
    price_after = mean(price, na.rm = TRUE)
  ) %>%
  ungroup()

joined_data_cleaned_wo_geom <- joined_data_cleaned
joined_data_cleaned_wo_geom$geometry <- NULL

# price where we have index after imputation
mun_imputed_ind_price <- joined_data_cleaned_wo_geom %>%
  filter(!is.na(index2)) %>%
  group_by(name_nsi) %>%
  summarize(price_with_after = mean(price_after, na.rm = TRUE)) %>%
  summary() %>%
  as.data.frame() %>%
  filter(str_trim(Var2) != "name_nsi") %>%
  separate(col = Freq, sep = ":", c("measure", "value")) %>%
  mutate(value = as.numeric(str_squish(value))) %>%
  select(`Price with index after` = value)

# price where we don't have index after imputation
mun_imputed_no_ind_price <- joined_data_cleaned_wo_geom %>%
  filter(is.na(index2)) %>%
  group_by(name_nsi) %>%
  summarize(price_with_after = mean(price_after, na.rm = TRUE)) %>%
  summary() %>%
  as.data.frame() %>%
  filter(str_trim(Var2) != "name_nsi") %>%
  separate(col = Freq, sep = ":", c("measure", "value")) %>%
  mutate(value = as.numeric(str_squish(value))) %>%
  select(`Price without index after` = value)

comparison_mun_ind <- cbind(mun_ind_price, mun_imputed_ind_price, mun_no_ind_price, mun_imputed_no_ind_price)

joined_data_cleaned <- joined_data_cleaned %>%
  mutate(
    index = coalesce(index, index2),
    environment = coalesce(environment, environment2),
    quality_of_living = coalesce(quality_of_living, quality_of_living2),
    safety = coalesce(safety, safety2),
    transport = coalesce(transport, transport2),
    services = coalesce(services, services2),
    relax = coalesce(relax, relax2)
  ) %>%
  select(-c(
    index2,
    environment2,
    quality_of_living2,
    safety2,
    transport2,
    services2,
    relax2,
    price_after
  ))

comparison_mun_ind %>%
  kable(format = "html", format.args = list(big.mark = " ")) %>%
  kable_styling(
    bootstrap_options = c("striped", "hover"),
    full_width = F,
    font_size = 12,
    position = "left"
  )

Measure	Price with index before	Price with index after	Price without index before	Price without index after
Min.	23 000	23 000	19 200	19 200
1st Qu.	113 792	111 288	78 130	72 995
Median	153 976	145 008	105 813	99 987
Mean	159 949	154 151	117 100	106 715
3rd Qu.	193 002	187 453	141 992	130 131
Max.	425 664	416 350	888 888	888 888

Po imputácii sa distribúcia ceny nehnuteľnosti (ako premennej, pre ktorú budeme vytvárať predikčný model) zásadne nezmenila.

Odľahlé hodnoty

Podobne ako pri indexe, odľahlé hodnoty cien nehnuteľností odstraňujem v kontexte obcí. Dáta agregujem podľa názvu obce a pokiaľ niektorý záznam presahuje hodnotu mediánu +- 1,5 násobok medzikvartilového rozpätia, tak záznam odstránim.

Odstránenie odľahlých hodnôt

joined_data_cleaned <- joined_data_cleaned %>%
  filter(!is.na(price)) %>%
  group_by(name_nsi) %>%
  mutate(
    IQR = IQR(price),
    median = median(price),
    lower = median - 1.5 * IQR,
    upper = median + 1.5 * IQR,
  ) %>%
  ungroup() %>%
  filter(price >= lower & price <= upper) %>%
  select(-lower, -upper, -median, -IQR)

Niekedy je potrebné ešte zvážiť jednotlivé prípady. Napr. po predchádzajúcom odfiltrovaní niektorých záznamov ostal v datasete záznam s cenou 888 888, celkom určite to nie je skutočná cena a tento riadok zmažem tiež.

Rozloha tiež obsahuje záznamy, ktoré bude lepšie odstrániť. Keď sa pozriem na hodnoty prvých a posledných piatich promile, je jasné, že odstraňovať budem len veľmi malé množstvo záznamov.

Prvých 5 promile podľa rozlohy

quantile(joined_data_cleaned$area, probs = seq(.0, 0.005, by = .001), na.rm = TRUE) %>%
  as.data.frame() %>%
  rownames_to_column() %>%
  `colnames<-`(c("Percentil", "Rozloha")) %>%
  kable(format = "html", digits = 1, format.args = list(big.mark = " ")) %>%
  kable_styling(
    bootstrap_options = c("striped", "hover"),
    full_width = F,
    font_size = 12,
    position = "left"
  )

Percentil	Rozloha
0%	1.0
0.1%	1.0
0.2%	1.0
0.3%	1.0
0.4%	14.9
0.5%	19.0

Posledných 5 promile podľa rozlohy

quantile(joined_data_cleaned$area, probs = seq(.995, 1, by = .001), na.rm = TRUE) %>%
  as.data.frame() %>%
  rownames_to_column() %>%
  `colnames<-`(c("Percentil", "Rozloha")) %>%
  kable(format = "html", digits = 1, format.args = list(big.mark = " ")) %>%
  kable_styling(
    bootstrap_options = c("striped", "hover"),
    full_width = F,
    font_size = 12,
    position = "left"
  )

Percentil	Rozloha
99.5%	157.5
99.6%	161.1
99.7%	170.3
99.8%	194.8
99.9%	246.1
100%	209 900.0

Odstránenie odľahlých hodnôt

min_area <- quantile(joined_data_cleaned$area, 0.003, na.rm = TRUE)[[1]]
max_area <- quantile(joined_data_cleaned$area, 0.999, na.rm = TRUE)[[1]]

joined_data_cleaned <- joined_data_cleaned[joined_data_cleaned$area > min_area & joined_data_cleaned$area < max_area, ]

Ostatné faktory

Nasleduje posledné dočistenie dát pred tým, než budem pokračovať v detailnejšej EDA. V tomto kroku odstraňujem záznamy z obcí, ktoré majú menej ako 5 inzerátov. Namiesto 5 by som mohol vybrať aj iné číslo, ale existuje “rule of thumb”, ktoré tvrdí, že je 93,75% šanca, že medián populácie je medzi najnižšou a najvyššou hodnotou náhodne vybranej vzorky.

Po týchto pár zmenách je stav viditeľne lepší. Ostáva niekoľko premenných, ktoré obsahujú chýbajúce záznamy. O tie sa postarám neskôr pri príprave ML modelu.

Sumár kvalitatívnych dát po očistení

skimmed_summary_cleaned %>%
  filter(skim_type == "character") %>%
  mutate(complete_rate = round(complete_rate, 1)) %>%
  select(c(variable = skim_variable, missing = n_missing, complete_rate, empty = character.empty, unique = character.n_unique)) %>%
  kable(format = "html", format.args = list(big.mark = " ")) %>%
  kable_styling(
    bootstrap_options = c("striped", "hover"),
    full_width = F,
    font_size = 12,
    position = "left"
  )

variable	missing	complete_rate	unique
name_nsi	0	1.0	203
condition	3	1.0	6
certificate	7 106	0.4	8
type	0	1.0	7
district	0	1.0	72

Sumár kvantitatívnych dát po očistení

skimmed_summary_cleaned %>%
  filter(skim_type == "numeric") %>%
  mutate(
    complete_rate = round(complete_rate, 1),
    numeric.mean = round(numeric.mean, 1),
    numeric.sd = round(numeric.sd, 1)
  ) %>%
  select(c(variable = skim_variable, missing = n_missing, complete_rate, mean = numeric.mean, sd = numeric.sd, p0 = numeric.p0, p25 = numeric.p25, p50 = numeric.p50, p75 = numeric.p75, p100 = numeric.p100, hist = numeric.hist)) %>%
  kable(format = "html", digits = 1, format.args = list(big.mark = " ")) %>%
  kable_styling(
    bootstrap_options = c("striped", "hover"),
    full_width = F,
    font_size = 12,
    position = "left"
  )

variable	missing	complete_rate	mean	sd	p0	p25	p50	p75	p100	hist
price	0	1.0	149 723.1	72 018.2	22 997.0	99 990.0	135 000.0	1.8e+05	600 000.0	▇▆▁▁▁
index	2 887	0.8	7.8	0.8	3.3	7.5	8.0	8.3e+00	9.5	▁▁▁▇▅
environment	2 921	0.8	7.9	0.8	2.7	7.5	7.8	8.4e+00	10.0	▁▁▁▇▂
quality_of_living	2 921	0.8	8.7	0.7	2.7	8.4	8.9	9.2e+00	10.0	▁▁▁▃▇
safety	2 921	0.8	8.2	1.7	2.0	7.7	8.6	9.5e+00	10.0	▁▁▁▅▇
transport	2 921	0.8	8.4	1.2	2.0	7.9	8.6	8.9e+00	10.0	▁▁▁▅▇
services	2 921	0.8	8.0	1.3	2.0	7.4	8.3	8.8e+00	10.0	▁▁▂▇▇
relax	2 921	0.8	5.8	1.5	2.0	4.9	5.9	6.7e+00	9.5	▂▆▇▇▁
area	0	1.0	63.0	20.4	3.0	51.0	63.0	7.4e+01	238.0	▃▇▁▁▁
provision	0	1.0	0.2	0.4	0.0	0.0	0.0	0.0e+00	1.0	▇▁▁▁▂
rooms	0	1.0	2.4	0.8	1.0	2.0	2.0	3.0e+00	5.0	▃▇▇▂▁

Cena je hlavná premenná, ktorá ma zaujíma a ktorú budem neskôr predikovať pomocou natrénovaného ML modelu.

Rozloženie hodnôt je asymetrické s pozitívnym (pravostranným) zošikmením. Toto sa dalo očakávať vzľadom na to, že drahé nehnuteľnosti sa nachádzajú v ponuke menej často. V prípade potreby môžem využiť logaritmickú transformáciu, aby som získal viac normálne rozdelenie.

Index udáva agregované hodnotenie šiestich rôznych charakteristík miesta, kde sa nehnuteľnosť nachádza.

2887 inzerátov ( 23.1 % zo všetkých) nemá ani po imputácii dostupný tento údaj.

Na rozdiel od cien, index bývania má negatívne zošikmenie. Priemerná hodnota je 7.8 bodu a medián 8 bodov. Medzi inzerátmi však nájdeme aj hodnoty nižšie ako 4 body.
Jednotlivé kategórie, ktoré sa podieľajú na výslednom indexe, majú niekoľko spoločných vlasností. Všetky majú medián aj priemer v hornej polovici možných bodov. Je to do istej miery očakávateľné, keďže hodnotenie je zrejme zamerané najmä na mestá a väčšie obce. Je tam jednak dostatok ponúk na trhu s nehnuteľnosťami aby sa vôbec oplatilo venovať mu pozornosť a vzhľadom na veľkú ponuku, a teda pravdepodobne aj dopyt, bude občianska vybavenosť aspoň na uspokojivej úrovni. Zo šiestich kategórií sa mierne odchyľuje “životné prostredie” a celkom evidentne “relax”, pri ktorom ani jedna lokalita nedosiahla maximálny počet bodov.

Category	Min	1st Qu.	Median	Mean	3rd Qu.	Max
environment	2.7	7.5	7.8	7.9	8.4	10.0
quality_of_living	2.7	8.4	8.9	8.7	9.2	10.0
safety	2.0	7.7	8.6	8.2	9.5	10.0
transport	2.0	7.9	8.6	8.4	8.9	10.0
services	2.0	7.4	8.3	8.0	8.8	10.0
relax	2.0	4.9	5.9	5.8	6.7	9.5

Napriek podobnostiam medzi kategóriami, rozdiely ich hodnôt sú štatisticky významne odlišné (p hodnota < 0.01) a táto odlišnosť je mierna (moderate agreement). Durbinov test párového porovnania ukazuje, že všetky kategórie sú navzájom odlišné (podľa Holm adjustovaných p hodnôt).

Pri pohľade na koreláciu indexu a jeho komponentov s cenou je zaujímavé, že samotný index má nižšiu koreláciu s cenou ako väčšina jednotlivých komponentov. Ak sa pozriem na tie, tak negatívny vzťah je len pri životnom prostredí. Naopak najvyšší pozitívny vzťah s cenou majú relax, služby a transport.

Rozloha bude zrejme jednou z najpodstatnejších premenných pri predikovaní ceny nehnuteľnosti. Tiež bude úzko súvisieť s typom nehnuteľnosti – viac izieb zväčša znamená väčšiu plochu (ale nie vždy, ako ukazuje histogram).

Podobne ako pri cene, aj rozloha má rozdelenie hodnôt s pozitívnym (pravostranným) zošikmením. Dôvodom je, podobne ako pri drahých nehnuteľnostiach, že ponuka bytov s veľkou plochou je malá, a preto je ich výskyt ojedinelý (hoci nemusí platiť, že drahý byt má nevyhnutne aj veľkú plochu).

V datasete máme 7 typov nehnuteľností:

Najčastejší typ je 3 izbový byt a v tesnom závese 2 izbový byt. Tretie sú 1 izbové byty, avšak v porovnaní s prvými dvoma kategóriami je zrejmý výrazný prepad v ich počte.

2 a 3 izbové byty majú veľmi podobné ceny. 3 izby sú samozrejme drahšie, ale rozdiel (najmä keď vezmem do úvahy zvýšenie ceny z 1 izbových bytov na 2 izbové a z 3 izbových na 4 izbové) je mierny.

Characteristic	1-room apartment, N = 1,565	2-room apartment, N = 4,605	3-room apartment, N = 4,960	4-room apartment, N = 921	5 or more room apartment, N = 55	Double studio, N = 60	Studio, N = 322	p-value¹
price, Median (IQR)	97,900 (76,900 – 123,000)	133,900 (103,000 – 178,000)	145,000 (112,000 – 189,999)	185,000 (140,990 – 244,900)	220,000 (163,500 – 364,000)	128,750 (69,675 – 150,743)	75,300 (55,000 – 99,960)	<0.001
area, Median (IQR)	37 (33 – 40)	55 (50 – 62)	72 (66 – 78)	85 (80 – 96)	108 (95 – 148)	43 (40 – 48)	24 (20 – 28)	<0.001
¹ Kruskal-Wallis rank sum test

Kruskal-Wallisov rank sum test potvrdzuje, že existujú rozdiely v cenách a rozlohe medzi jednotlivými typmi bytov, ktoré nie sú náhodné.

Energetický certifikát budovy (ECB) je právny dokument, ktorý hodnotí budovy z hľadiska energetickej efektívnosti a emisií oxidu uhličitého, čo vedie k ich klasifikácii v energetických stupniciach z najúčinnejšej triedy A po nehospodárnu triedu G.
Energetický certifikát hodnotí budovy z hľadiska štyroch bodov spotreby energie:

Tepelná ochrana budov
Energetické požiadavky na zahrievanie a prípravu horúcej vody
Energetická potreba klimatizácie, klimatizácia
Energetická potreba na osvetlenia

Na základe týchto spotrebných bodov ECB prepočítava požadované množstvo energie v kWh / m² ročne pre celú budovu pre celú budovu.

57% inzerovaných bytov nemá uvedený energetický certifikát. Skoro 25% má explicitne uvedené, že takýto certifikát nemá. Najhoršie certifikáty D až F sú zastúpené veľmi málo.

Box-plot graf pekne ilustruje vzťah medzi úrovňou certifikátu a cenou. S klesajúcou úrovňou certifikátu klesá aj cena. Z grafu je tiež vidno, že ak certifikát chýba (nie je uvedený), nemôžem automaticky uvažovať, že ho inzerovaný byt nemá. Preto aj tieto hodnoty budú imputované pri príprave ML modelu.

Characteristic	A, N = 1,115	B, N = 884	C, N = 141	D, N = 20	E, N = 7	F, N = 2	G, N = 63	none, N = 3,150	p-value¹
price, Median (IQR)	163,500 (132,498 – 218,667)	138,950 (103,000 – 189,923)	114,900 (92,990 – 152,000)	88,400 (57,500 – 142,993)	96,000 (66,000 – 130,995)	107,900 (107,350 – 108,450)	103,500 (74,995 – 134,235)	120,000 (91,000 – 159,375)	<0.001
¹ Kruskal-Wallis rank sum test

Kruskal-Wallisov rank sum test potvrdzuje, že existuje rozdiel v cenách medzi jednotlivými certifikátmi, ktorý nie je náhodný.

Najbežnejší stav ponúkaných nehnuteľností sú Kompletná rekonštrukcia, Čiastočná rekonštrukcia a Novostavba. Nasleduje výraznejší prepad na štvrté miesto, kde sa nachádzajú byty v pôvodnom stave.

Medzi jednotlivými stavmi sú zjavné rozdiely v cene. Najvyššie hodnoty sú v troch kategóriách: Vo výstavbe, novostavba a developerský projekt. Nie je veľkým prekvapením, že nové a ešte nedokončené byty sú najdrahšie. Naopak najlacnejšie sú pôvodný stav a čiastočná rekonštrukcia. Uprostred sa nachádzajú byty s kompletnou rekonštrukciou. Všetky stavy majú odľahlé hodnoty vo vyšších cenových rozpätiach, rozloženie je pozitívne zošikmené.

Characteristic	Complete reconstruction, N = 3,773	Development project, N = 54	New building, N = 3,057	Original condition, N = 1,854	Partial reconstruction, N = 3,439	Under construction, N = 308	p-value¹
price, Median (IQR)	134,900 (102,950 – 178,000)	164,904 (146,100 – 192,271)	169,900 (132,500 – 222,900)	112,700 (85,000 – 149,990)	117,500 (89,900 – 153,000)	184,950 (139,968 – 263,875)	<0.001
area, Median (IQR)	64 (50 – 73)	59 (43 – 68)	59 (49 – 74)	65 (55 – 75)	64 (52 – 73)	58 (51 – 76)	<0.001
¹ Kruskal-Wallis rank sum test

Kruskal-Wallisov rank sum test potvrdzuje, že existujú rozdiely v cenách a rozlohe medzi jednotlivými stavmi bytov, ktoré nie sú náhodné. Zaujímavé je, že novšie byty (Novostavba, developerský projekt) majú menšiu plochu ako staršie byty (teda tie, ktoré majú stav úplná alebo čiastočná rekonštrukcia, resp. pôvodný stav)

Regionálne rozdiely na Slovensku majú v mnohých sociokultúrnych aspektoch západo-východný gradient. Najmä južná časť stredného Slovenska patrí medzi najmenej rozvinuté regióny. Preto je rozumné očakávať rovnaký vzorec aj v cenách bytov.

Okresy s najvyššou a najnižšou priemernou cenou bytov

Najdrahšie byty sú zo západného Slovenska s výnimkou okresu Košice I, ktoré je centrom na východe. Na druhej strane 9 z 10 okresov sa nachádza v južnej a vo východnej časti republiky. Tu je potrebné poznamenať, že väčšina týchto okresov má veľmi nízky počet záznamov (inzerátov). To nám môže povedať dve veci:

Nízke ceny môžu byť spôsobené náhodou (čo však zrejme nebude pravda, cena bude odrážať širšie ekonomické súvislosti)
Realitný trh v tejto časti Slovenska je málo rozvinutý.

Na Mape nižšie sú zobrazené priemerné ceny v obciach (resp. mestských častiach) s aspoň piatimi inzerovanými bytmi.

tinytable_f925bcd0ugx5422u28py

	price	index	environment	quality_of_living	safety	transport	services	relax	area	provision	rooms
price	1	.	.	.	.	.	.	.	.	.	.
index	.10	1	.	.	.	.	.	.	.	.	.
environment	-.28	-.04	1	.	.	.	.	.	.	.	.
quality_of_living	.22	.65	-.10	1	.	.	.	.	.	.	.
safety	.11	.80	-.24	.45	1	.	.	.	.	.	.
transport	.23	.60	-.28	.56	.42	1	.	.	.	.	.
services	.21	.83	-.25	.64	.83	.51	1	.	.	.	.
relax	.20	.83	-.24	.53	.81	.47	.88	1	.	.	.
area	.47	.01	.00	.01	.01	.01	.00	.02	1	.	.
provision	-.05	.02	.00	.01	.02	.00	.02	.04	-.01	1	.
rooms	.38	.01	-.01	.02	.01	-.01	.01	.01	.84	.00	1

Záver a nasledujúce kroky

EDA poskytla cenné poznatky, ktoré budú zohľadnené v predikčnom modeli:

Rozloženie cien je vychýlené doprava – ponuky drahých bytov sú obmedzené
Geopriestorové rozloženie má západ-východný gradient – nižšie ceny sú na východe a juhu, s výnimkou niekoľkých regionálnych centier.
Väčšina miest v datasete má pomerne vysokú úroveň indexu bývania. Vo všeobecnosti existuje pozitívny vzťah medzi jeho hodnotou a cenou.
Existujú preukázané rozdiely medzi cenami bytov s rôznymi stavmi. Nie je prekvapujúce, že nové byty majú najvyššie ceny.
Podobný efekt je pri energetickom certifikáte. Počet chýbajúcich údajov je v tomto prípade vysoký a budem ho riešiť imputáciou.
Veľká väčšina bytov v súbore má 2 a 3 izby. Cena rastie s rastúcou veľkostnou triedou. Zvýšenie ceny z 2 izbovej na 3 izbovú skupinu je v však priemere dosť nízke. Dva možné dôvody sú – dopyt po 2 izbových bytoch (keďže sú stále lacnejšie ako 3 izbové) a lokalita. Ak by sa väčšina 2-izbových bytov nachádzala na západe, ich cena by bola v priemere za celú krajinu vyššia v porovnaní s rovnomerným priestorovým rozložením.

Upozornenie

Predtým než sa dostanem k téme tohto blogu, upozorňujem, že tento článok slúži výhradne k informačným účelom a akékoľvek informácie uvedené nižšie nie sú právne rady. Z tohto dôvodu pred akýmkoľvek zbieraním údajov z webu by ste mali získať vhodnú profesionálnu právnu radu týkajúcu sa vášho konkrétneho prípadu.

Web scraping

V tomto blogovom príspevku prejdem procesom zvaným web scraping s využitím programovacieho jazyka R. Predtým než sa pustím do samotného procesu, chcel by som sa trochu venovať téme z trochu širšej prespektívny.
Web scraping je proces získavania obsahu alebo (väčšinou) štruktúrovaných údajov z webových stránok automatizovaným spôsobom (a obvykle vo veľkom množstve). Táto definícia prirodzene vyvoláva otázku o legalite takéhoto procesu. V zásade web scraping nie je ilegálny alebo zakázaný sám osebe (v EÚ, k júnu 2024). Avšak, používanie nástrojov na sťahovanie údajov je z právneho hľadiska riskantné z niekoľkých dôvodov:

Porušenie duševného vlastníctva
Porušenie zmluvy
Obavy o ochranu osobných údajov

Pre zminimalizovanie obáv by malo scrapovanie prebiehať diskrétne, rešpektovať podmienky používania webových stránok, v rámci procesu by ste mali kontrolovať, či stránky používajú protokol robots.txt na oznámenie, že scrapovanie je zakázané, vyhnúť sa scrapovaniu osobných údajov a, ak je to nevyhnutné, uistiť sa, že nedochádza k porušeniu GDPR, taktiež sa vyhnúť scrapovaniu súkromných alebo utajovaných informácií (Zdroj).
Existujú niektoré všeobecné etické zásady, ktoré by ste mali dodržiavať, keď chcete scrapovať údaje z webu. Najčastejšie spomínané sú:

Ak existuje verejné API, ktoré poskytuje požadované údaje, použite ho namiesto scrapovania.
Sťahujte údaje v rozumnom tempe, aby scrapovanie nebolo škodlivé pre server a nemohlo byť zamieňané za DDoS útok.
Rešpektujte duševné vlastníctvo iných. Použite údaje na vytvorenie nového hodnotného obsahu, nie na duplikovanie a predávanie ich ako vlastné alebo nelegálne predávanie.
Nepoužívajte scrapovanie osobných alebo súkromných údajov alebo dokumentov, rešpektujte GDPR.
Skontrolujte súbor robots.txt, aby ste zistili, ako by mal byť web prehľadávaný.
Zdieľajte to, čo môžete. Ak sú údaje, ktoré ste scrapovali, verejne dostupné, alebo ste získali povolenie na ich zdieľanie, zverejnite ich pre iných (napríklad na GitHub alebo Kaggle). Ak ste napísali webový scraper na prístup k nim, zdieľajte jeho kód.
Hľadajte spôsoby, ako vrátiť hodnotu webovým stránkam, ktoré scrapujete, napríklad odkazovaním na stránku v článku alebo príspevku, aby ste na ňu priviedli návštevníkov.
Ak sa jedná o súkromný projekt (ako tento), počkajte kým sa štruktúra stránky zmení a kód nie je možné použiť bez ďalšej úpravy.

Niekoľko článkov venujúcim sa téme môžete nájsť na towardsdatascience.com, Data Fluency github page alebo scrapingrobot page.
Príklad komerčného využitia web scrapingu je napr. Apify, ktoré ponúka množstvo produktov a riešení v oblasti web scrapingu.
V tomto článku budem scrapovať údaje zo stránky Nehnutelnosti, ktorá sa špecializuje na realitné inzeráty a služby. Pre dodržanie etických zásad scrapovania som prijal niekoľko preventívnych opatrení:

Táto konkrétna stránka používa protokol robots.txt. Nescrapujem žiadnu časť, ktorá je zakázaná a vo vybraných častiach kódu som pridal funkciu Sys.sleep(), aby som spomalil proces a žiadal údaje s primeranou frekvenciou.
Scrapujem len verejné údaje, ktoré potrebujem na ďaľšiu analýzu a vytvorenie ML modelu.
Výsledný dataset je dostupný na Kaggle.

Robots.txt protokol stránky Nehnuteľnosti.sk

Proces scrapovania

Použité knižnice

Ako obvykle, začínam s načítaním balíkov potrebných pre tento projekt. Používam na to packman knižnicu a funkciu p_load(), ktorá ma dve výhody oproti základnej funkcii library():

ak potrebnú knižnicu nemám nainštalovanú, funkcia to rovno napraví
môžem načítať viacero knižníc naraz

Knižnice

if (!require("pacman")) {
  install.packages("pacman")
}
pacman::p_load(
  tidyverse,
  rvest, # scraping, part of tidyverse
  httr, # working with html
  RSelenium, # scraping in Google Chrome
  netstat, # free_port()
  doParallel, # parallel processing
  furrr # future map
)

V tomto projekte máme tri skupiny balíkov:

na načítanie údajov a manipuláciu s nimi – rio, tidyverse
na web scrapovanie – rvest, RSelenium, netstat, httr. Poznámka: V čase uverejnenia tohto príspevku bola dostupná už aj nová funkcia v knižnici rvest read_html_live(). Podľa popisu by mohla aspon čiastočne nahradiť RSelenium.
na paralelné spracovanie – doParallel a furrr

Webové elementy

Bez ohľadu na to, ktorý programovací jazyk alebo balík si vyberiete na scrapovanie, musíte byť schopní nájsť elementy v zdrojovom kóde webovej stránky. To môžete jednoducho urobiť vo vašom webovom prehliadači (pre potreby tohto blogu používam Google Chrome). Stlačte CRTL + SHIFT + I na otvorenie nástrojov vývojára. Teraz, keď sa pohybujete kurzorom po kóde v okne, dynamicky vám ukáže, ktorá časť stránky je s ňou spojená. Jednoduchším spôsobom, ako získať správnu referenciu na element (alebo inú časť stránky), je stlačiť CRTL + SHIFT + C a vybrať priamo na stránke požadovaný element.

Ak ste našli správny element, musíte skopírovať jeho CSS selektor alebo cestu XPath. Obe možnosti môžu byť použité ako argumenty v rvest a RSelenium.

Teraz ste pripravení získať obsah zo stránky. Výsledok, ak ste všetko správne urobili, môže mať rôzne formy. Môže to byť jedna hodnota, reťazec, zoznam atď. Na základe toho buď presnejšie špecifikujete, ktorú časť obsahu potrebujete, alebo pracujete s výsledkom v R a používate funkcie na manipuláciu s dátami s cieľom získania požadovaných informácií.

Scraping časť I. – rvest

Jedným z najbežnejších balíkov na web scrapovanie v R je rvest. Poskytuje funkcie na prístup k verejnej webovej stránke a na vyhľadávanie špecifických prvkov pomocou selektorov CSS a XPath. Tento balík nespúšťa javascript, čo znamená, že načíta html stránky rýchlejšie, ale vynechá všetky prvky načítané javascriptom po pôvodnom načítaní stránky. Preto je tento balík dobrá voľba, ak scrapujete statické stránky.

V tomto príklade začínam vytvorením premennej pre zdrojovú URL adresu: https://www.nehnutelnosti.sk/slovensko/byty/predaj/?p[param1][from]=1000&p[param1][to]=&p[page]=

Následne skontrolujem počet stránok:

Počet stránok s výsledkami vyhľadávania — Number of pages with search results

A nakoniec pripravím a spustím multisession na získanie ceny, adresy, typu nehnuteľnosti a najdôležitejšie – odkazu na inzerát, ktorý bude použitý v ďalšej časti s balíkom RSelenium. Pridal som aj plan(sequential) na zastavenie multisession, ale musím priznať, že nie som tak znalý paralelného programovania v R, aby som úplne pochopil dôležitosť tohto kroku.

Scraping statických dát

# apartments page
site <- "https://www.nehnutelnosti.sk/slovensko/byty/predaj/?p[param1][from]=1000&p[param1][to]=&p[page]="

# scrape the number of pages
number_of_pages <- read_html(site) %>%
  html_nodes(xpath = '//*[@id="content"]/div[7]/div/div/div[1]/div[17]/div/div/ul/li[5]') %>%
  html_elements("a") %>%
  html_text(trim = TRUE) %>%
  as.numeric()

# create a cluster of worker processes (cores)
plan(multisession, workers = 6)

advertisements <- future_map_dfr(1:number_of_pages, function(i) {
  page_content <- read_html(paste0(site, i))
  
  price <- page_content %>%
    html_nodes(xpath = '//*[@class="advertisement-item--content__price col-auto pl-0 pl-md-3 pr-0 text-right mt-2 mt-md-0 align-self-end"]') %>%
    html_attr("data-adv-price")
  
  type_of_real_estate <- page_content %>%
    html_nodes(xpath = '//*[@class="advertisement-item--content__info"]') %>%
    html_text2()
  
  address <- page_content %>%
    html_nodes(xpath = '//*[@class="advertisement-item--content__info d-block text-truncate"]') %>%
    html_text2()
  
  link <- page_content %>%
    html_nodes(xpath = '//*[@class="mb-0 d-none d-md-block"]') %>%
    html_nodes("a") %>%
    html_attr("href")
  
  tibble(price = price, type_of_real_estate = type_of_real_estate, address = address, link = link)
})

plan(sequential)

Scraping časť II. – RSelenium

RSelenium poskytuje súbor R väzieb pre Selenium 2.0 WebDriver. Na rozdiel od rvest spúšťa skutočný webový prehliadač, takže načíta akýkoľvek javascript obsiahnutý na webovej stránke. S týmto balíkom budete schopní interagovať so stránkou, napríklad posúvať, klikať na tlačidlo, vyplňovať vstupné formuláre atď. Na druhej strane je použitie tohto balíka náročnejšie, vyžaduje inštalovaný jazyk Java vo vašom systéme, a ja som sa stretol s viacerými problémami, kým som ho správne spustil. Viac sa tejto téme budem venovať v jednom z budúcich blogov.
Začínam definovaním niekoľkých pomocných funkcií. Jedna je na neúspešnú navigáciu na stránku, k čomu obvykle dochádzalo, keď som čítal príliš veľa stránok a musel som vymazať históriu prehliadania. Niekedy táto funkcia spôsobila nekonečnú slučku, ktorá bežala niekoľko hodín, než som si to všimol (napríklad počas noci), ale aspoň kód nezhavaroval. Tiež som skúsil vytvoriť funkciu na vymazanie histórie v prípade neúspešnej navigácie, ale nefungovala, a som spokojný s týmto súčasným riešením. Druhá je na spracovanie chyby pri hľadaní elementu. V takýchto prípadoch táto funkcia vráti NA. Posledná je podobná predchádzajúcej, ale v tomto prípade vráti NA, ak sa element nenájde.
V skripte tiež používam funkciu tryCatch() na vrátenie NA v prípade chyby.

Definovanie funkcií

# Define a function that handles the errors in page load
# Delete all cookies from the last 24 hours
clearCookies <- function(remDr) {
  remDr$deleteAllCookies()
}

navigate_with_retry <- function(link, remDr) {
  success <- FALSE
  while (!success) {
    tryCatch(
      {
        remDr$navigate(link)
        Sys.sleep(5)
        success <- TRUE
      },
      error = function(e) {
        cat("Failed to navigate to", link, "- Retrying in 10 seconds...\n")
        clearCookies(remDr)
        Sys.sleep(10)
      }
    )
  }
}

# Define a wrapper function that handles the errors in element search
safe_find_element <- possibly(function(page, xpath) {
  page$findElement(using = "xpath", xpath)
}, NA)

# function to get text or return NA if element not found
get_text_or_na <- function(nodes) {
  tryCatch(
    {
      text <- nodes %>%
        html_text2() %>%
        as.character() # %>%
      # str_trim() %>%
      # str_squish()
      if (text == "") NA else text
    },
    error = function(e) {
      NA
    }
  )
}

Teraz rozdeľujem odkazy na inzeráty do 10 setov. Tento krok nie je nutný, pretože kód funguje, ale robím to v prípade neočakávanej chyby počas procesu scrapovania, aby som zachránil aspoň časť údajov. Tento krok som zaradil až po jednej veľmi zlej skúsenosti. Ďalšia časť scrapovania totiž trvá viac ako dva dni a môžete mi veriť, že nechcete stratiť celý pokrok kvôli výpadku WiFi. Taktiež vytváram prázdny dataframe so všetkými možnými stĺpcami, ktorý sa bude napĺňať dátami.

Rozdelenie dát do menších celkov

# Additional info from web

# number of splits
num_splits <- 10
split_size <- ceiling(nrow(advertisements) / num_splits)

# split the data frame into subsets
advertisments_list <- split(advertisements, rep(1:num_splits, each = split_size, length.out = nrow(advertisements)))

for (i in seq_along(advertisments_list)) {
  assign(paste0("advertisements_", i), advertisments_list[[i]])
}

# create empty dataframe outside of the loop to hold additional info
additional_info_df <- tibble(
  link = character(),
  info_text = character(),
  additional_characteristics = character(),
  index_of_living = character(),
  environment = character(),
  quality_of_living = character(),
  safety = character(),
  transport = character(),
  services = character(),
  relax = character(),
  info_details = character(),
  stringsAsFactors = FALSE
)

Až teraz prichádzam k samotnému scrapovaniu s použitím RSelenium. Používam len samotnú knižnicu RSelenium, existuje tiež možnosť použiť Docker na spustenie servera Selenium a pripojenie sa k tejto inštancii pomocou RSelenium, túto možnosť som však nepoužil.
Ako už bolo spomenuté, na jeho spustenie musím dodržať niekoľko krokov. Na nastavenie servera Selenium a prehliadača musíte použiť funkciu rsDriver() a volať $client na vytvorenie klienta. Funkcia rsDriver očakáva niekoľko argumentov:

browser – používam Chrome, takže argument je “chrome”,
chromever – tento argument je často zdroj chýb. Jeho riešenie popíšem v samostatnom BLOGU, ale v tomto prípade píšem verziu “119.0.6045.105”,
verbose – nastavujem FALSE,
port – port, na ktorom sa má spúšťať. Používam funkciu z balíka netstat free_port(random = TRUE) pre automatický výber voľného portu.

Následne skriptom otvorím prehliadač, maximalizujem okno, prejdem na stránku Nehnuteľnosti a prijmem súbory cookie. Potom je nutné manuálne prihlásenie, aby sa zobrazili hodnoty jednotlivých komponentov “indexu bývania”. Tento krok by sa dal zautomatizovať, avšak je to jednorazová aktivita, takže ju ponechávam takto. Keď je toto všetko hotové, skutočné scrapovanie prebieha v cykle. Nejdem do všetkých detailov, ale logika je dosť jednoduchá, skript:

Prejde na odkaz v cykle.
Posunie sa na (výšku stránky/10*4,2), aby sa spustil javascript na zobrazenie indexu bývania (táto hĺbka posuvu je založená na manuálnych testoch, napriek tomu musím nájsť inú metódu alebo spustiť viacero posunov, aby sa script skutočne spustil na všetkých načítaných stránkach).
Počká 3 sekundy na vykonanie javascriptu a spomalenie procesu (aby sa zbytočne nezaťažovala stránka).
Načíta obsah stránky.
Ak sa stránka nedá načítať, pridá prázdny záznam do dataframe-u.
Ak sa stránka dá načítať, prejde html stránky, scrapuje nasledujúce informácie a pridá nové riadky k dataframe-u:
- info_text – celý text z inzerátu. Momentálne nie je používaný v ML modeli, ale plánujem použiť NLP na získanie kľúčových slov/tém a vytvorenie wordcloud v Shiny appke.
- info_details – obsahuje 4 premenné a bude vyčistený v nasledujúcich krokoch. Premenné sú oddelené symbolom “”.
- index_of_living – hodnota od 0 do 10, vypočítava ju slovenský startup City Performer. Zohľadňuje šesť kategórií: prostredie, kvalita bývania, bezpečnosť, doprava, služby a oddych.
- additional_characteristics – obsahuje viacero premenných, v nasledujúcich krokoch vyberiem 12 z nich. Premenné sú oddelené symbolom "\n".
Zatvorí klienta a zastaví server.

Scraping pomocou RSelenium

for (i in 1:10) {
  # get the current dataframe
  current_df <- get(paste0("advertisements_", i))

  # start the server
  rs_driver_object <- rsDriver(
    browser = "chrome",
    chromever = "119.0.6045.105",
    verbose = FALSE,
    port = free_port(random = TRUE)
  )

  # create a client object
  remDr <- rs_driver_object$client

  # open a browser
  remDr$open()
  remDr$maxWindowSize()
  
  # navigate to a website
  remDr$navigate("https://www.nehnutelnosti.sk/")
  Sys.sleep(5) # wait for 5 seconds

  # accept cookies
# switch to cookie iframe
remDr$switchToFrame(remDr$findElement(using = "xpath", '//*[@id="sp_message_iframe_920334"]'))
remDr$findElement(using = "xpath", '//*[@id="notice"]/div[2]/button')$clickElement()

# switch back to default frame
remDr$switchToFrame(NA)

# MANUAL LOG IN

  # loop through each link in the current dataframe
  for (link in current_df$link) {
    info_text <- NA
    additional_characteristics <- NA
    index_of_living <- NA
    environment <- NA
    quality_of_living <- NA
    safety <- NA
    transport <- NA
    services <- NA
    relax <- NA
    info_details <- NA

    navigate_with_retry(link, remDr)
    #remDr$executeScript("document.body.style.zoom = '50%';")
    height <- as.numeric(remDr$executeScript("return document.documentElement.scrollHeight"))/10*4.2 # Scroll to load index of living
    remDr$executeScript(paste("window.scrollTo(0, ", height, ");")) # scroll to living index
    
    
    Sys.sleep(1)
    page <- safe_find_element(remDr, '//*[@id="map-filter-container"]')

    if (is.na(page)) {
      new_row <- tibble(
        link = link,
        info_text = NA,
        additional_characteristics = NA,
        index_of_living = NA,
        environment = NA,
        quality_of_living = NA,
        safety = NA,
        transport = NA,
        services = NA,
        relax = NA,
        info_details = NA
      )

      # bind new row to additional info dataframe
      additional_info_df <- rbind(additional_info_df, new_row)
    } else {
      page_html <- page$getElementAttribute("outerHTML")
      page_html <- read_html(page_html[[1]])

      info_text <- page_html %>%
        html_nodes(xpath = '//*[contains(concat( " ", @class, " " ), concat( " ", "text-inner", " " ))]') %>%
        get_text_or_na()

      info_details <- page_html %>%
        html_nodes(xpath = '//*[@id="map-filter-container"]/div[2]/div/div[1]/div[2]/div[5]/ul') %>%
        html_text2()
      
      tryCatch(
        {
          index_of_living <- page_html %>%
            html_nodes(xpath = '//*[@id="totalCityperformerWrapper"]/div/p[1]/span') %>%
            get_text_or_na()
        },
        error = function(e) {
          index_of_living <- NA
        }
      )

      tryCatch(
        {
          environment <- page_html %>%
            html_nodes(xpath = '//*[@id="map-filter-container"]/div[2]/div/div[1]/div[4]/div[1]/div[1]/div/div[2]/div[2]/div[1]/div[1]/div[2]/span[1]/span') %>%
            get_text_or_na()
        },
        error = function(e) {
          environment <- NA
        }
      )
      
      tryCatch(
        {
          quality_of_living <- page_html %>%
            html_nodes(xpath = '//*[@id="map-filter-container"]/div[2]/div/div[1]/div[4]/div[1]/div[1]/div/div[2]/div[2]/div[1]/div[2]/div[2]/span[1]/span') %>%
            get_text_or_na()
        },
        error = function(e) {
          quality_of_living <- NA
        }
      )
      
      tryCatch(
        {
          safety <- page_html %>%
            html_nodes(xpath = '//*[@id="map-filter-container"]/div[2]/div/div[1]/div[4]/div[1]/div[1]/div/div[2]/div[2]/div[1]/div[3]/div[2]/span[1]/span') %>%
            get_text_or_na()
        },
        error = function(e) {
          safety <- NA
        }
      )
      
      tryCatch(
        {
          transport <- page_html %>%
            html_nodes(xpath = '//*[@id="map-filter-container"]/div[2]/div/div[1]/div[4]/div[1]/div[1]/div/div[2]/div[2]/div[2]/div[1]/div[2]/span[1]/span') %>%
            get_text_or_na()
        },
        error = function(e) {
          transport <- NA
        }
      )
      
      tryCatch(
        {
          services <- page_html %>%
            html_nodes(xpath = '//*[@id="map-filter-container"]/div[2]/div/div[1]/div[4]/div[1]/div[1]/div/div[2]/div[2]/div[2]/div[2]/div[2]/span[1]/span') %>%
            get_text_or_na()
        },
        error = function(e) {
          services <- NA
        }
      )
      
      tryCatch(
        {
          relax <- page_html %>%
            html_nodes(xpath = '//*[@id="map-filter-container"]/div[2]/div/div[1]/div[4]/div[1]/div[1]/div/div[2]/div[2]/div[2]/div[3]/div[2]/span[1]/span') %>%
            get_text_or_na()
        },
        error = function(e) {
          relax <- NA
        }
      )
      
     tryCatch(
        {
          additional_characteristics <- page_html %>%
            html_nodes(xpath = '//*[@id="additional-features-modal-button"]/ul') %>%
            html_text2() # %>%
          # str_squish()
        },
        error = function(e) {
          additional_characteristics <- NA
        }
      )

      new_row <- tibble(
        link = link, info_text = info_text,
        additional_characteristics = additional_characteristics,
        index_of_living = index_of_living,
        environment = environment,
        quality_of_living = quality_of_living,
        safety = safety,
        transport = transport,
        services = services,
        relax = relax,
        info_details = info_details
      )

      # bind new row to additional info dataframe
      additional_info_df <- rbind(additional_info_df, new_row)
    }
  }
}

# close remote driver
rs_driver_object$client$close()
rs_driver_object$server$stop()
rm(rs_driver_object, remDr)
gc()

Data wrangling

Scrapovanie je hotové a pokračujem s manipuláciou s dátami, aby som ich dal do (prvotnej) použiteľnej formy. Najprv upravujem adresu, aby som všetky okresy dostal do prvého stĺpca. Táto adresa sa neskôr používa na geokódovanie, ktoré opisujem v nasledujúcom blogu. Cena je taktiež upravená na číslo, aby sa mohla použiť v ML modeli.

Úprava dát 1

advertisements_cleaned <- advertisements %>%
  separate(type_of_real_estate, c("type", "area"), sep = " • ", remove = TRUE) %>% 
  separate(address, c("a", "b", "c"), sep = ", ", remove = TRUE) %>%
  unite("address", c(5, 4, 3), sep = ", ", na.rm = TRUE, remove = TRUE) %>% # reordering to keep all districts in first column
  mutate(
    price = str_replace_all(str_replace_all(price, " €", ""), " ", "") %>%
      as.integer(),
    address0 = address
  ) %>%
  separate(address0, c("district", "municipality", "street"), sep = ", ") %>%
  select(-street)

Teraz potrebujem rozdeliť hodnoty stĺpcov additional_characteristics a info_details na viac zmysluplných premenných. Preto som vytvoril dva zoznamy: characteristics1 a characteristics2. Každý z nich obsahuje názov premenných, ktoré chcem extrahovať. Používam tieto zoznamy na vytvorenie prázdneho dataframe-u, aby som sa uistil, že sú všetky stĺpce prítomné. Z additional_info_df vyberiem additional_characteristics a info_details a rozdelím hodnoty pomocou "\n" ako oddeľovača. Ďalej definujem dve funkcie: get_characteristics1 a get_characteristics2, ktoré tieto hodnoty mapujú na príslušné stĺpce. Nakoniec spájam output_df_characteristics1, output_df_characteristics2, vybrané stĺpce z additional_info_df a pripájam ich k advertisements_cleaned podľa linku inzerátu.

Úprava dát 2

# get additional information from scraped data
# First list of additional info details
characteristics1 <- c(
  "Stav", # condition
  "Úžit. plocha", # land area
  "Energie", # energy costs
  "Provízia zahrnutá v cene"
)

characteristics1_df <- data.frame(characteristics1, value = NA)
# Second list of additional info details
characteristics2 <- c(
  "Počet izieb/miestností", # number of rooms
  "Orientácia", # orientation
  "Rok výstavby", # built year
  "Rok poslednej rekonštrukcie", # year of last reconstruction
  "Energetický certifikát", # energy certificate
  "Počet nadzemných podlaží", # number of floors
  "Podlažie", # floor
  "Výťah", # lift
  "Typ konštrukcie", # construction type
  "Počet balkónov", # number of balconies
  "Počet lodžií", # number of loggias
  "Pivnica" # cellar
)

characteristics2_df <- data.frame(characteristics2, value = NA)

characteristics_wrangler <- additional_info_df %>%
  mutate(
    chars1_list = str_split(info_details, "\n"),
    chars2_list = str_split(additional_characteristics, "\n")
  ) %>%
  select(-additional_characteristics, -info_details)

get_characteristics1 <- function(x) {
  temp_df <- x %>%
    unlist() %>%
    as.data.frame()
  temp_df <- rename(temp_df, chars = .)
  temp_df <- temp_df %>%
    separate_wider_delim(chars,
      delim = ": ",
      names = c(
        "info",
        "status"
      )
    ) %>%
    filter(info %in% characteristics1) %>%
    full_join(characteristics1_df, join_by("info" == "characteristics1"), keep = FALSE) %>%
    select(-value) %>%
    pivot_wider(names_from = info, values_from = status)
  return(temp_df)
}

get_characteristics2 <- function(x) {
  temp_df <- x %>%
    unlist() %>%
    as.data.frame()
  temp_df <- rename(temp_df, chars = .)
  temp_df <- temp_df %>%
    separate_wider_delim(chars,
      delim = ": ",
      names = c(
        "info",
        "status"
      )
    ) %>%
    filter(info %in% characteristics2) %>%
    full_join(characteristics2_df, join_by("info" == "characteristics2"), keep = FALSE) %>%
    select(-value) %>%
    pivot_wider(names_from = info, values_from = status)
  return(temp_df)
}

# Apply get_characteristics1() and get_characteristics2() to each row in additional_info_df and combine the results
output_df_characteristics1 <- map_dfr(characteristics_wrangler$chars1_list, get_characteristics1)
output_df_characteristics2 <- map_dfr(characteristics_wrangler$chars2_list, get_characteristics2)

# Add the new columns to additional_info_df
additional_info_df_complete <- cbind(
  additional_info_df %>%
    mutate(index_of_living = str_replace_all(index_of_living, " /", "")) %>%
    select(c(link, 
             info_text, 
             index_of_living,
             environment,
             quality_of_living,
             safety,
             transport,
             services,
             relax)) %>% 
    mutate(flag = "x"), 
  output_df_characteristics1,
  output_df_characteristics2
)


advertisements_complete <- advertisements_cleaned %>%
  left_join(additional_info_df_complete, by = "link", multiple = "first") %>%
  filter(!is.na(flag)) %>% 
  select(-flag, -c, -type)

Posledný krok je uloženie dát vo formáte RDS.

Uloženie súborov

saveRDS(additional_info_df, "data/additional_info_df.RDS")
saveRDS(advertisements, "data/advertisements.RDS")

# create separate df for text analyses
text_long <- advertisements_complete$info_text

saveRDS(text_long, file = "data/text_long.rds")

saveRDS(advertisements_complete, file = "data/advertisements_complete.rds")

cleandata

Efektívne vizualizácie dát pomocou Gestalt princípov

Úvod

Princíp blízkosti (proximity)

Princíp podobnosti (similarity)

Princíp oblasti/ohraničenia (enclosure)

Princíp uzavretosti (closure)

Princíp plynulosti (continuity)

Princíp prepojenia (connection)

Praktický príklad

Záver

Vývoj a nasadenie Shiny aplikácií v jazyku R

Úvod

Čo je R Shiny

Shiny vs PowerBI (a iné nástroje)

“Vanilla” Shiny vs špecializované frameworky

“Vanilla” Shiny

Golem

Rhino

Možnosti deploymentu

Shinyapps.io

Posit Connect

Docker + Cloud služby (GCP, AWS, Azure)

Docker + Lokálny RStudio Server

Príkladová Shiny Aplikácia

Machine learning v jazyku R – Odhad cien bytov

Úvod

Explainable ML

Načítanie knižníc a dát

Tidymodels framework

Tvorba modelu

Vyhodnotenie modelu

Uloženie modelu a dát pre aplikáciu

Exploratory data analysis (EDA) v jazyku R

Úvod

Čo je EDA

Úvodné čistenie dát

EDA

Záver a nasledujúce kroky

Geocoding pomocou jazyka R

Knižnice pre geocoding

Načítanie dát a geocoding

Nasledujúce kroky

Web scraping pomocou jazyka R

Upozornenie

Web scraping

Proces scrapovania

Použité knižnice

Webové elementy

Scraping časť I. – rvest

Scraping časť II. – RSelenium

Data wrangling