Bea Močiariková a Evča Pavloušková: Šťastie v Brne
Vítame vás na blogu nášho
projektu, ktorý vznikol v rámci Digitálnej akadémie v Brne. Veríme, že Vás
pobaví. :)
Ako to celé začalo?
Meet your mentor
Každý tím si na základe predstavenia dat a svojej predstavy o projekte mal do MYM vytvoriť hypotézy, ideálne vedieť, v akej oblasti má silné miesta a s akými nástrojmi chce pracovať.
My sme, s ideou zachrániť svet (Brno) a pomôcť všetkým byť bližšie k vode a prírode svoj plán postupne predkladali mentorom. Kým sme prišli k poslednému stolu, hlavy sme mali ako balóny, nápadov veľa. Problém sme však skoro všade počuli rovnaký: a budete k tomuto mať data?
Na naše veľké šťastie sme nakoniec z mentorov vyhrali Romana Baroša z Oracle Netsuite, ktorý nášmu pôvodnému nápadu vyzeral naklonený. Vtedy ešte netušil, k čomu sa upísal, ale čoskoro pochopil:
So
súradnicami sme už následne mohli pracovať. :)
Datasety z magistrátu sme prepojili pre vytvorenie vrstvy zelene a
ešte sme pridali polygonovú vrstvu mestských častí Brna. Opäť za pomoci Honzíka Dupala sme pre účely
určovania vzdialenosti objavili plugin NNjoin.
Ostávalo zistené údaje prepočítať zo stupňov na metre a vzdialenosti si ukázať v PowerBI. Viac sme na hackatone nestihli, pretože bezlaktózová dvojička sa trochu pozabudla a zjedla pizzu so syrom, vďaka čomu strávila tretinu dňa v kŕčoch (a Miloš s Romanom by si za podporu zaslúžili minimálne medaile).
Večerné odprezentovanie celodennej práce tak ostalo na Eve s podporou Bei zo zadných zelených sedačiek.
Výsledok
pre jednotlivé vety sme mali rýchlo, rovnako rýchlo sme si však overili svoje
domnienky, že odpoveď v podobe jedného slova bude (pokiaľ nejde o výrazne
expresívne slovo) rozpoznaná ako neutrálna, rovnako ako systém ťažko rozpozná
iróniu.
Ako
vidno pri výpise niekoľkých viet, najprv je vypísaná verzia systému, ďalej je
skúmaný text a za language je cs, čiže správne rozpoznaná čeština. Pre nás
najzaujímavejšie sú posledné dva stĺpce sentiment v hodnote -1, 0 alebo 1 a
následné vyjadrenie slovom negative, neutral alebo positive. Ako vidno aj na
ukážke, objavili sa všetky možnosti, výsledky analýzy sme však pozreli aj v
PowerBI.
Väčšina kategórii bola rovnaká pre svoju pozitívne aj negatívne zafarbenú verziu. Najdôležitejšie pre nás sú v kladných hodnotách parky a príroda (pod ktorú spadá kĺúčové slovo zeleň), v negatívnych nám najviac záležalo na kategóriách hluk, zdravie, zeleň chýba a zeleň vadí.
Nakoniec sa nám úspešne podarilo importovať všetky tabuľky z oboch datasetov a mohli sme začať hľadať výsledky. Tie sme hľadali jednak na základe zadávania SQL príkazov, rovnako však aj za použitia PowerBI.
Pre následnú najkrajšiu možnú vizualizáciu výsledkov sme chceli využiť mapy nie len z PowerBI, ale aj z nášho obľúbeného QGisu, ktorý nám tak verne slúžil na všetko, okrem termálnej mapy.
Pocit zrady z jeho strany bol teda o to väčší (názov Oh Uh! je tak výstižný, ako to len ide..):
Niektoré veci, ktoré sme vďaka tejto aplikácii chceli vyskúsať, začali čoraz častejšie podobnú optimistickú hlášku ukazovať, poďakovali sme preto QGisu za spoluprácu a ďalej mapy riešili už len v rámci PowerBI.
Výpočet priemerov hodnôt pre mestské časti
Výsledkom je 15 riadková tabuľka, na ktorú sme veľmi hrdé, aj keď je opäť pre množstvo údajov dosť neprehľadná. Opäť vidíme údaje ako predtým, tentokrát nám však ako najpozitívnejšia mestská časť vyšli Medlánky, nasledované Žabovřeskami a časťou Líšeň. Vo výslednej tabuľke na rozdiel od tej predtým vidno, že iba 3 mestské časti – Vinohrady, Židenice a Slatina – zostali z častí s negatívnou hodnotou.
Tu
ďalej bližšie popíšeme niekoľko vybraných mestských častí. Chceli sme vybrať čo
najvernejších zástupcov rôznych výsledkov (najpozitívnejšie a najnegatívnejšie
hodnotené, najkomentovanejšie atď.). Nakoniec sme vybrali nasledujúce mestské
časti:
Na obrázku, kde zobrazujeme len spomínané mestské
časti, vidno, prečo sa každá z nich umiestnila na mieste, na akom je. V Brne – Stred je veľké zastúpenie kladných hodnôt z prírody, parkov, vybavenosti a
polohy, stráca však na parkovaní, hluku či nedostatku zelene. Toto je napríklad
veľmi zaujímavý paradox, pretože napriek tomu, že veľa ľuďom sa práve zeleň
páči, aj tak jej je podľa iných málo. To len viac poukazuje na subjektivitu
názorov jednotlivcov.
Ako ďalšiu kategóriu zo skôr určených sme sa rozhodli pozrieť na vybavenosť. V tej sa do negatívnej hodnoty dostali akurát Medlánky, rozhodli sme sa preto pozrieť na priemernú vzdialenosť budov od reštaurácii či hospod. Ako vidno, okrem pošty na tom sú Medlánky porovnateľne s Komínom a ešte lepšie ako Slatina.
Ako
vidno, body okolo Lužánok a ďalších parkov sú zelené. Body, ktoré sú v reálnom
živote ďalej ako 200 m od zelene sa stávajú žltšími a od 400 m farba prechádza
na červenú.
Červenou
farbou sú označené oblasti, kde zeleň chýba. Jednoznačný je trend priemyselných
zón (Černovická terasa, Brno – Horní Heršpice, oblasť CTParku, ..) a staníc
(Stanica Brno – Horní Heršpice, Brno – Slatina); ďalšie z červených zhlukov je
oblasť Zetoru a v okolí Pod Hády v Líšni.
Pre overenie hypotézy, že naozaj zeleň šťastie ľudí ovplyvňuje, sa pozrieme ešte na poslednú mapu – sú na nej modrou zobrazené body, ktoré respondenti označili ako miesta, s ktorými sú spokojní, nechcú ich meniť. Je jasná ich koncentrácia v Lužánkach, Wilsonovom lese, na Kravej hore aj Špilberku.
Tak, ako bolo jasné prepojenie
nespokojnosti ľudí s “hlavasom”, tak tu krásne vyplýva prepojenie ľudskej
spokojnosti a zelene v rámci Brna.
Ako to celé začalo?
Prvýkrát
sme sa stretli už minulý rok na HTML/CSS kurze od Czechitas, takže sme
sa registrovali už od začiatku kurzu. Nakoniec z nás dvojičky spravila spoločná predstava
projektu, ktorý niečo dokáže zmeniť, pomôže a ideálne bude zameraný na aktuálne
problémy s počasím, suchom a využívaním dažďovej vody.
Keď prišiel moment predstavenia datasetov,
hneď prvá možnosť z nich – termálna mapa – nás oslnila a v podstate bolo
rozhodnuté. Za využitia ďalších otvorených dat od magistrátu mesta Brna sme
chceli zmeniť aktuálnu situáciu v Brne, priniesť sem viac vody, zelene a
šťastia. Celkom rýchlo sme však pochopili, že
práca s mapami je niečo úplne iné ako to, čo sme sa snažili pochopiť na
lekciách PowerBI či SQL. Prišli s nimi problémy so súradnicami, hodiny
googlenia aj učenie geografickej terminológie.
Meet your mentor
Každý tím si na základe predstavenia dat a svojej predstavy o projekte mal do MYM vytvoriť hypotézy, ideálne vedieť, v akej oblasti má silné miesta a s akými nástrojmi chce pracovať.
My sme, s ideou zachrániť svet (Brno) a pomôcť všetkým byť bližšie k vode a prírode svoj plán postupne predkladali mentorom. Kým sme prišli k poslednému stolu, hlavy sme mali ako balóny, nápadov veľa. Problém sme však skoro všade počuli rovnaký: a budete k tomuto mať data?
Na naše veľké šťastie sme nakoniec z mentorov vyhrali Romana Baroša z Oracle Netsuite, ktorý nášmu pôvodnému nápadu vyzeral naklonený. Vtedy ešte netušil, k čomu sa upísal, ale čoskoro pochopil:
B:
Tak sme zmenili tému..
R:
A to je koľký plán? E..F..G? Aby nám stačila abeceda.
Problém: Nemáme data. zn. Hackaton
Hackaton sa blížil, ľudia skúmali data, zoznamovali sa s nimi. A my sme ich stále nemali. Vzhľadom k tomu, že sme neboli jediná dvojička s nedostupnými datami od magistrátu, dohodlo sa stretnutie na radnici, ktoré prebehlo krásne a data sme mali prisľúbené. Nakoniec sme sa k nim dostali v piatok, deň pred Hackatonom. Na ten sme išli plné očakávaní – každý nám predsa vravel, že práve tu spravíme aspoň 80 % projektu a ďalšie týždne to už len doťukneme. Gratulujeme všetkým, komu to tak vyšlo, rozhodne to nebol náš prípad. :D
Problém sme objavili hneď ráno, keď náš hlavný objekt záujmu – termálna mapa – neponúkol požadované údaje. Vzdali sme to s ňou po niekoľkých útrapných hodinách, skúšaní landsatexplorer či USGS.. Prešli sme teda na plán B, pracovať s datami o Brnenských budovách, ktoré sme mali k dispozícii, a dodatočne ich prepojiť s iným, zaujímavým datasetom.
Keďže Roman je majster cez SQL, všetky údaje sme si najskôr naimportovali do databázy. Spätne nám toto prvé nahrávanie dat príde úsmevné, keďže odvtedy sme si prešli drop-ovaním, truncate-ovaním a bulk-ovaním možno aj viackrát, ako by sme chceli. :)
Postupom dňa však na nás obe dopadala mierna depresia z toho, že nemáme jasnú tému. Preto sme sa rozhodli ísť pre splnenie nášho cieľa každá iným smerom. Evča sa rozhodla preskúmať korelácie jednotlivých faktorov medzi sebou. S pomocou Honzíka Dupala rozbehala korelančné tabuľky v PowerBI.
Bea sa pustila do ovládnutia máp, pretože sa nechcela vzdať pôvodnej témy prírody a zdravia. Rozhodla sa, že skúsi zistiť vzdialenosť budov od zelene. Pre tieto účely využila datasety od magistrátu mesta Brna o parkoch a lesoch v Brne. Spustenie aplikácie QGis pre zobrazenie vrstiev máp nebol problém, rovnako ako nahranie prvých vrstiev. Aby sme však mohli zobrazovať na mape aj naše budovy, z dostupného geografického údaju sa (nakoniec s veľkou pomocou všetkých naokolo) museli vydolovať súradnice.
Hackaton sa blížil, ľudia skúmali data, zoznamovali sa s nimi. A my sme ich stále nemali. Vzhľadom k tomu, že sme neboli jediná dvojička s nedostupnými datami od magistrátu, dohodlo sa stretnutie na radnici, ktoré prebehlo krásne a data sme mali prisľúbené. Nakoniec sme sa k nim dostali v piatok, deň pred Hackatonom. Na ten sme išli plné očakávaní – každý nám predsa vravel, že práve tu spravíme aspoň 80 % projektu a ďalšie týždne to už len doťukneme. Gratulujeme všetkým, komu to tak vyšlo, rozhodne to nebol náš prípad. :D
Problém sme objavili hneď ráno, keď náš hlavný objekt záujmu – termálna mapa – neponúkol požadované údaje. Vzdali sme to s ňou po niekoľkých útrapných hodinách, skúšaní landsatexplorer či USGS.. Prešli sme teda na plán B, pracovať s datami o Brnenských budovách, ktoré sme mali k dispozícii, a dodatočne ich prepojiť s iným, zaujímavým datasetom.
Keďže Roman je majster cez SQL, všetky údaje sme si najskôr naimportovali do databázy. Spätne nám toto prvé nahrávanie dat príde úsmevné, keďže odvtedy sme si prešli drop-ovaním, truncate-ovaním a bulk-ovaním možno aj viackrát, ako by sme chceli. :)
Postupom dňa však na nás obe dopadala mierna depresia z toho, že nemáme jasnú tému. Preto sme sa rozhodli ísť pre splnenie nášho cieľa každá iným smerom. Evča sa rozhodla preskúmať korelácie jednotlivých faktorov medzi sebou. S pomocou Honzíka Dupala rozbehala korelančné tabuľky v PowerBI.
Bea sa pustila do ovládnutia máp, pretože sa nechcela vzdať pôvodnej témy prírody a zdravia. Rozhodla sa, že skúsi zistiť vzdialenosť budov od zelene. Pre tieto účely využila datasety od magistrátu mesta Brna o parkoch a lesoch v Brne. Spustenie aplikácie QGis pre zobrazenie vrstiev máp nebol problém, rovnako ako nahranie prvých vrstiev. Aby sme však mohli zobrazovať na mape aj naše budovy, z dostupného geografického údaju sa (nakoniec s veľkou pomocou všetkých naokolo) museli vydolovať súradnice.
Ostávalo zistené údaje prepočítať zo stupňov na metre a vzdialenosti si ukázať v PowerBI. Viac sme na hackatone nestihli, pretože bezlaktózová dvojička sa trochu pozabudla a zjedla pizzu so syrom, vďaka čomu strávila tretinu dňa v kŕčoch (a Miloš s Romanom by si za podporu zaslúžili minimálne medaile).
Večerné odprezentovanie celodennej práce tak ostalo na Eve s podporou Bei zo zadných zelených sedačiek.
Šťastie
Po hackatone prišlo vytriezvenie v podobe reálneho problému: nemáme poriadne data, nemáme tému, všetko je zle. Najlepším kamarátom sa stala Ecosia, Google a víno. Keďže sme sa nechceli vzdať toho, čo sme už mali a témy prírody, mysleli sme si, že musíme mať veľké šťastie, aby sme našli vhodný doplňujúci dataset. A vtedy sme si to uvedomili. Šťastie!
Ovplyvňuje šťastie ľudí v Brne to, že sú blízko k zeleni? Alebo to, že sú blízko k hospodám, obchodom? Vadí im hluk? Tieto a ďalšie otázky sme sa rozhodli hľadať v datach z mapy pocitov obyvateľov v Brne. Konečne sme mali data a novú energiu do robenia projektu. :)
Po hackatone prišlo vytriezvenie v podobe reálneho problému: nemáme poriadne data, nemáme tému, všetko je zle. Najlepším kamarátom sa stala Ecosia, Google a víno. Keďže sme sa nechceli vzdať toho, čo sme už mali a témy prírody, mysleli sme si, že musíme mať veľké šťastie, aby sme našli vhodný doplňujúci dataset. A vtedy sme si to uvedomili. Šťastie!
Ovplyvňuje šťastie ľudí v Brne to, že sú blízko k zeleni? Alebo to, že sú blízko k hospodám, obchodom? Vadí im hluk? Tieto a ďalšie otázky sme sa rozhodli hľadať v datach z mapy pocitov obyvateľov v Brne. Konečne sme mali data a novú energiu do robenia projektu. :)
Excel, Python, SQL, QGis, PowerBI
Napriek tomu, že pri učení rôznych technológii sme sa bavili na tom, že „určite“ všetky pri projekte využijeme, nakoniec sa tak naozaj stalo.
Čistenie dat trvalo dlho. Oba datasety, s ktorými sme pracovali, mali svoje špecifikácie. Napríklad „pocity“ obsahovali stĺpce, kde sa ľudia vyjadrovali v rámci výskumu – v celých vetách – k mestskej časti v Brne, kde žijú. Dataset s budovami zase prešiel v rámci spracovávania autorovej diplomovej práce určitou štandardizáciou, čím sa niektoré hodnoty z neho stali v podstate nepoužiteľné.
Vzhľadom k obsahu datasetu pocitov sme sa rozhodli skúsiť spraviť analýzu textu, aby sme zistili, aké konkrétne veci ľuďom v ich mestskej štvrti vadia a naopak, ktoré im robia radosť.
Napriek tomu, že pri učení rôznych technológii sme sa bavili na tom, že „určite“ všetky pri projekte využijeme, nakoniec sa tak naozaj stalo.
Čistenie dat trvalo dlho. Oba datasety, s ktorými sme pracovali, mali svoje špecifikácie. Napríklad „pocity“ obsahovali stĺpce, kde sa ľudia vyjadrovali v rámci výskumu – v celých vetách – k mestskej časti v Brne, kde žijú. Dataset s budovami zase prešiel v rámci spracovávania autorovej diplomovej práce určitou štandardizáciou, čím sa niektoré hodnoty z neho stali v podstate nepoužiteľné.
Vzhľadom k obsahu datasetu pocitov sme sa rozhodli skúsiť spraviť analýzu textu, aby sme zistili, aké konkrétne veci ľuďom v ich mestskej štvrti vadia a naopak, ktoré im robia radosť.
Analýza kľúčových slov
Problémov sme však mali hneď niekoľko. Keďže odpovede písali ľudia na počítači, často sa vyskytli rôzne znaky (/“, a najhoršia možnosť - ; ). Časté boli preklepy, niektorí ľudia písali s diakritikou, iní bez nej. Cieľom pre nás bolo získať kľúčové slová, rozdeliť ich do kategórii a následne si určiť, akú majú hodnotu, aby sme s nimi vedeli numericky pracovať.
Pre prvotnú analýzu sme si zobrali všetky vety a v Pythone sme sa pomocou stránky Geneea pre textovú analýzu pozreli na to, aké vety sú. Pre otestovanie, ako systém funguje pre naše potreby, sme to vyskúšali na vzorke veľkej okolo 100 záznamov. Keďže v našom datasete boli vety rozdelené v stĺpcoch podľa šťastia a problémov, očakávali sme rozpoznanie viet v problémoch ako negatívne a pri šťastí ako pozitívne zafarbených. Na využitie služieb Geneea sme si vytvorili svoj prístupový kľúč a využili ho, aby nám vrátil sentiment viet.
Problémov sme však mali hneď niekoľko. Keďže odpovede písali ľudia na počítači, často sa vyskytli rôzne znaky (/“, a najhoršia možnosť - ; ). Časté boli preklepy, niektorí ľudia písali s diakritikou, iní bez nej. Cieľom pre nás bolo získať kľúčové slová, rozdeliť ich do kategórii a následne si určiť, akú majú hodnotu, aby sme s nimi vedeli numericky pracovať.
Pre prvotnú analýzu sme si zobrali všetky vety a v Pythone sme sa pomocou stránky Geneea pre textovú analýzu pozreli na to, aké vety sú. Pre otestovanie, ako systém funguje pre naše potreby, sme to vyskúšali na vzorke veľkej okolo 100 záznamov. Keďže v našom datasete boli vety rozdelené v stĺpcoch podľa šťastia a problémov, očakávali sme rozpoznanie viet v problémoch ako negatívne a pri šťastí ako pozitívne zafarbených. Na využitie služieb Geneea sme si vytvorili svoj prístupový kľúč a využili ho, aby nám vrátil sentiment viet.
Čeština
a slovenčina je vo výsledkoch správne, keďže niektorí respondenti boli slováci.
Polština a maďarčina bola rozpoznaná v prípadoch, keď bolo uvedené iba jedno
(alebo pár slov) bez diakritiky (napríklad nic). V tomto prípade išlo o
negatívne vety, napriek tomu niektoré z nich boli rozpoznané ako pozitívne. Za
všetky je ukážkový príklad veta, kde sa pán sťažoval na parkovanie ľudí - nie
úplne slušnou cestou - a za vetu dal, zrejme pre zjemnenie, usmiateho smajlíka.
Vyskytla sa nám teda otázka, ako si získané kľúčové slová ohodnotíme. Ba čo viac, ako v nich zohľadníme, že je pre nás dôležité zameranie na zeleň a prírodu. Vytvorili sme si teda svoje vlastné hodnotenie slov. Pozitívne kľúčové slová sme ohodnotili od 1 do 5 s tým, že hodnotenie 5 = najväčšia dôležitosť pre náš cieľ. Negatívne kľúčové slová mali hodnotu -1 až -5 s rovnakou logikou.
Kategórii sme si vytvorili 18, napríklad doprava, ľudia, príroda či vybavenosť. Kľúčových slov sme definovali 149. Hodnotu -5 získali negatívne slová v kategóriách hluk, zdravie a zeleň vadí. Hodnotu 5 na druhú stranu dostali slová kategórií príroda, zeleň a parky.
Všetky hodnoty v jednotlivých kategóriách sú zobrazené v tabuľke naľavo.
Vyskytla sa nám teda otázka, ako si získané kľúčové slová ohodnotíme. Ba čo viac, ako v nich zohľadníme, že je pre nás dôležité zameranie na zeleň a prírodu. Vytvorili sme si teda svoje vlastné hodnotenie slov. Pozitívne kľúčové slová sme ohodnotili od 1 do 5 s tým, že hodnotenie 5 = najväčšia dôležitosť pre náš cieľ. Negatívne kľúčové slová mali hodnotu -1 až -5 s rovnakou logikou.
Kategórii sme si vytvorili 18, napríklad doprava, ľudia, príroda či vybavenosť. Kľúčových slov sme definovali 149. Hodnotu -5 získali negatívne slová v kategóriách hluk, zdravie a zeleň vadí. Hodnotu 5 na druhú stranu dostali slová kategórií príroda, zeleň a parky.
Všetky hodnoty v jednotlivých kategóriách sú zobrazené v tabuľke naľavo.
Väčšina kategórii bola rovnaká pre svoju pozitívne aj negatívne zafarbenú verziu. Najdôležitejšie pre nás sú v kladných hodnotách parky a príroda (pod ktorú spadá kĺúčové slovo zeleň), v negatívnych nám najviac záležalo na kategóriách hluk, zdravie, zeleň chýba a zeleň vadí.
SQL
Všetky tabuľky sme si chceli opäť importovať do SQL, aby sme v nich mohli robiť výpočty. Keby sme pre budúce generácie mali zanechať nejaký odkaz, bol by takýto: pri importe dat treba mať veľa, veľa trpezlivosti. Bulk insert vie byť zlo, rovnako tak zmeny kódovania medzi UTF-8 a Unicode. V lepšom prípade prišla ms. 4865, v horšom sa nič nenaimportovalo – BEZ HLÁŠKY ERRORU.
..keď človek ani nevie, čo má googliť. To je skutočné peklo.
Po hodinách errorov nás v určitých chvíľach zachránil codepage a výsledné BULK príkazy vyzerali nasledovne:
Všetky tabuľky sme si chceli opäť importovať do SQL, aby sme v nich mohli robiť výpočty. Keby sme pre budúce generácie mali zanechať nejaký odkaz, bol by takýto: pri importe dat treba mať veľa, veľa trpezlivosti. Bulk insert vie byť zlo, rovnako tak zmeny kódovania medzi UTF-8 a Unicode. V lepšom prípade prišla ms. 4865, v horšom sa nič nenaimportovalo – BEZ HLÁŠKY ERRORU.
..keď človek ani nevie, čo má googliť. To je skutočné peklo.
Po hodinách errorov nás v určitých chvíľach zachránil codepage a výsledné BULK príkazy vyzerali nasledovne:
Nakoniec sa nám úspešne podarilo importovať všetky tabuľky z oboch datasetov a mohli sme začať hľadať výsledky. Tie sme hľadali jednak na základe zadávania SQL príkazov, rovnako však aj za použitia PowerBI.
Pre následnú najkrajšiu možnú vizualizáciu výsledkov sme chceli využiť mapy nie len z PowerBI, ale aj z nášho obľúbeného QGisu, ktorý nám tak verne slúžil na všetko, okrem termálnej mapy.
Pocit zrady z jeho strany bol teda o to väčší (názov Oh Uh! je tak výstižný, ako to len ide..):
Niektoré veci, ktoré sme vďaka tejto aplikácii chceli vyskúsať, začali čoraz častejšie podobnú optimistickú hlášku ukazovať, poďakovali sme preto QGisu za spoluprácu a ďalej mapy riešili už len v rámci PowerBI.
Získavanie výsledkov
Korelácie
Evča sa ďalej venovala koreláciám z Hackatonu. Aby data mohla vykreslovať do grafov a skúmať, musela ich najskôr štandardizovať. Výsledkom bol štandardizovaný dataset, obsahujúci spojené atributy o Brne (a neskôr aj o zeleni a parkoch). V tomto bode sme už mohli skúmať jednotlivé faktory.
Pre prehľadnosť sme ich rozdelili na faktory environmentálne a sociálne. Na zistenie podobných skupín a ich znázornenie sme využili zhlukovú analýzu. Ako sme zistili, medzi faktormi existuje priama aj nepriama závislosť.
Evča sa ďalej venovala koreláciám z Hackatonu. Aby data mohla vykreslovať do grafov a skúmať, musela ich najskôr štandardizovať. Výsledkom bol štandardizovaný dataset, obsahujúci spojené atributy o Brne (a neskôr aj o zeleni a parkoch). V tomto bode sme už mohli skúmať jednotlivé faktory.
Pre prehľadnosť sme ich rozdelili na faktory environmentálne a sociálne. Na zistenie podobných skupín a ich znázornenie sme využili zhlukovú analýzu. Ako sme zistili, medzi faktormi existuje priama aj nepriama závislosť.
Znázornenie korelácii medzi faktormi environmentálneho
charakteru
Priamu závislosť môžeme vidieť
napríklad pri vzdialenosti miesta od zelene a jeho vzdialenosť od
frekventovanej silnice. Rovnako tak figuruje znečistenie ovzdušia aj v
nepriamej závislosti na vzdialenosť miesta od frekventovanej silnice (čím sa
teda zvýši hodnota vzdialenosti daného miesta od silnice, tým sa zníži hodnota
prekročenia znečistenia ovzdušia). Toto znečistenie ovplyvňuje ďalej nepriamo
aj vzdialenosť od zelene – opäť, čím je miesto bližšie k zeleni, tým je hodnota
znečistenia ovzdušia menšia.
Sociálne faktory
Značne viac dat sme mali pre skupinu
sociálnych faktorov. Dalo sa hneď vidieť niekoľko skupín, ktoré na sebe sú
závislé.
Priama závislosť je napríklad jasná
v doprave MHD a dojazdových časoch na vybrané dopravné uzly. Pri sledovaných
miestach v Brne to vypovedá o priamej závislosti na dopravnej obslužnosti MHD a
dostupnosti hlavných prestupných uzlov. Viditeľné je tiež, že reštaurácie sú
umiestnené v miestach s dobrou obslužnosťou MHD.
Vybavenosť miest poštami, potravinami a miestami pre recykláciu má nepriamu závislosť k pomeru zastúpenia obytných budov (teda tam, kde je viac obytných budov, je väčšia sociálna vybavenosť týmito službami a vzdialenosť sledovaných miest je k týmto službám zase menšia).
Vybavenosť miest poštami, potravinami a miestami pre recykláciu má nepriamu závislosť k pomeru zastúpenia obytných budov (teda tam, kde je viac obytných budov, je väčšia sociálna vybavenosť týmito službami a vzdialenosť sledovaných miest je k týmto službám zase menšia).
Kľúčové slová a hodnoty mestských častí
Veľa výsledkov nám priniesla samotná analýza kľúčových slov, vďaka
ktorej sme vedeli zistiť veľmi zaujímavé výsledky – aj vďaka SQL. Napriek tomu,
že by sme tieto veci dokázali zistiť aj v PowerBI, vnútorne sme k SQL tak
inklinovali, že sme chceli čo najviac vecí vyskúšať aj tu.
Od prvých SELECTov sme tak pre naše potreby postupne využívali čoraz zložitejšie príkazy. Niektoré zo základných príkazov, s ktorými sme sa postupne hrali, vyzerali nasledovne:
Od prvých SELECTov sme tak pre naše potreby postupne využívali čoraz zložitejšie príkazy. Niektoré zo základných príkazov, s ktorými sme sa postupne hrali, vyzerali nasledovne:
Snažili sme sa prísť na rôzne vzťahy
medzi kľúčovými slovami a ich kategóriami v rôznych mestských častiach.
Keďže v priebehu práce s datami sa stalo, že sme si v nich všimli také, ktoré si ešte zaslúžili našu pozornosť a ďalšiu prácu s nimi, veľmi sme ocenili prepojenie SQL s PowerBI, čo nám neuveriteľne uľahčilo život. Akonáhle sme na niečo použili v rámci databázy UPDATE, v PowerBI nám stačilo použiť Refresh (potom čakať..dosť dlho :D) a užívať si upravené hodnoty.
Keďže v priebehu práce s datami sa stalo, že sme si v nich všimli také, ktoré si ešte zaslúžili našu pozornosť a ďalšiu prácu s nimi, veľmi sme ocenili prepojenie SQL s PowerBI, čo nám neuveriteľne uľahčilo život. Akonáhle sme na niečo použili v rámci databázy UPDATE, v PowerBI nám stačilo použiť Refresh (potom čakať..dosť dlho :D) a užívať si upravené hodnoty.
Výpočet priemerov hodnôt pre mestské časti
Na výpočet celkovej hodnoty mestskej
časti sme porovnali všetky hodnotenia od všetkých respondentov. Pre každú
mestskú časť sme vypočítali priemer pozitívnych a negatívnych kľúčových slov,
rovnako ako priemer všetkých kľúčových slov. Výpočtov pre správne určenie
výsledných hodnôt mestských častí sme skúsili niekoľko.
Vo výslednej tabuľke jedného z nich (pod tabuľkou vidno jeho nežne upravenú verziu) vidieť priemer pozitívneho sentimentu, priemer negatívneho sentimentu, priemer týchto dvoch hodnôt, a celkový priemer hodnoty = náš podstatný údaj pre ohodnotenie mestskej časti na základe nami stanovených hodnôt kľúčových slov. Tým pádom sú tu zoradené mestské časti podľa toho, ako ju ľudia hodnotia s ohľadom na zeleň a príbuzné kategórie v nej. Rovnako pre nás boli dôležité kategórie s trochu nižšími hodnotami, napríklad vybavenosť či služby. Vnorený SELECT nám počítal pre každú mestskú časť priemery pre každého jedného respondenta zvlášť. Hlavný SELECT nám vyrátal priemer týchto priemerov. Výsledná tabuľka vyzerala nasledovne:
Vo výslednej tabuľke jedného z nich (pod tabuľkou vidno jeho nežne upravenú verziu) vidieť priemer pozitívneho sentimentu, priemer negatívneho sentimentu, priemer týchto dvoch hodnôt, a celkový priemer hodnoty = náš podstatný údaj pre ohodnotenie mestskej časti na základe nami stanovených hodnôt kľúčových slov. Tým pádom sú tu zoradené mestské časti podľa toho, ako ju ľudia hodnotia s ohľadom na zeleň a príbuzné kategórie v nej. Rovnako pre nás boli dôležité kategórie s trochu nižšími hodnotami, napríklad vybavenosť či služby. Vnorený SELECT nám počítal pre každú mestskú časť priemery pre každého jedného respondenta zvlášť. Hlavný SELECT nám vyrátal priemer týchto priemerov. Výsledná tabuľka vyzerala nasledovne:
Ak
by sme mali všeobecne zhodnotiť, ako vyšli podľa našich kritérii jednotlivé
mestské časti, na prvom mieste by sa umiestnil Útěchov s pozitívnym priemerom
2,242, nasledovaný Kohoutovicami s 1,641. Top 3 by uzavrel Žebětín s 1,597.
Ako
najmenej “zelené”, teda s ohľadom na naše priority najhoršie, vyšli Chrlice s
hodnotou -1,667, Ořešín s -1,5 a Bosonohy s -1,417.
Rovnaké hodnoty by nám vrátil aj
značne jednoduchší SELECT iba s mestskou časťou a priemerom, páčilo sa nám však
mať všetky informácie pre výpočty pri sebe. :)
Pri lepšom pohľade na výsledky nám však nedalo a museli sme spraviť to, čomu sme sa podvedome chceli vyhnúť – premazať mestské časti (= vybrať pre väčšiu reprezentatívnosť výsledkov časti s viac respondentmi). Je totiž veľký rozdiel, či na mestskú časť reaguje 1 človek alebo ich je 123. Ako je z tabuľky vidieť, Chrlice aj Ořešín na posledné priečky poslal 1 ich (očividne nespokojný) obyvateľ, rovnako ako 1 človek dostal Tuřany na 4 miesto.
Pri lepšom pohľade na výsledky nám však nedalo a museli sme spraviť to, čomu sme sa podvedome chceli vyhnúť – premazať mestské časti (= vybrať pre väčšiu reprezentatívnosť výsledkov časti s viac respondentmi). Je totiž veľký rozdiel, či na mestskú časť reaguje 1 človek alebo ich je 123. Ako je z tabuľky vidieť, Chrlice aj Ořešín na posledné priečky poslal 1 ich (očividne nespokojný) obyvateľ, rovnako ako 1 človek dostal Tuřany na 4 miesto.
Zmenili sme teda náš príkaz tak, aby
nám ukázal len tie mestské časti, pre ktoré bol minimálny počet respondentov
10:
Výsledkom je 15 riadková tabuľka, na ktorú sme veľmi hrdé, aj keď je opäť pre množstvo údajov dosť neprehľadná. Opäť vidíme údaje ako predtým, tentokrát nám však ako najpozitívnejšia mestská časť vyšli Medlánky, nasledované Žabovřeskami a časťou Líšeň. Vo výslednej tabuľke na rozdiel od tej predtým vidno, že iba 3 mestské časti – Vinohrady, Židenice a Slatina – zostali z častí s negatívnou hodnotou.
Údajov
je ku každej mestskej časti naozaj veľa, riešime ich preto až v rámci nášho
reportu, ktorý nájdete na konci príspevku. :)
-
Medlánky,
-
Brno – Sever,
-
Slatina,
-
Komín,
- Brno – Stred (ako časť s najviac
respondentmi aj odpoveďami pre možnosť porovnávania).
Hodnotenie vybraných mestských častí
Medlánky, víťaz nášho boja, získali
veľa na prírode a kľude, ktorý tam prevláda. Ľudia ocenili ich polohu, ako aj v
Brne - Strede však kritizujú možnosti parkovania.
Slatina, očividne, utrpela veľkú porážku z dôvodu dopravy, hluku a tomu, že tam chýbajú zelené plochy. O doprave na Slatinu nemusíme dlho polemizovať, pretože kto tam už niekedy išiel v dopravnej špičke, vie, že je to pre vodičov veľká skúška nervov. Pozreli sme sa preto na priemernú vzdialenosť k zastávkam MHD a výsledok dal ľuďom za pravdu, že dostupnosť MDH (riešená v rámci kategórie doprava) je dosť zlá – z vybraných častí je priemerná vzdialenosť k zastávke o 300 metrov horšia, ako v predposlednom Komíne. Rozdiel medzi časťami Brno – Sever a Slatinou je úplne markantný, zatiaľ čo v Slatine to je 714 metrov, v časti Brno - Sever to je len 190 metrov. Nasledované sú Stredom (s 245 m) a Medlánkami (246 m).
Slatina, očividne, utrpela veľkú porážku z dôvodu dopravy, hluku a tomu, že tam chýbajú zelené plochy. O doprave na Slatinu nemusíme dlho polemizovať, pretože kto tam už niekedy išiel v dopravnej špičke, vie, že je to pre vodičov veľká skúška nervov. Pozreli sme sa preto na priemernú vzdialenosť k zastávkam MHD a výsledok dal ľuďom za pravdu, že dostupnosť MDH (riešená v rámci kategórie doprava) je dosť zlá – z vybraných častí je priemerná vzdialenosť k zastávke o 300 metrov horšia, ako v predposlednom Komíne. Rozdiel medzi časťami Brno – Sever a Slatinou je úplne markantný, zatiaľ čo v Slatine to je 714 metrov, v časti Brno - Sever to je len 190 metrov. Nasledované sú Stredom (s 245 m) a Medlánkami (246 m).
Pre
potvrdenie sme sa ešte pozreli na to, ako dlho trvá priemerne cesta k 3
vybraným MHD uzlom z jednotlivých mestských častí (započítaná je aj vzdialenosť, ktorú človek prejde chôdzou zo sledovaného miesta na zastávku):
Graf
opäť potvrdzuje sťažnosti ľudí o tom, že je Slatina ďaleko – vidíme, že dostať
sa na Českú zaberie jej obyvateľom cez 40 minút, na Skácelovu cestujú až 49
minút. Tieto hodnoty sú extrémne v porovnaní so všetkými ďalšími skúmanými
časťami. Brno – Stred si obhájil svoje dobré body za dostupnosť, prekvapivo
však Brno – Sever toľko kladných bodov za túto výhodu nezískal, aj keď vidno,
že na tom v časovom porovnaní nie je vôbec tak zle a v priemernej vzdialenosti
na zastávku dokonca prekonal Stred.
Ako ďalšiu kategóriu zo skôr určených sme sa rozhodli pozrieť na vybavenosť. V tej sa do negatívnej hodnoty dostali akurát Medlánky, rozhodli sme sa preto pozrieť na priemernú vzdialenosť budov od reštaurácii či hospod. Ako vidno, okrem pošty na tom sú Medlánky porovnateľne s Komínom a ešte lepšie ako Slatina.
Všeobecné závery
Kľúčové slová
Pri skúmaní najčastejšie uvádzaných pozitívnych a negatívnych kľúčových slov sa nám potvrdila naša najzákladnejšia hypotéza: zeleň ľudí robí šťastnejšími, pretože práve zeleň vyšla ako najčastejšie uvádzané pozitívne kľúčové slovo. Doprava a parkovanie je naopak problémom ľudí takmer vo všetkých mestských častiach.
Pri skúmaní najčastejšie uvádzaných pozitívnych a negatívnych kľúčových slov sa nám potvrdila naša najzákladnejšia hypotéza: zeleň ľudí robí šťastnejšími, pretože práve zeleň vyšla ako najčastejšie uvádzané pozitívne kľúčové slovo. Doprava a parkovanie je naopak problémom ľudí takmer vo všetkých mestských častiach.
“Nespokojné body”
Na nasledujúcej mape vidno základné zhluky bodov, ktoré sa Brňanom nepáčia, farebne sú odlíšené podľa mestských častí. Jednoznačne sa dá povedať, že hlavní nádraží a Mendlovo náměstí má u ľudí najmenšiu obľubu, koncentrácia bodov je tu naozaj najvýraznejšia z celej mapy. Rovnako tak sa dá všimnúť súvislý pás bodov na Cejli a okolitých uliciach. Potvrdzuje to naše zistenia z dat o šťastí, pretože k tejto oblasti a jej obyvateľom často smerovali výtky od respondentov. Dalo by sa povedať, že to sú miesta s obrovským potenciálom na zmenu v rámci centra Brna.
Na nasledujúcej mape vidno základné zhluky bodov, ktoré sa Brňanom nepáčia, farebne sú odlíšené podľa mestských častí. Jednoznačne sa dá povedať, že hlavní nádraží a Mendlovo náměstí má u ľudí najmenšiu obľubu, koncentrácia bodov je tu naozaj najvýraznejšia z celej mapy. Rovnako tak sa dá všimnúť súvislý pás bodov na Cejli a okolitých uliciach. Potvrdzuje to naše zistenia z dat o šťastí, pretože k tejto oblasti a jej obyvateľom často smerovali výtky od respondentov. Dalo by sa povedať, že to sú miesta s obrovským potenciálom na zmenu v rámci centra Brna.
Zhluky zelene
Z mapy a údajov vyplýva pozitívny vzťah ľudí k prírode a zeleni vo viacerých častiach Brna. Pri zisťovaní kľúčových slov sme zistili napríklad to, že ľudia pozitívne hodnotili mestské časti Brno – Stred, Brno – Sever, Bystrc, Žabovřesky či Medlánky. Konkrétne ocenili Lužánky, Špilberk či Tyršovy sady.
Z mapy a údajov vyplýva pozitívny vzťah ľudí k prírode a zeleni vo viacerých častiach Brna. Pri zisťovaní kľúčových slov sme zistili napríklad to, že ľudia pozitívne hodnotili mestské časti Brno – Stred, Brno – Sever, Bystrc, Žabovřesky či Medlánky. Konkrétne ocenili Lužánky, Špilberk či Tyršovy sady.
Je
však dobré poukázať na to, čo sme písali na začiatku – tieto data máme napojené
na mapu zelene, ktorú sme získali prepojením parkov a lesov mesta Brna. Pokiaľ
teda v Brne je zeleň, ktorá nie je zapísaná pod Brnom, aktuálna mapa s ňou
nepracuje ako so zeleňou a ignoruje, že na mape sa ukáže ako zelená plocha.
Pri
pohľade na celú mapu vidíme ďalšie výsledky.
Pre overenie hypotézy, že naozaj zeleň šťastie ľudí ovplyvňuje, sa pozrieme ešte na poslednú mapu – sú na nej modrou zobrazené body, ktoré respondenti označili ako miesta, s ktorými sú spokojní, nechcú ich meniť. Je jasná ich koncentrácia v Lužánkach, Wilsonovom lese, na Kravej hore aj Špilberku.
Dodatočná mapa
Vzhľadom
k tomu, že sme sa naučili robiť pekné mapy a niektoré údaje z našich 2
datasetov sa priam ponúkali na prepojenie, pozreli sme sa na ďalšie faktory,
ktoré môžu spokojnosť ľudí v Brne ovplyvniť. Na nasledujúcej mape napríklad konkrétne vidno,
ako sú jednotlivé budovy vzdialené od najbližšieho kontajneru s triedeným
odpadom. Čím je bod svetlejší, tým je ku kontajneru bližšie. Problém s odpadkovými
košmi na triedený odpad uviedlo niekoľko ľudí práve v mestskej časti Brno – Stred. Práve pre týchto ľudí možno bude zaujímavé pozrieť si, či sú ich
sťažnosti oprávnené, prípadne pozrieť stránky magistrátu mesta Brna, kde je mapa
kontajnerov na triedený odpad verejne prístupná.
Zhrnutie
Všetky naše zistené výsledky podporili našu hlavnú hypotézu. Príroda a
zeleň značným spôsobom ovplyvňujú šťastie ľudí v Brne s tým, že si toho sú
naozaj vedomí a v prípade, kde zeleň chýba, považujú to za negatívne. Rovnako
dôležité sú pre nich kľud a dobrý vzduch.
Brňanov najviac hnevá doprava, parkovanie a autá. Ako jeden respondent vyjadrill svoj negatívny názor: “autá, autá, autá všade.” Zaujímavý je po zamyslení kontrast týchto odpovedí. Ľudia na jednej strane chcú, aby bolo viac zelene, aby sa pozastavovali zástavby a aby pribúdalo parkov. Na druhej strane ostro kritizujú nemožnosť poriadne zaparkovať, nadávajú na autá parkujúce všade možne po uliciach a chodníkoch a dovolávajú sa parkovacích domov či výstavby parkovacích miest.
Naše výsledky naznačujú, že je veľký potenciál niektoré veci zmeniť k lepšiemu a ponúkajú priestor pre rozvoj a zlepšenie niektorých miest v rôznych mestských častiach Brna.
Brňanov najviac hnevá doprava, parkovanie a autá. Ako jeden respondent vyjadrill svoj negatívny názor: “autá, autá, autá všade.” Zaujímavý je po zamyslení kontrast týchto odpovedí. Ľudia na jednej strane chcú, aby bolo viac zelene, aby sa pozastavovali zástavby a aby pribúdalo parkov. Na druhej strane ostro kritizujú nemožnosť poriadne zaparkovať, nadávajú na autá parkujúce všade možne po uliciach a chodníkoch a dovolávajú sa parkovacích domov či výstavby parkovacích miest.
Naše výsledky naznačujú, že je veľký potenciál niektoré veci zmeniť k lepšiemu a ponúkajú priestor pre rozvoj a zlepšenie niektorých miest v rôznych mestských častiach Brna.
Záverom zn. Čo nám akadémia dala
Obe sme veľmi šťastné, že sme mali možnosť akadémie sa zúčastniť. Bola to vo všetkých ohľadoch veľká výzva. Každá sme našli zaľúbenie v niečom inom a získali sme predstavu, čo vlastne vo svojom živote (ne)chceme robiť.
Akadémia pre nás boli smiech aj slzy, odhodlanie aj čistá beznádej (termálna mapa). Obrovská časť akadémie však boli práve ľudia, ktorí ju tvorili. Či už to boli spolužiačky, mentori alebo vyučujúci - každý prispel svojou časťou a vytvoril tento nezabudnuteľný zážitok, ktorý trval 3 mesiace, ale prešiel neuveriteľne rýchlo.
Chceli by sme poďakovať každému, kto nám na ceste k tomuto projektu pomohol. Romanovi, pretože mal na naše vrtochy a výmysly trpezlivosť. Rodinám a Tomovi, pretože zvládali občasné depresívne stavy a zachraňovali notebooky pred vyhodením z okna. Milošovi a Honzíkovi, pretože to sú neuveriteľne úžasní ľudia ochotní kedykoľvek pomôcť.
A samozrejme Katke, Romči, Marti, Ivči, Verči, Helči, Maruške a ostatným dievčatám za to, že sú také skvelé a že sme spolu vytvorili, napriek tomu, aká sme každá iná, úžasný tím. :)
Obe sme veľmi šťastné, že sme mali možnosť akadémie sa zúčastniť. Bola to vo všetkých ohľadoch veľká výzva. Každá sme našli zaľúbenie v niečom inom a získali sme predstavu, čo vlastne vo svojom živote (ne)chceme robiť.
Akadémia pre nás boli smiech aj slzy, odhodlanie aj čistá beznádej (termálna mapa). Obrovská časť akadémie však boli práve ľudia, ktorí ju tvorili. Či už to boli spolužiačky, mentori alebo vyučujúci - každý prispel svojou časťou a vytvoril tento nezabudnuteľný zážitok, ktorý trval 3 mesiace, ale prešiel neuveriteľne rýchlo.
Chceli by sme poďakovať každému, kto nám na ceste k tomuto projektu pomohol. Romanovi, pretože mal na naše vrtochy a výmysly trpezlivosť. Rodinám a Tomovi, pretože zvládali občasné depresívne stavy a zachraňovali notebooky pred vyhodením z okna. Milošovi a Honzíkovi, pretože to sú neuveriteľne úžasní ľudia ochotní kedykoľvek pomôcť.
A samozrejme Katke, Romči, Marti, Ivči, Verči, Helči, Maruške a ostatným dievčatám za to, že sú také skvelé a že sme spolu vytvorili, napriek tomu, aká sme každá iná, úžasný tím. :)
Report:
Díky za článek :)
OdpovědětVymazat