Pavlína Váňová a Lucie Šimková: Analýza návštěvnosti Hudy lezecké stěny Brno

Analýza návštěvnosti Hudy lezecké stěny Brno

Pavlína Váňová & Lucie Šimková Šnebergerová


Téma našeho projektu vzniklo v podstatě z nouze a na poslední chvíli. Obě jsme měly jasno v tom, co bychom rády dělaly a co nás zajímá, ale nebylo vůbec lehké vymyslet projekt, který by splňoval jakousi „svatou trojici“, tedy, byla by k němu dostupná data, byl by uskutečnitelný a v rámci našich sil a možností, a splňoval i třetí podmínku, kterou byla smysluplnost. Ani jedna z nás totiž nechtěla pracovat na něčem, co nemá žádné využití. Mezi nástroje, které nás nejvíce lákaly patřilo PowerBI a Python, ale byly jsme otevřené v podstatě všemu, protože jsme si toho chtěly ozkoušet co nejvíce. Právě s těmito představami a s nápadem na jeden projekt jsem přicházely na Meet your mentor. Nápad se týkal analýzy hlasování v projektu participativního rozpočtu města Brna (Dáme na vás), ale byl nám rozmluven, protože by šlo jen o analýzu minulé události, která by pravděpodobně neměla žádné hlubší využití. 

Termín odevzdání zadání se blížil a my jsme stále neměly jasno, naše dosavadní pokusy sehnat data byly bezvýsledné a už jsme se dostávaly na pokraj zoufalství. Náš projekt byl ale celou dobu blíž, než jsme si mohly myslet. Těsně před deadlinem na zadání se ze zahraničí vrátil Pavlin manžel a tím se nám otevřela možnost zpracovat data z Hudy stěny Brno, což je indoor lezecká stěna v Brně Štýřicích.

Hudy stěna Brno, náš malý projekt

Ačkoliv Hudy s daty nějakým způsobem pracuje, nebo je alespoň sbírá, přímo Hudy stěny už s daty nepracují. Mají přehled o tom, kdy přibližně chodí nejvíce lidí a intuitivní povědomí o tom, jak návštěvnost souvisí s počasím, a vědí, kdy mají sezónu a které měsíce patří mezi silnější. Ale v roce 2017 došlo k několika inovacím, které nepochybně ovlivňují návštěvnost, a naskytl se tak prostor pro hlubší analýzu dat i dopadu těchto novinek. V září 2017 to bylo otevření boulderu. Boulder je nižší stěna, pod kterou jsou tlusté matrace, do kterých lezci případně padají, protože se nepoužívá lano a není nutné ani jištění dalším člověkem. I nároky na vybavení jsou oproti lezeckým stěnám menší, i z tohoto důvodu je boulder často vyhledáván začátečníky. Nabízí se tak otázka, zda stoupl počet návštěvníků od doby, kdy byl zaveden? Kolik lidí chodí na boulder a kolik na stěny? Druhou významnou inovací bylo zapojení stěny do programu Multisport v říjnu 2017.
Naším cílem bylo podívat se na dostupná data z širší perspektivy a odpovědět na některé konkrétní otázky a najít souvislosti, třeba nečekané. Část otázek vyplynula přímo z požadavků Hudy stěny:

  • porovnání sezón 2016/2017 a 2017/2018
  • jak se na návštěvnosti projevilo otevření boulderu
  • počty a časy vstupů přes Multisport kartu

Data


Data byla získána z pokladního systému stěny, který funguje přes vzdálený přístup k úložišti externí firmy poskytující tuto službu. Pokladní systém není příliš uživatelsky přívětivý, data bylo nutné “vytahat” postupným dotazováním na jednotlivá období v předpřipravených filtrovacích formulářích a každý výsledek ručně uložit ve formátu HTML. Nebylo tedy možné stáhnout data za delší období či zahrnující více kategorií. Zpočátku jsme měly z formátu dat trochu obavy, protože první zkoušce to vypadalo, že struktura dat se ve formátu HTML rozbíjí. Nakonec jsme byly příjemně potěšeny, když si s tím Excel poradil. Pokud by Hudy stěna chtěla tato data zpracovávat i nadále, byla by vhodná domluva s poskytovateli služby, aby dodali data vhodných parametrů (toto však zatím vedení stěny nechtělo řešit). Tímto způsobem jsme získaly několik typů dat: 
  • měsíční (týdenní a denní) souhrny zahrnující následující kategorie:

Kategorie vstupů

    • tyto kategorie se nezřídka dělily dále a obsahovaly také informace o počtu nebo ceně prodané jednotky
  • data z Multisportu obsahující informace o konkrétních vstupech 


S tímto rozdělením byl v průběhu práce trochu problém, protože se nejedná o data se stejnou vypovídající hodnotou. O vstupech z pokladního systému lze zjistit informace o kategorii vstupenky (např. Bezpečnostní složky, Děti/Senioři nebo Studenti), typu místa (stěna nebo boulder), prodejní ceně a dni prodeje, ale informace o tom, v jakých konkrétních hodinách návštěvníci chodí nelze zjistit (kromě rozdělení "do 14 hod" a "14 - 22 hod"), stejně tak informace o tom, zda se jedná o muže nebo ženy a jak často chodí konkrétní člověk. Tato data jdou naopak vyčíst z Multisportu (id návštěvníka, jméno, časy a data vstupů a typ místa), musely jsme si proto dávat pozor, abychom nesrovnávaly jablka s hruškami. 

Čištění dat

Data jsme čistily především prostřednictvím Excelu, protože ačkoliv jsme dat měly relativně hodně, byla strukturována jen do několika tabulek. S načtením formátu HTML si naštěstí Excel hravě poradil. S čištěním nám hodně pomohla naše mentorka Katka, pro kterou je Excel denní chleba, poradila nám, kde začít a jak na to - využily jsme spoooustu různých excelovských funkcí, jako např. CONCATENATE, DENTÝDNE, ZLEVA, MOD a jiné, a při orientaci v datech nám hodně pomohlo jednoduché filtrování v “inteligentní tabulce”. Jsem si jistá, že bez její rady a pomoci bychom nad tabulkami obě strávily o dost hodin více a nevyhnuly bychom se zoufalství a nutkání hodit něco z okna.

Při zpracování dat jsme také konečně měly možnost využít Python. Naše mentorka Katka nám poskytla prográmek, pomocí kterého jsme si snadno mohly spojit více tabulek do jedné bez nutnosti něco ručně kopírovat a scrolovat tabulkou o 5000 řádcích, i když to mezi tabulkami ještě není žádný obr, přišlo to velmi vhod právě kvůli formátu dat. Měly jsme totiž několik tabulek rozdělených po měsíčních výstupech, protože dlouhodobá data nebylo možné ze systému dostat, ale se stejným záhlavím. Prográmek nám tak usnadnil práci a myslím, že se může hodit i v budoucnu :).
Spojení souborů z Multisportu

Po prvotním čištění se na první pohled se zdálo, že data jsou docela bezproblémová, ale v průběhu práce se objevilo pár komplikací. Jednou z nich byla data z Multisportu obsahující jména návštěvníků. Tato data jsme potřebovaly zpracovat, aby bylo možné určit pohlaví návštěvníka, ale vzhledem k tomu, že stěnu navštěvují i cizinci, nebylo možné pohlaví určit jednoduše podle “á” na konci příjmení. Dalším filtrem proto bylo křestní jméno, pro tyto účely jsme si vytvořily číselník ženských jmen. Ani to ale nebylo všespásné řešení, protože při bližší kontrole se ukázalo, že některá jména obsahují překlepy, je prohozené jméno a příjmení anebo se jednalo o méně častou modifikaci jména, která v našem číselníku nebyla. Bylo proto potřeba vše projít, zkontrolovat a případně opravit. Data jsme také anonymizovaly, respektive jsme používaly jen id nebo iniciály, aby někde nenastal problém.

Druhy vstupného na Hudy stěnu - to byl na první pohled jeden velký chaos:


… a 50 dalších druhů vstupů, kde u některých nebylo jasné, zda jde o stěnu nebo o boulder apod.

Nejdůležitější v této fázi byla proto kategorizace vstupů na základě názvu a vytvoření tabulky dimenzí, která by při vizualizaci umožnila vstupy filtrovat podle různých kritérií (typ, čas a místo).

Zpracování a vizualizace 

Od začátku jsme věděly, že chceme pracovat s PowerBi, právě tam také směřovala naše vyčištěná data.
P: Vyčištěné tabulky ve formátu .xls jsem importovala do PowerBI a propojila do datového modelu. Samozřejmě na několikrát, protože v průběhu tvorby grafů vždy znova vyvstávala potřeba tu a tam něco přidat, změnit, vypočítat... a ne vždy jsem si na to troufla přímo v Power BI. Kvůli porovnání současné a minulé sezóny jsem se na docela dlouhou dobu zasekla na time intelligence funkcích (LASTYEAR, CALENDARAUTO apod.), ale úspěch se nakonec dostavil. Naopak se mi zatím nepodařilo vytvoření vhodné časové hierarchie pro vizualizaci časů vstupů na Multisport kartu, ale jak jsem později vygooglila, není to úplně jednoduché. Funkcionalita automatické časové hierarchie pod úroveň dnů v Power BI na rozdíl od nástroje Tableau chybí. Stejně tak jsem přes různé pokusy zatím nepřišla na to, jak změnit názvy měsíců v grafech z anglických na české, ať nemáme v prezentaci jazykový mišmaš. Tento problém jsme naťukli už na hodině Power BI, ale bohužel nedořešili.

Výsledný datový model

Protože se mi nelíbilo defaultní barevné schéma PowerBI (a hlavně jsem v grafech chtěla mít firemní Hudy zelenou barvičku :-) upravila a importovala jsem vizuálně přitažlivější barevné schéma stažené z “hitparády” templátů: http://community.powerbi.com/t5/Themes-Gallery/bd-p/ThemesGallery

Google Analytics

L: Náš projekt se vyvíjel i podle toho, co jsme se průběžně v akademii učily. Mně se zalíbily možnosti Google Analytics, a tak jsem byla ráda, když se nám nakonec podařilo získat k nim přístup, byť skoro na poslední chvíli. Přístup se týkal celé stránky Hudy stěny, nikoliv jen brněnské pobočky a současně vypovídal opravdu jen o četnosti vstupů na jednotlivé stránky, protože Hudy stěny nevyužívají online reklamu, nebo alespoň ne prostřednictvím těchto stránek.
Data z Google Analytics nevypovídají o stejných faktorech jako data Multisportu anebo data z pokladního systému, ale chtěla jsem s jejich pomocí ověřit naše hypotézy týkající se většího zájmu o stěny v souvislosti se zavedením boulderu, ale především Multisportu. Předpokládaly jsme totiž, že právě Multisport má potenciál přivést nové návštěvníky. Dále jsem chtěla ověřit vytíženost jednotlivých měsíců a průběh sezóny a srovnat sezóny. 

GA: návštěvnost stránek - srovnání sezón
Pro srovnání jsem vybrala letošní sezónu a současná data (vždy od 1.6. do 30.5.) z přehledu "Publikum" lokalizovaná na Brno. Dle našich předpokladů by měl být nárůst v období září a října 2017, kdy došlo k vytvoření boulderové stěny a zapojení Multisportu. A data naše předpoklady potvrzují a ukazují, že celková návštěvnost webových stránek je v letošní sezóně vyšší, prvotní nárůst lze pozorovat již před hlavní sezónou (srpen) a následně v září a říjnu. Data v období září mohou být ovlivněna i tím, že 8.9.2017 došlo k vyřazení robotů z návštěvnosti (na obrázku výše ikona poznámky v grafu). Z dat je také krásně vidět sezóna, respektive kdy lidé nejvíce chodí na stránky Hudy stěny/Brno, a to v období září - duben, což odpovídá i běžné sezóně dle vstupů.


Při detailnějším zaměření na období září - listopad je ale vidět, že nárůst není tak absolutní, jak by se mohlo zdát z celkových čísel a po nárůstu v září je další trend nárůstu patrný až v listopadu. 

Není možné s přesností určit, který z výše zmiňovaných faktorů zvýšil návštěvnost (anebo zda je za tím ještě něco jiného), ale zdá se, že zářijový nárůst by opravdu mohl být způsoben otevřením bouderu, který je pro širší veřejnost a začátečníky pravděpodobně schůdnější, než stěny, na kterých je zapotřebí jištění a jsou i finančně náročnější právě z důvodu výbavy. Zapojení Multisportu by se pak dle dat výrazněji projevilo až později, v listopadu a následujících měsících. 

Počet vstupů Multisport v období říjen 2017 - duben 2018
To potvrzují data z Multisportu zpracovaná v PowerBi. V říjnu 2017, kdy byl Multisport na Hudy stěně Brno zaveden jej bylo využito ke 302 vstupům, v listopadu již k 688. 



Facebook 

Po prezentaci na Demo day jsme dostaly tip na analýzu dat s přihlédnutím k aktivitě na Facebookové stránce Hudy stěny Brno. Mají nové příspěvky na Facebooku nějaký vliv na návštěvnost? Příspěvky často informují o vytvoření nových lezeckých cest nebo inovacích na stěnách a boulderu, mohou tyto příspěvky motivovat lezce aby přišli na stěnu? Vypadalo to jako zajímavá výzva a možnost, jak naší analýzu udělat komplexnější, bohužel se nám ale nepodařilo získat přístup k Facebook Analytics ani k dalším údajům o stránce, což se později ukázalo jako problém. Facebooková stránka Hudy stěny Brno žije aktivním životem a téměř každý den se tam objevují lezecké tipy, odkazy na zajímavé stránky, rozhovory, akce a novinky a samozřejmě také informace o inovacích na stěnách a boulderu.

L: původně jsem si myslela, že data půjdou scrapovat a následně strukturovat v Pythonu. Google mi hodně pomohl a našla jsem několik způsobů, které se zdály být schůdné. Bohužel vše vždy ztroskotalo na tom, že jsem neměla přístup ke stránce a nemohla jsem zjistit její id, které bylo potřeba a bez kterého jsem se nemohla hnout dál. Takže všechny pokusy končily takto anebo podobně:

{
  "error": {
     "message": "Invalid OAuth access token.",
     "type": "OAuthException",
     "code": 190,
     "fbtrace_id": "He5cicfFZMX"
  }
}
Ale našla jsem si postup, který vypadal dost lákavě, pomocí Pythonu scrapovat příspěvky a komentáře do Excelu. Bohužel návod byl trochu starší a nebyly tak reflektovány nedávné aféry s únikem dat ani GDPR, které Facebook ovlivnily. Vzhledem k tomu, že tato část projektu byla taková "bonusová" a dostala jsem se k ní až v úplném závěru, nebylo už moc prostoru pro hledání alternativního řešení. Ale do budoucna bych se na to určitě chtěla podívat podrobněji a rozlousknout tenhle oříšek se scrapováním.
Přesto jsem se na aktivitu na Facebooku dívala blíže, především na vybrané období od října 2017, ale pravděpodobně by nebylo možné najít mezi příspěvky a návštěvností zřejmou korelaci, protože příspěvky informující o větších i menších změnách v trasách jsou na Facebooku velmi frekventované. 

Výsledky

P: Výsledkem našeho několikatýdenního úsilí za cenu dlouhodobého nevyspání, hladových a špinavých dětí a výbuchu atomové pumy v bytě (trochu přeháním :-) je několik pěkných dashboardů (či reportů, podle toho, kdo to vezme do ruky:-) v Power BI, ze kterých se dají pěkně vyčíst nejen odpovědi na otázky zmíněné na začátku, ale díky použití slicerů také další zajímavé detaily ohledně návštěvnosti stěny (např. že na boulder chodí nejčastěji studenti, děti navštěvují stěnu nejčastěji o víkendu, čtyři z pěti nejvytíženějších dnů byly neděle apod.)
Denní vstupy - data z pokladního systému


Měsíční vstupy - data z pokladního systému



Vstupy Multisport karta
Odpovědi na hlavní otázky:


  1. Srovnání této a minulé sezóny: Je patrný výrazný nárůst návštěvnosti, v průměru o 49,5% ve srovnání se stejným měsícem minulého roku. (Měsíce květen a červen není s čím srovnat, máme z nich data pouze za rok 2017.)
  2. Jak se na návštěvnosti projevilo otevření boulderu v září 2017: V tomto měsíci došlo k extrémnímu zvýšení návštěvnosti (o 98,5% proti září 2016). I když počet vstupů na boulder vzrostl z 48 na 294 (o 512%), i tak převážný podíl na tomto navýšení má stěna (nárůst o 84%, tj. o 1223 vstupů). Přesto můžeme říct, že boulder se mezi návštěvníky uchytil dobře, trend jeho obliby v následujících měsících je stoupající.
  3. Časy, kdy chodí lidé přes Multisport: Největší nápor příchozích je v pracovních dnech mezi 17-18 hodinou, o víkendech je časové rozložení rovnoměrnější. Převážnou většinu návštěvníků s kartou Multisport tvoří muži (67%).




Data obsahují i informace o prodejích permanentek, občerstvení, materiálu a další, jejichž zpracování by bylo rozhodně také zajímavé, ale už nad rámec našich časových možností.


Závěr

Kdybychom měly náš projekt shrnout, tak se typově jedná o analýzu dostupných dat s přesahem k marketingu, kdy se data snažíme strukturovat, najít v nich souvislosti a na základě toho zodpovědět otázky, které by měly pomoci k reflexi a lepšímu pochopení celkové situace s přihlédnutím k nedávným změnám. Na základě analyzovaných dat jsme se také snažily formulovat několik doporučení.

A naše osobní reflexe projektu? Určitě jsou věci, kterým bychom se mohly věnovat více a rozebrat je dopodrobna, ale byly jsme omezeny časem a dalšími povinnostmi (dětmi, prací i diplomovou prací) a často nebylo lehké najít ještě další prostor a sílu k nějaké produktivní činnosti.

P: Do akademie jsem se přihlásila s cílem naučit se efektivněji zpracovávat velké objemy dat a tento cíl určitě splnila. Mám povědomí o databázích, SQL, Pythonu, při práci na projektu jsem mnohem víc zdomácněla v Excelu a Power BI. Trochu mě mrzí, že jsme v projektu příliš nevyužily Python, který mě moc baví, ale Digitální akademií moje IT vzdělání určitě nekončí a mám v plánu se v programování posunout dál :-)

L: Do akademie jsem se přihlásila jako IT nepolíbená, vlastně téměř, kromě úplných základů Excelu jsem nedlouho předtím zkoušela Czechitas workshop Úvod do programování, který mi dodal odvahu přihlásit se a pustit se do toho pořádně. Naprostá většina věcí, které jsem se učila a které jsem zkoušela pro mě byla novinkou. Spousta věcí byla náročná a někdy ještě komplikovaná okolnostmi, ale jsem hrozně ráda, že jsem do toho šla, že jsem IT nakoukla pod pokličku, určitě chci dál pokračovat ve vzdělávání. PowerBi mě opravdu baví, stejně tak Google Analytics, které jsme jen tak naťukli a nechtěla bych zanevřít ani na Python.

Velké díky patří naší mentorce Katce Brabcové, která nám pomohla hlavně v začátku, který pro nás byl asi nejtěžší. Nenechala nás panikařit, když jsme ještě neměly téma projektu, a když jsme na něj přišly, pomohla nám utřídit si myšlenky a celý projekt formulovat. Ukázala nám spoustu fíglů v Excelu, ze kterých jsme čerpaly v průběhu celého projektu a také nám splnila i naše přání aspoň trochu využít Python. Děkujeme za čas, který jsi nám věnovala :)




Komentáře

Populární příspěvky z tohoto blogu

Barbora Junová: Podpora začínajícího podnikání zaměřeného na prodej výrobků a poskytování služeb

Gabriela Kubová, Lucie Čuprová: Analýza ruských e-shopů pomocí srovnávače cen Yandex

Kateřina Kolouchová & Lenka Tomešová: Vliv počasí na kriminalitu v New Yorku a Brně