Ivana Mitáčková: Analýza návštěvnosti hromadných ubytovacích zařízení v ČR

Analýza návštěvnosti hromadných ubytovacích zařízení v ČR

1.   Úvod

Velmi dlouho jsem uvažovala nad tématem své práci. Jsem už poměrně dlouho mimo pracovní koloběh, tak jsem si tak trochu přála, abych dostala data, která by bylo možno zpracovat a udělat nad nima analýzu. Nakonec, jsem si data vyhledávala sama, volně dostupných dat je spousta, můj problém spíš byl, že jsem si nedokázala úplně představit (nad některýma datama), co z nich můžu dostat a na co se ptát.

Po dlouhém zvažování jsem si vybrala téma cestovního ruchu. Přislo mi srozumitelné a zároveň jsem si našla krásný dataset a zajímaly mě informace, které z něho získám.
Datová sada obsahovala časovou řadu statistických údajů o počtech turistů a přenocování turistů v hromadných ubytovacích zařízeních v České republice od roku 2012, a to i v členění za rezidenty a nerezidenty (zahraniční hosty). Údaje jsou agregovány za celou Českou republiku, za kraje, okresy, správní obvody obcí s rozšířenou působností a hlavního města Prahy, za turistické oblasti, turistické regiony. Hromadné ubytovací zařízení je zařízení s minimálně pěti pokoji a zároveň deseti lůžky sloužící pro účely cestovního ruchu, tj. poskytující přechodné ubytování hostům.

Cílem mé práce je analýza návštěvnosti turistů z ČR i zahraničí v českých hromadných ubytovacích zařízeních a hlavně, mým cílem bylo si prohloubit znalosti a zároveň si osvojit více jazyk SQL.

1.1       Struktura práce

Práce nad datasetem v Datagripu, export výsledných dat a vizualizace v PowerBI.

2.   Techniky a nástroje

Data byla zpracována v Datagripu pomocí jazyka SQL.
Vizualizace dat byla provedena v PowerBI.

3.    Postup

Dataset byl poměrně obsáhlý a zároveň jsem k němu musela používat dokumentaci k dekódování číselných kódů, které označovaly jednotlivé ukazatele a zároveň byly vodítkem ke správnému určení výsledků.

3.1       Vytvoření tabulky v Datagripu

Vytvoření proměnných a přiřazení datových typů k nim.

3.2       Nahrání datasetu ve formátu .csv do Datagripu

Nečekala jsem to, ale při pokusu o nahrání datasetu se mi dataset v .csv formátu nechtěl spárovat s proměnnými vytvořenými v DataGripu, musela jsem některé datové typy předělat, původně jsem měla pro číselné kódy datové typy Varchar, ale ukázalo se, že nejsou vhodné a bylo je třeba převést na celočíselný datový typ (Integer). Pak už nebyl problém vše nahrát do Datagripu.

3.3       Vývoj návštěvnosti hromadných ubytovacích zařízení za celou ČR 2012 - 2016

První věc, která mě zajímala, chtěla jsem zjistit, jak je to s vývojem návštěvnosti – tedy zájmem o ČR z hlediska turistů domácích i zahraničních. Vybrala jsem si, že zobrazím pouze data návštěvnosti. Pro výsledek jsem musela zvolit příslušný kód určený pouze pro návštěvnost “2654” a zároveň správné číslo území, když jsem chtěla data dostat za celou ČR. Výsledky, které jsem dostala jsem porovnávala s původním datasetem otevřeným v Excelu a zjistila, že můj výsledek se liší. Při bližším dohledání jsem zjistila, že v datasetu jsou zahrnuta data – sumy za rezidenty a nerezidenty. Tyto řádky tabulky obsahovaly nulovou hodnotu v proměnné uzemiz_cis_rezident_nerezident, proto jsem musela odfiltrovat tyto řádky, pokud jsem chtěla použít funkci Sum. Povedlo se.

Zjistila jsem, že budu potřebovat dva Selecty – jeden pro rezidenty a druhý pro nerezidenty. Pak jsem si marně lámala hlavu, jakým způsobem to udělat, aby to fungovala a našla jsem krásný návod na Stackoverflow. Použila jsem Join dvou Selectu a výsledný Select obsahuje data: rok, pocet turistu rezidentu, nerezidentu a celkovou sumu turistu, kteří navštívili hromadné ubytovací zařízení v ČR.


Z výsledných dat vyplývá, že množství turistů každým rokem roste, od roku 2012 se počet turistů ubytovaných v ČR zvýšil o 22% a největší nárůst byl zaznamenán v roce 2015 o 10% oproti roku předcházejícímu. V České republice bylo ubytováno 49% domácích turistů a 51% zahraničních turistů.


3.4       Průměrný počet nocí strávených turisty v hromadných ubytovacích zařízeních v ČR

Zajímalo mě, jaká je průměrná délka pobytu turistů v ČR za jednotlivá léta 2012 – 2016. Proto, abych mohla tento výsledek stanovit jsem potřebovala zjistit, celkových počet nocí a celkový počet návštěvníků v daném roce a následně tento výsledek podělit. Musela jsem opět využít dvou Selectů, které jsem potřebovala spojit a to Selectu za celkový počet ubytovaných turistů a celkový počet nocí strávených na území ČR. Oba Selecty jsem spojila v jeden výsledný, ve kterém jsem si stanovila průměr, který jsem se snažila zaokrouhlit.

Při této operaci jsem taky přišla na to, že datový typ proměnné mnozs_turistu, který jsem původně stanovila na Integer je špatný, protože mi výsledek vždy vyhazoval hodnotu nižší než která měla vyjít, dle kontroly údajů z Excelovského souboru. Tak jsem si řekla, zpátky na značky, a vytvořila jsem novou tabulku korekce_hromadne_ubytovani v Datagripu, kde jsem již použila správný datový typ „numeric“, který umí pracovat s desetinnými čísly. Vyšly mi výsledky s desetinnými čísly, které jsem tedy zaokrouhlila funkcí round, na jedno desetinné místo a tím mi tedy vyšel i výsledek defacto shodný pro všechny roky a to průměrný počet nocí, že je přibližně tři.


3.5       Vytvoření pomocné tabulky kod_oblasti

Pro vytvoření pomocné tabulky jsem se rozhodla poté, kdy jsem chtěla zjistit, do kterých turistických regionů přijelo nejvíce turistů. Pomocná tabulka obsahovala kód příslušné oblasti a zároveň název oblasti. Zdánlivě banální záležitost se lehce zadrhla a to hned ve dvou případech. Tabulku jsem si vytvořila v Excelu, správně uložila do .csv formátu, nicméně při nahrávání tabulky do DataGripu, jsem zjistila, že se správně nezobrazují české znaky, to jsem vyřešila opětovným uložením tabulky do již správného formátu v Excelu. Při nahrávání jsem ještě řešila správné namapovaní dat, prože .csv formát měl oddělovače středníky, které se mi špatně zobrazovaly. Nicméně, vše se nakonec podařilo, včetně napsání správného SQL příkazu.

Zádrhel číslo dva se dostavil ihned po exportu výsledných dat z Datagripu. Ve výsledném .csv souboru se opět špatně zobrazovaly české znaky a mohla jsem dělat co chtěla, měnit jazykový kód ve výsledném souboru, přeukládat, nic nepomohlo. Takže ve výsledku jsem vytvářela novou tabulku v Excelu, kde všem českým názvům jsem ve finále sebrala veškerou “českost” a obrala je o znaky tolik typické pro češtinu. Výsledek, vše funguje jak má, jen fajnšmekr českého jazyka při pohledu na výslednou tabulku bude trochu trpět, nicméně jsem si řekla, že účel světí prostředky.

3.6       Pořadí turistických regionu, kam přijelo nejvíce turistů (428 turistický region) v rozdělení na rezidenty a nerezidenty

Obě tabulky (hlavní - hromadne_ubytovani i kod_oblasti) jsem v Datagripu propojila pomoci JOINU přes uzemi_kod_oblasti se spoustou podmínek, tak aby mi opravdu vyšly jen data, která potřebuji, tj. vybrala jsem si za cíl zjistit kolik turistů přijelo do jednotlivých turistických regionů v ČR v letech 2012-2016 a aby byli rozdělení na rezidenty a nerezidenty. S pomocí mého mentora byl vytvořen jeden Select, který obsahoval množství turistů, turistický region, rozdělení na rezidenty a nerezidenty a v druhém Selectu jsme údaje s rezidentama a nerezidentama propojily a zároveň jsme propojily i roky a i uzemi_kod_oblast, to proto, aby se nám nezobrazovaly jednotlivé oblasti vícekrát, což se nám dělo v původní verzi příkazu.



Vybrala jsem tři nejnavštěvovanější turistické regiony ČR, jsou rozděleny na rezidenty a nerezidenty a jsou rozděleny i podle let, těm se budu více věnovat v dalších kapitolách.

3.7       Praha

Nikoho asi nepřekvapí, že nejvíce turistů přijelo do Prahy. Turisty jsem rozdělila na rezidenty a nerezidenty a dále jsem si stanovila celkový počet turistů, který přijel do daného region.
Pro získání výsledných dat, jsem využila dva Selecty, které jsem sloučila do jednoho výsledného, který obsahoval informace o roce, názvu oblasti, které se týká analýza, rozdělení turistů na rezidenty a nerezidenty a poslední byl suma všech turistů, kteří oblast navštívili. Nezabývám se počtem nocí, strávených v daném místě, tuto informaci jsem využila až pro stanovení průměrného počtu nocí strávených v dané oblasti.
Každá turistická oblast, kterou budu níže jmenovat bude mít podobný SQL kód s tím, že se bude měnit uzemiz_kod_oblast1 dle oblasti, kterou budu popisovat.

Do Prahy přijelo suverénně vice turistů ze zahraniční (vice než 80%) než z řad domácích turistů.  A počet turistů v průběhu let 2012 – 2016 rostl meziročně v průměru o 5%. Ze zahraničí přijelo nejvíce turistů z Německa, Spojených států amerických, Spojeného království a Itálie. V roce 2016 dvouciferný procentní nárůst eviduje Prague City Tourism například u hostů z Jižní Koreje, Izraele, Slovenska, Polska a Nizozemska.



3.8       Průměrný počet nocí strávených v Praze

Zajímal mě též průměrný počet nocí, kolik turisté stráví v našem hlavním městě. Tyto čísla se nijak nelišila od průměrného počtu nocí strávených v hromadných ubytovacích zařízení v ČR. Turisté tedy přijíždějí spíše na dobu kratší než 2-3 dny.

3.9        Turisté na Jižní Moravě

Využila jsem stejný SQL příkaz jako u Prahy, jen jsem ve výběru použila označení uzemi_kod_oblast1 = 14, který odpovídá Jižní Moravě.

Druhou nejnavštěvovanější oblastí byla turistická oblast Jižní Morava. Opět jsem data rozdělila do let a rozdělila jsem návštěvnost turistů na domácí a zahraniční. Z výsledků vychází, že na Jižní Moravu přijelo vice domácích turistů než turistů ze zahraničí a to v procentuálním rozdělení 60% domácích turistů a zbytek tvořili turisté zahraniční. Počet turistů meziročně stoupal v průměru o 5%. Průměrná délka pobytu byla přibližně dva dny.



3.10    Průměrný počet nocí strávených na Jižní Moravě


3.11    Turisté v Západočeských lázních

Pro zjištění údajů o návštěvnosti v Západočeských lázních jsem použila stejný SQL příkaz jako u Prahy nebo Jižní Moravy, s tím rozdílem, že uzemi_kod_oblast1 = 6, což odpovídá turistickému regionu Západočeské lázně.

Trojice velkých lázeňských center Karlovy Vary, Mariánské Lázně a Františkovy Lázně náleží k nejvýznamnějším lázeňským městům v celosvětovém měřítku. Zajímalo mě rozdělení domácích a zahraničních turistů, které vyšlo ve prospěch těch zahraničních, kdy do Západočeských lázních přijelo zhruba 60% turistů ze zahraničí a zbývající byli turisté domáci.
Zajímavý byl vývoj v letech, kdy došlo ke snížení navštěvnosti turistů v lázních, zejména rezidentů o více než 10%, což mohlo být způsobeno v roce 2012 zavedením tzv. Lázeňské vyhlášky, která byla ovšem ke konci roku 2014 zrušena Ústavním soudem. Jak můžeme vysledovat z grafu, od roku 2014 návštěvnost domácích turistů v lázeňských městech opět rostla meziročně přibližně o 10%.
Vzhledem k tomu, že se jedná především o region s lázeňskou péči, průměrná délka pobytu se pohybuje mezi 5 -6 nocemi.




3.12    Průměrný počet nocí strávených v Západočeských lázních


3.13    Turisté v Jižních Čechách

Pro zjištění dat, byl opět využit stejný SQL příkaz jako u Prahy, s rozdilem uzemi_kod_oblast1 = 3, což odpovídá turistické oblasti Jižních Čech

V roce 2014 vystřídaly Jižní Čechy, na pomyslném bronzovém místě, Západočeské lázně. Jižní Čechy se těší oblibě především u domácích turistů. Nicméně, lze sledovat, že domácích turistů od roku 2012 – 2016 ubylo o 4% ve prospěch turistů zahraničních. Celkový počet turistů vzrostl meziročně v průměru o 7,5%, přičemž nejmarkantnější růst byl zaznamenán v roce 2015 a to o 12% oproti roku předcházejícímu.
Průměrný počet nocí strávených v Jižních Čechách byl podobný jako v celé ČR, kolem tří dnů.



3.14    Průměrný počet nocí strávených v Jižních Čechách


4.        Závěr

Na projektu jsem si prohloubila znalosti SQL jazyka. Zautomatizovala jsem si práci v DataGripu a naučila jsem se přemýšlet nad tvořením otázek, které mohou vést k určitým výsledkům. Celý projekt, má tedy význam především pro mě samotnou.

Z dat, které jsem dostala jsem zjistila, že turistický ruch v České republice je neustále na vzestupu. Nejoblíbenějším cílem především turistů ze zahraničí je Praha, kde návštěvnost v roce 2016 přesahovala 6 miliónu zahraničních turistů a turisté sem přijíždí především na dobu kratší. Domácí turisté si volí jako cíl své cesty nejvíce Jižní Moravu, kam přicestovalo v roce 2016 přes 1 milión domácích turistů.

5.        Zdroje



Komentáře

Populární příspěvky z tohoto blogu

Barbora Junová: Podpora začínajícího podnikání zaměřeného na prodej výrobků a poskytování služeb

Petra Havlínová: Automatické zpracování podkladů pro vyhodnocení vybraných KPI

Kateřina Kolouchová & Lenka Tomešová: Vliv počasí na kriminalitu v New Yorku a Brně