Přehled o kontrolách a sankcích ČOI

Jana Pečinková & Lidka Veverková

Cíl projektu

V našem projektu jsme se rozhodly analyzovat data poskytovaná Českou obchodní inspekcí od roku 2013 do října 2018. Česká obchodní inspekce kontroluje a případně i saknciuje dodržování podmínek stanovených k zabezpečení jakosti, zdravotní nezávadnosti a bezpečnosti výrobků a služeb, důležitou součástí je také kontrola řádného poskytování informací zákazníkům, jak o daných produktech či službách, tak samozřejmě o cenách, což bývá častý problém a důvod sankciování, například chybějící cenovky, neodpovídající cena na zboží a při placení a informace o slevách.

Cílem bylo vytvořit přehled o stavu sankcí a kontrol v celé České republice, kde probíhá nejvíce kontrol, které zboží se nejvíce zabavuje, na základě jakého zákona jsou nejčastěji udělovány sankce a také nás zajímá, jak si stojí naše krásné město Brno.
Dalším mezníkem bylo vytvořit filtr kontrol a udělených sankcí, který umožní uživateli vyhledávat v databázi provedené kontroly a udělené sankce, dle firmy, kraje, data, částky nebo zákona na jehož základě byla provedena kontrola nebo udělena sankce. Tento filtr má pomoci uživatelům pro ověřování důvěryhodnosti ekonomických subjektů, snadno mohou zjistit, zda subjekt porušil některý ze zákonů kontrolovaných Českou obchodní inspekcí a zda byl za posledních 5 let od ČOI sankciován.

Data

Využitá data jsme získaly na oficiálních stránkách České obchodní inspekce, kde zveřejňuje otevřená data, která shromažďuje při své kontrolní činnosti od 1. ledna 2013 až do 1. října 2018. Česká obchodní inspekce jednou ročně (v říjnu) aktualizuje záznamy o provedených kontrolách, uložených pokutách, přehled dodržování daných zákonů, seznam výrobků, jejichž prodej byl zakázán a seznam zabavených padělků při kontrolách. Tato data jsou veřejná a lze je stáhnout ve formátu MS-Excel, csv nebo OpenDocument Spreadsheet. Pro naše účely jsme využily formát csv a stáhly 5 souborů s potřebnými daty v Microsoft SQL Management Studio.

Nejobsáhlejším souborem jsou provedené kontroly, kterých bylo za dané roky téměř 190 tisíc. Soubor kontroly obsahuje ID kontroly, které je pro nás zásadní vzhledem k vazbě na všechny ostatní soubory. Dalšími údaji, které udává tabulka kontroly jsou datum kontroly a IČ kontrolovaného subjektu, které ovšem není přiřazeno u všech kontrol, tam kde ano, údaje jsou rozšířeny ještě o geografické údaje, kraj, okres a přesná adresa subjektu. Ve zvláštním souboru je ID kontroly a zákon na jehož základě byla provedena kontrola. Třetí soubor obsahuje informace o uložených pokutách, ID sankcí je přiřazeno k jednotlivým ID kontrol, známe výši pokuty a k porušení jakého zákona a paragrafu došlo, soubor obsahuje také nabytí právní moci, které je ovšem pro naše analýzy nepotřebné, proto s ním nadále nebudeme pracovat. Poslední dva soubory se týkaly zákazu a zajišťování u obou je ID kontroly, při které k zákazu nebo zajištění došlo, dále se ze souborů dozvíme, o jaké výrobky se jednalo, na základě jakého zákona byly zakázány nebo jaké značky se zabavovaly.
Na začátku jsme tedy disponovaly těmito pěti tabulkami nevyčištěných dat a začaly s nimi dále pracovat.

Čištění dat

Aby data byla v takové podobě, kdy se dají optimálně využít, musely jsme je nejprve vyčistit. Veškeré úkony čištění dat jsme prováděly v SQL. Začaly jsme zlehka a vymazaly sloupce, které pro nás neměly žádnou vypovídací hodnotu a se kterými jsme nepotřebovaly nadále pracovat. Jednalo se například o geografické označení NUTS u sídla ekonomických subjektů nebo datum nabytí právní moci u sankcí.

Všechny naše tabulky spojovalo ID kontroly, jako identifikátor kontroly, na jejímž základě byla uložena sankce, nebo při níž byl vydán zákaz nebo zabaveno zboží. Ovšem ne všechny sankce měly přiřazenou platnou ID kontroly, která by se vyskytovala v přehledu všech provedených kontrol. Stejně tak ne všechny zákazy a zabavení zboží byly přiřazeny k platným ID kontrol a také některá zaměření kontrol byla přiřazena neexistujícím ID kontrol. Proto jsme neplatné hodnoty ze všech čtyř souborů vymazaly. Tímto nám vznikly soubory sankce, zajištění, zákazy a zaměření, ve kterých bylo každé ID kontroly přiřazeno ID kontrole v souboru všech provedených kontrol za dané období.
Poslední problém při čištění dat byl v souboru sankce, na tento problém odkazovala i Česká obchodní inspekce v popisu datového souboru. Jedná se o to, že jedna uložená pokuta se může objevit na více řádcích, a to v případě že byla uložena za porušení dvou či více paragrafů. V souboru se tedy vyskytly vícekrát stejné ID sankce, se stejnou částkou ale s porušením jiného paragrafu. Tyto duplicity jsme odstranily následujícím příkazem a nadále jsme využívaly pouze první výskyt dané sankce s tím, že nás nezajímaly jednotlivé porušované paragrafy, ale pouze zákony.


V tuto chvíli jsme měli vyčištěné všechny soubory, které jsme získaly od České obchodní inspekce a mohly s nimi dále pracovat.

Zpracování dat a tvorba datového modelu

Abychom naše reporty a filtr udělaly uživatelsky přívětivější, rozhodly jsme se přiřadit číslům zákonů a nařízení jejich pojmenování, abychom věděly, čeho se tematicky daná kontrola nebo sankce týká. Pro přiřazení názvu zákona k číslu jsme použily stahování dat z webové stránky pomocí příkazu v Pythonu.


Tento příkaz vytvořil nový csv soubor s čísly zákonů a názvem daného zákona. Soubor zákony_nove.csv jsme připojily do datového modelu.

Dále jsme rozhodly pro jednotlivá identifikační čísla přiřadit název firmy. Bohužel ne všechny kontroly měly u sebe přiřazené IČ firmy, ve které byly prováděny. Identifikační číslo bylo přiřazeno pouze v 97 tisících případech z celkových 190 tisíc, proto pro zbylou část kontrol nevíme, které firmy se týkala. Pro 97 tisíc kontrol, u kterých IČ známe, jsme přiřadily název firmy. Pro tento proces jsme chtěly využít stahování dat z justice.cz pomocí Pythonu, ovšem Ministerstvo spravedlnosti, které je spravuje, se právě rozhodlo pro přestavbu těchto stránek, proto jsme využili jiného zdroje a to rejstriky.e15.cz/vyhledavani-firem a justice.cz nám sloužila pouze jako záložní zdroj dat pro vyhledávání živnostníků, kteří na restrijky.e15.cz nejsou. Vytvoření správně fungujícího a efektivního skriptu nám zabralo snad nejvíce času a když se konečně po hodinách, respektive dnech marného snažení rozjel, zaplavil nás čirý pocit štěstí. Tady můžete vidět, jak vypadá štěstí v očích účastnice Digitální akademie a to hned 27 tisíckrát. 


Vytvořený skript k naší radosti spustil proces stahování 27 tisíc jedinečných firem přiřazených k identifikačním číslům.

Nakonec se nám tedy podařilo vytvořit nový csv soubor, který obsahoval jedinečné hodnoty všech identifikačních čísel, která jsme měly k dispozici, ke kterým byl přiřazen název firmy. Pro relativní vyjádření počtu kontrol a sankcí v jednotlivých krajích jsme využily data Ministerstva průmyslu a obchodu o počtu podnikatelských subjektů v jednotlivých krajích pro roky 2013 až 2018, které jsou dostupné na stránkách Ministerstva průmyslu v excelových souborech. Soubory s identifikačními čísly a počtu podnikatelských subjektů jsme napojily na datový model a mohly se pustit do vizualizací a tvorby reportu.

Náš výsledný datový model se skládá z 8 tabulek, které mají mezi sebou následující vazby.

Vizualizace

Po zpracování samotných dat jsme mohly pokračovat ve splnění cíle finální prací s daty v Power BI (konečně viditelný a běžnému, daty nepolíbenému smrtelníkovi srozumitelný výstup, díky kterému pochopí naše rodina, přátelé a kolegové, čemuže jsme se to poslední tři měsíce po večerech a sobotách věnovaly J).

Primárním úkolem bylo vytvoření funkčního filtru, který vyhledává provedené kontroly, kdy byly udělené sankce, dle firmy, kraje, částky nebo zákona, na jehož základě byla provedena kontrola nebo udělena sankce. Tento filtr jsme sestavily z vizualizačních prvků - slicerů, které uživateli umožní vyfiltrovat přehled dle zmíněných priorit, a tabulky, ve které se vyhovující výsledky zobrazují. Zobrazené výsledky je dále možné seřadit například dle abecedy nebo vzestupně dle udělené výše pokuty. 


Výsledky

V dalším kroku jsme se zaměřily na detailnější analýzu podle určitých parametrů, které nás zajímaly a to jak pro celou Českou republiku, tak pouze pro Brno, kde žijeme.

Od začátku roku 2013 do října 2018 udělila ČOI pokuty v celkové výši 620 470 100,- Kč přičemž nejvyšší zaznamenaná jednorázová pokuta byla udělena ve výši 5 020 000,- Kč. Mnoho z těchto vysoce sankciovaných firem už zaniklo, právě firma BOYDE s.r.o. nebo i IQ TELESHOPPING, která dostala pokutu 2 500 000 Kč. Pokuty byly udělovány nejčastěji v řádu tisíců až desetitisíců korun.



Průměrně proběhne během jednoho roku více než 31 000 kontrol a kromě roku 2013 a 2018  proběhlo nejvíce kontrol ve druhém kvartálu roku.


Dále jsme zjišťovaly počet kontrol v jednotlivých krajích. Celkový počet kontrol za roky 2013 až 2018 byl 189 510. Nejvíce kontrol za posledních 5 let v absolutním vyjádření proběhlo v Jihočeském kraji, kterých zde za tuto dobu bylo provedeno 22 083, hned poté následuje Hlavní město Praha s 19 022 kontrolami a poté kraj Jihomoravský s 18 633 kontrolami. 


Lepší vypovídací hodnotu pro nás má srovnání počtu kontrol s počtem podnikatelských subjektů v daném kraji. Tento graf se vcelku zásadně liší od předchozího. S čím jsme počítaly byly hodnoty pro Hlavní město Praha, která má největší množství podnikatelských subjektů v republice, tudíž logicky i nejvíce konrol, ale v relativním vyjádření vychází procentuelně až na posledním místě s 0,45 % kontrolovaných subjektů ze všech podnikatelských subjektů se zde vyskytujících. Zato Jihočeský kraj se i v relativním srovnání udržel na vrchích příčkách s 1,78 % kontrolovaných subjektů, předehnal ho pouze Karlovarský kraj s 1,93 %.


V rámci získaných dat z Čeké obchodní inspekce jsme se zaměřily i na data týkající se přímo Brna. Z dat vyplynulo, že od roku 2013 do roku 2018 zde bylo provedeno celkem 5620 kontrol a byly uděleny pokuty v celkové výši 40 652 800 Kč. Nejvyšší jednorázová pokuta v Brně v tomto období byla udělena firmě Tesco Stores ČR a.s. a to ve výši 2 500 000 Kč. 




V rámci dat nás zaujal zvýšený počet kontrol 28. října 2016. Jak jsme později zjistily, jednalo se o den, kdy Česká obchodní inspekce provedla v Brně celkem 37 kontrol obchodů v souvislosti se zákonem č. 223/2016 Sb., o prodejní době v maloobchodě a velkoobchodě, protože se jednalo o první státní svátek, kdy dle zákona musely být uzavřeny prodejny na 200 m2.

Nebyly bychom ženy, kdybychom si nevšimly pro nás zajímavých záznamů o zabaveném zboží během kontrol. Zjistily jsme, že od roku 2013 Česká obchodní inspekce zabavila nejčastěji oblečení jako jsou mikiny, trička nebo bundy. Kabelky, které jsme předpokládaly, že budou na prvních příčkách v počtu zabavených kusů byly v pořadí až na 6. místě. Zabavované zboží bylo nejčastěji vydáváno za značku Adidas, Burberry a Lois Vuitton.


Nejčastěji porušovali obchodníci při kontrolách Zákon o České obchodní inspekci, Zákon o ochraně spotřebitele a Zákon o technických požadavcích na výrobky.

Závěr

Celý projekt, který jsme zaměřily na vyhodnocení dat České obchodní inspekce, nám dal možnost, si v praxi vyzkoušet ty nástroje datové analytiky, které nás během Digitální akademie zaujaly. Mohly jsme si tak na běžně dostupných datech vyzkoušet celý proces od čištění a zpracování dat (SQL), přes jejich získávání pomocí Pythonu až po vizualizaci (Power BI) a potvrdit si tak, že bychom s těmito nástroji rády pracovaly i do budoucna. Zajímavé by jistě bylo vdechnout projektu život vytvořením webové aplikace, která by byla veřejně přístupná a díky které by si mohli její uživatelé ověřit důvěryhodnost dané firmy. 

Lidka: Přestože jsem v minulosti absolvovala Czechitas kurz Úvod do programování, ale bohužel jsem poznatky už dál nerozvíjela, do projektu jsem se přihlásila jako IT téměř nepolíbená s cílem dovědět se víc o využití IT v marketingu, kterému bych se do budoucna ráda věnovala. Během Digitální Akademie jsem měla možnost během tří hodně intenzivních měsíců nahlédnout pod pokličku IT a vyzkoušet si například práci v Pythonu, SQL, Power BI nebo rozšířit znalosti v užívání Excelu. Doufám, že i do budoucna budu mít možnost se dál rozvíjet a rozšiřovat si obzory na projektech mnohem více tématicky zaměřených na marketing.

Janča: Před Digitální akademií jsem nakoukla jak funguje SQL a programování pro mě bylo jednou velkou španělskou vesnicí. Na co jsem ale přišla, a nebyla na to uplně připravená, bylo to, že práce s daty, s SQL, s Power BI, s Pythonem je o řešení problémů. Není to tak, že někdo vám to ukáže a prostě to tak je vždycky. Je to všechno o pohotovosti, přizpůsobení se, trpělivosti a naději, že to řešení najdete! 

Na konec bychom rády poděkovali našemu mentorovi Honzovi Jetmarovi, který nám s projektem pomohl a zároveň byl naším přítelem na telefonu, pokud jsme se dostaly do úzkých. Velké díky mu patří hlavně za podporu během celodenního Hackatonu, který byl pro všechny vyčerpávající, ale na druhou stranu také maximálně produktivní.


Komentáře

Populární příspěvky z tohoto blogu

Andrea Martáková & Lenka Matúšová

Verča Dohnalová & Ivča Jelínková: Upgrade cyklostezek v Brně

Zuzana Talašová, Veronika Doleželová: Analýza dopravních nehod v Brně v závislosti na počasí