Přehled o kontrolách a sankcích ČOI
Jana Pečinková & Lidka Veverková
Cíl projektu
V našem projektu jsme se rozhodly analyzovat data
poskytovaná Českou obchodní inspekcí od roku 2013 do října 2018. Česká obchodní inspekce kontroluje a případně i saknciuje dodržování podmínek stanovených k zabezpečení jakosti, zdravotní nezávadnosti a bezpečnosti výrobků a služeb, důležitou součástí je také kontrola řádného poskytování informací zákazníkům, jak o daných produktech či službách, tak samozřejmě o cenách, což bývá častý problém a důvod sankciování, například chybějící cenovky, neodpovídající cena na zboží a při placení a informace o slevách.
Cílem bylo vytvořit přehled o stavu sankcí a kontrol v celé České republice, kde probíhá nejvíce kontrol, které zboží se nejvíce zabavuje, na základě jakého zákona jsou nejčastěji udělovány sankce a také nás zajímá, jak si stojí naše krásné město Brno.
Cílem bylo vytvořit přehled o stavu sankcí a kontrol v celé České republice, kde probíhá nejvíce kontrol, které zboží se nejvíce zabavuje, na základě jakého zákona jsou nejčastěji udělovány sankce a také nás zajímá, jak si stojí naše krásné město Brno.
Dalším mezníkem bylo vytvořit filtr kontrol a udělených sankcí,
který umožní uživateli vyhledávat v databázi provedené kontroly a udělené
sankce, dle firmy, kraje, data, částky nebo zákona na jehož základě byla
provedena kontrola nebo udělena sankce. Tento filtr má pomoci uživatelům pro
ověřování důvěryhodnosti ekonomických subjektů, snadno mohou zjistit, zda
subjekt porušil některý ze zákonů kontrolovaných Českou obchodní inspekcí a zda
byl za posledních 5 let od ČOI sankciován.
Data
Využitá data jsme získaly na oficiálních stránkách České obchodní inspekce, kde zveřejňuje otevřená data, která shromažďuje při své kontrolní činnosti od 1. ledna 2013 až do 1. října 2018. Česká obchodní inspekce jednou ročně (v říjnu) aktualizuje záznamy o provedených kontrolách, uložených pokutách, přehled dodržování daných zákonů, seznam výrobků, jejichž prodej byl zakázán a seznam zabavených padělků při kontrolách. Tato data jsou veřejná a lze je stáhnout ve formátu MS-Excel, csv nebo OpenDocument Spreadsheet. Pro naše účely jsme využily formát csv a stáhly 5 souborů s potřebnými daty v Microsoft SQL Management Studio.
Nejobsáhlejším souborem jsou provedené kontroly, kterých
bylo za dané roky téměř 190 tisíc. Soubor kontroly obsahuje ID kontroly, které
je pro nás zásadní vzhledem k vazbě na všechny ostatní soubory. Dalšími
údaji, které udává tabulka kontroly jsou datum kontroly a IČ kontrolovaného
subjektu, které ovšem není přiřazeno u všech kontrol, tam kde ano, údaje jsou
rozšířeny ještě o geografické údaje, kraj, okres a přesná adresa subjektu. Ve
zvláštním souboru je ID kontroly a zákon na jehož základě byla provedena
kontrola. Třetí soubor obsahuje informace o uložených pokutách, ID sankcí je
přiřazeno k jednotlivým ID kontrol, známe výši pokuty a k porušení jakého
zákona a paragrafu došlo, soubor obsahuje také nabytí právní moci, které je
ovšem pro naše analýzy nepotřebné, proto s ním nadále nebudeme pracovat. Poslední
dva soubory se týkaly zákazu a zajišťování u obou je ID kontroly, při které
k zákazu nebo zajištění došlo, dále se ze souborů dozvíme, o jaké výrobky
se jednalo, na základě jakého zákona byly zakázány nebo jaké značky se
zabavovaly.
Na začátku jsme tedy disponovaly těmito pěti tabulkami
nevyčištěných dat a začaly s nimi dále pracovat.
Čištění dat
Aby data byla v takové podobě, kdy se dají optimálně
využít, musely jsme je nejprve vyčistit. Veškeré úkony čištění dat jsme
prováděly v SQL. Začaly jsme zlehka a vymazaly sloupce, které pro nás
neměly žádnou vypovídací hodnotu a se kterými jsme nepotřebovaly nadále
pracovat. Jednalo se například o geografické označení NUTS u sídla ekonomických
subjektů nebo datum nabytí právní moci u sankcí.
Všechny naše tabulky spojovalo ID kontroly, jako
identifikátor kontroly, na jejímž základě byla uložena sankce, nebo při níž byl
vydán zákaz nebo zabaveno zboží. Ovšem ne všechny sankce měly přiřazenou
platnou ID kontroly, která by se vyskytovala v přehledu všech provedených
kontrol. Stejně tak ne všechny zákazy a zabavení zboží byly přiřazeny k platným
ID kontrol a také některá zaměření kontrol byla přiřazena neexistujícím ID
kontrol. Proto jsme neplatné hodnoty ze všech čtyř souborů vymazaly. Tímto nám
vznikly soubory sankce, zajištění, zákazy a zaměření, ve kterých bylo každé ID
kontroly přiřazeno ID kontrole v souboru všech provedených kontrol za dané
období.
Poslední problém při čištění dat byl v souboru sankce,
na tento problém odkazovala i Česká obchodní inspekce v popisu datového
souboru. Jedná se o to, že jedna uložená pokuta se může objevit na více
řádcích, a to v případě že byla uložena za porušení dvou či více
paragrafů. V souboru se tedy vyskytly vícekrát stejné ID sankce, se
stejnou částkou ale s porušením jiného paragrafu. Tyto duplicity jsme
odstranily následujícím příkazem a nadále jsme využívaly pouze první výskyt
dané sankce s tím, že nás nezajímaly jednotlivé porušované paragrafy, ale
pouze zákony.


V tuto chvíli jsme měli vyčištěné všechny soubory,
které jsme získaly od České obchodní inspekce a mohly s nimi dále
pracovat.
Zpracování dat a tvorba datového modelu
Abychom naše reporty a filtr udělaly uživatelsky
přívětivější, rozhodly jsme se přiřadit číslům zákonů a nařízení jejich
pojmenování, abychom věděly, čeho se tematicky daná kontrola nebo sankce týká.
Pro přiřazení názvu zákona k číslu jsme použily stahování dat
z webové stránky pomocí příkazu v Pythonu.
Tento příkaz vytvořil nový csv soubor s čísly zákonů a
názvem daného zákona. Soubor zákony_nove.csv jsme připojily do datového modelu.
Dále jsme rozhodly pro jednotlivá identifikační čísla
přiřadit název firmy. Bohužel ne všechny kontroly měly u sebe přiřazené IČ
firmy, ve které byly prováděny. Identifikační číslo bylo přiřazeno pouze
v 97 tisících případech z celkových 190 tisíc, proto pro zbylou část
kontrol nevíme, které firmy se týkala. Pro 97 tisíc kontrol, u kterých IČ
známe, jsme přiřadily název firmy. Pro tento proces jsme chtěly využít
stahování dat z justice.cz pomocí Pythonu, ovšem Ministerstvo
spravedlnosti, které je spravuje, se právě rozhodlo pro přestavbu těchto
stránek, proto jsme využili jiného zdroje a to rejstriky.e15.cz/vyhledavani-firem
a justice.cz nám sloužila pouze jako záložní zdroj dat pro vyhledávání
živnostníků, kteří na restrijky.e15.cz nejsou. Vytvoření správně fungujícího a
efektivního skriptu nám zabralo snad nejvíce času a když se konečně po hodinách,
respektive dnech marného snažení rozjel, zaplavil nás čirý pocit štěstí. Tady
můžete vidět, jak vypadá štěstí v očích účastnice Digitální akademie a to hned 27 tisíckrát.
Vytvořený skript k naší radosti spustil proces stahování 27 tisíc jedinečných firem přiřazených k identifikačním číslům.
Nakonec se nám tedy podařilo vytvořit nový csv soubor, který
obsahoval jedinečné hodnoty všech identifikačních čísel, která jsme měly
k dispozici, ke kterým byl přiřazen název firmy. Pro relativní vyjádření
počtu kontrol a sankcí v jednotlivých krajích jsme využily data
Ministerstva průmyslu a obchodu o počtu podnikatelských subjektů
v jednotlivých krajích pro roky 2013 až 2018, které jsou dostupné na
stránkách Ministerstva průmyslu v excelových souborech. Soubory
s identifikačními čísly a počtu podnikatelských subjektů jsme napojily na
datový model a mohly se pustit do vizualizací a tvorby reportu.
Náš výsledný datový model se skládá z 8 tabulek, které
mají mezi sebou následující vazby.
Vizualizace
Po zpracování samotných dat jsme mohly pokračovat ve splnění
cíle finální prací s daty v Power BI (konečně viditelný a běžnému,
daty nepolíbenému smrtelníkovi srozumitelný výstup, díky kterému pochopí naše
rodina, přátelé a kolegové, čemuže jsme se to poslední tři měsíce po večerech a
sobotách věnovaly J).
Primárním úkolem bylo vytvoření funkčního filtru, který
vyhledává provedené kontroly, kdy byly udělené sankce, dle firmy, kraje,
částky nebo zákona, na jehož základě byla provedena kontrola nebo udělena
sankce. Tento filtr jsme sestavily z vizualizačních prvků - slicerů, které
uživateli umožní vyfiltrovat přehled dle zmíněných priorit, a tabulky,
ve které se vyhovující výsledky zobrazují. Zobrazené výsledky je dále možné seřadit
například dle abecedy nebo vzestupně dle udělené výše pokuty.
Výsledky
V dalším kroku jsme se zaměřily na detailnější analýzu
podle určitých parametrů, které nás zajímaly a to jak pro celou Českou
republiku, tak pouze pro Brno, kde žijeme.
Od začátku roku 2013 do října 2018 udělila ČOI pokuty
v celkové výši 620 470 100,- Kč přičemž nejvyšší zaznamenaná jednorázová
pokuta byla udělena ve výši 5 020 000,- Kč. Mnoho z těchto vysoce
sankciovaných firem už zaniklo, právě firma BOYDE s.r.o. nebo i IQ TELESHOPPING, která dostala pokutu 2 500 000 Kč. Pokuty byly udělovány nejčastěji v řádu
tisíců až desetitisíců korun.
Průměrně proběhne
během jednoho roku více než 31 000 kontrol a kromě roku 2013 a
2018 proběhlo nejvíce kontrol ve druhém kvartálu roku.
Dále jsme zjišťovaly počet kontrol v jednotlivých krajích. Celkový počet kontrol za roky 2013 až 2018 byl 189 510. Nejvíce
kontrol za posledních 5 let v absolutním vyjádření proběhlo v Jihočeském kraji, kterých zde za tuto dobu bylo provedeno 22 083, hned poté následuje Hlavní město
Praha s 19 022 kontrolami a poté kraj Jihomoravský s 18 633 kontrolami.
Lepší vypovídací hodnotu pro nás má srovnání počtu kontrol s počtem podnikatelských subjektů v daném kraji. Tento graf se vcelku zásadně liší od předchozího. S čím jsme počítaly byly hodnoty pro Hlavní město Praha, která má největší množství podnikatelských subjektů v republice, tudíž logicky i nejvíce konrol, ale v relativním vyjádření vychází procentuelně až na posledním místě s 0,45 % kontrolovaných subjektů ze všech podnikatelských subjektů se zde vyskytujících. Zato Jihočeský kraj se i v relativním srovnání udržel na vrchích příčkách s 1,78 % kontrolovaných subjektů, předehnal ho pouze Karlovarský kraj s 1,93 %.
V rámci získaných dat z Čeké obchodní inspekce jsme
se zaměřily i na data týkající se přímo Brna. Z dat vyplynulo, že od roku
2013 do roku 2018 zde bylo provedeno celkem 5620 kontrol a byly uděleny pokuty
v celkové výši 40 652 800 Kč. Nejvyšší jednorázová pokuta v Brně
v tomto období byla udělena firmě Tesco Stores ČR a.s. a to ve výši
2 500 000 Kč.
Nebyly bychom ženy, kdybychom si nevšimly pro nás zajímavých záznamů o zabaveném zboží během kontrol. Zjistily jsme, že od roku 2013 Česká obchodní inspekce zabavila nejčastěji oblečení jako jsou mikiny, trička nebo bundy. Kabelky, které jsme předpokládaly, že budou na prvních příčkách v počtu zabavených kusů byly v pořadí až na 6. místě. Zabavované zboží bylo nejčastěji vydáváno za značku Adidas, Burberry a Lois Vuitton.
V rámci
dat nás zaujal zvýšený počet kontrol 28. října 2016. Jak jsme později zjistily,
jednalo se o den, kdy Česká obchodní inspekce provedla v Brně celkem 37
kontrol obchodů v souvislosti se zákonem č. 223/2016 Sb., o prodejní době v
maloobchodě a velkoobchodě, protože se jednalo o první státní svátek, kdy dle zákona musely být uzavřeny prodejny na 200 m2.
Nebyly bychom ženy, kdybychom si nevšimly pro nás zajímavých záznamů o zabaveném zboží během kontrol. Zjistily jsme, že od roku 2013 Česká obchodní inspekce zabavila nejčastěji oblečení jako jsou mikiny, trička nebo bundy. Kabelky, které jsme předpokládaly, že budou na prvních příčkách v počtu zabavených kusů byly v pořadí až na 6. místě. Zabavované zboží bylo nejčastěji vydáváno za značku Adidas, Burberry a Lois Vuitton.
Nejčastěji porušovali obchodníci při kontrolách Zákon o České
obchodní inspekci, Zákon o ochraně spotřebitele a Zákon o technických
požadavcích na výrobky.
Závěr
Celý projekt, který jsme zaměřily na vyhodnocení dat České
obchodní inspekce, nám dal možnost, si v praxi vyzkoušet ty nástroje
datové analytiky, které nás během Digitální akademie zaujaly. Mohly jsme si tak
na běžně dostupných datech vyzkoušet celý proces od čištění a zpracování dat (SQL), přes
jejich získávání pomocí Pythonu až po vizualizaci (Power BI) a potvrdit si tak, že bychom
s těmito nástroji rády pracovaly i do budoucna. Zajímavé by jistě bylo
vdechnout projektu život vytvořením webové aplikace, která by byla veřejně
přístupná a díky které by si mohli její uživatelé ověřit důvěryhodnost dané
firmy.
Lidka: Přestože jsem v minulosti absolvovala Czechitas kurz
Úvod do programování, ale bohužel jsem poznatky už dál nerozvíjela, do projektu
jsem se přihlásila jako IT téměř nepolíbená s cílem dovědět se víc o
využití IT v marketingu, kterému bych se do budoucna ráda věnovala. Během
Digitální Akademie jsem měla možnost během tří hodně intenzivních měsíců
nahlédnout pod pokličku IT a vyzkoušet si například práci v Pythonu, SQL,
Power BI nebo rozšířit znalosti v užívání Excelu. Doufám, že i do budoucna
budu mít možnost se dál rozvíjet a rozšiřovat si obzory na projektech mnohem
více tématicky zaměřených na marketing.
Janča: Před Digitální akademií jsem nakoukla jak funguje SQL a programování pro mě bylo jednou velkou španělskou vesnicí. Na co jsem ale přišla, a nebyla na to uplně připravená, bylo to, že práce s daty, s SQL, s Power BI, s Pythonem je o řešení problémů. Není to tak, že někdo vám to ukáže a prostě to tak je vždycky. Je to všechno o pohotovosti, přizpůsobení se, trpělivosti a naději, že to řešení najdete!
Na konec bychom rády poděkovali našemu mentorovi Honzovi Jetmarovi, který nám s projektem pomohl a zároveň byl naším přítelem na
telefonu, pokud jsme se dostaly do úzkých. Velké díky mu patří hlavně za
podporu během celodenního Hackatonu, který byl pro všechny vyčerpávající, ale
na druhou stranu také maximálně produktivní.
Komentáře
Okomentovat