Gabriela Kubová, Lucie Čuprová: Analýza ruských e-shopů pomocí srovnávače cen Yandex

Úvodní slovo

Do projektu Digitální akademie jsme se každá přihlásily z trošku jiného důvodu, i když základní pohnutka u nás obou byla stejná, naučit se efektivně pracovat s velkými objemy dat. Ani jedna z nás neměla dřívější zkušenosti s oborem IT, ale stejně jako každý jiný člověk, který v dnešní době pracuje v kanceláři, jsme se denně potkávaly s jednotlivými programy především z balíčku Microsoft Office. Na začátku Akademie jsme neměly ani tušení, jaké množství informací získáme a do jakých oblastí zvládneme v opravdu krátkém čase tří měsíců nakouknout. A to je hlavně to, o co v Digitální akademii podle nás jde. Rozšířit si obzory, možná i změnit přístup k řešení zadaných úkolů a hlavně si vyzkoušet v praxi, že IT se naučit jde, jen to chce mít pro danou věc zápal.

Při vybírání dvojičky, tématu projektu a mentora jsme obě chtěly využít některé naše dřívější zkušenosti, proto bylo hrozně důležité, že jsme se na začátku Digitální akademie při seznamování všichni navzájem bavily o tom, co nás baví, zajímá a co máme za sebou. Díky tomu jsme se mohly zamyslet, čemu bychom chtěly svůj čas věnovat a kde se nám naše životy protínají.

Jedna polovina naší dvojičky žila díky krasobruslení delší dobu v Rusku, vystudovala mezinárodní ekonomické vztahy a při škole pracovala na Ministerstvu zahraničních věcí na oddělení ekonomických analýz. Na tomto ministerstvu byla práce s daty každodenním chlebem a týkala se především práce se světovými makroekonomickými ukazateleli. Krásně se tam spojil zájmem o matematiku, geopolitiku a využívání cizích jazyků. Když s daty ale pracujete často, začínáte pomalu zjišťovat, že to jde o hodně efektivněji, pokud k nim přistupujete s určitými znalostmi. I když vás ekonomická vysoká škola připraví na celou škálu věcí, stejně nejspíše při své práci dříve nebo později narazíte na něco, co jste hold prostě nebrali. Přesně v této chvíli je skvělé, když se vám poštěstí mít při ruce mentora, který vás třeba trochu nasměruje nebo popostrčí. A tak, právě díky ministerstvu vznikla touha se o efektivnějších způsobech pro práci s daty dozvědět více, což je právě to, co nás obě propojilo. 

Z výuky nás nejvíce nadchly hodiny věnované vizualizaci a marketingu dat, a tak jsme se shodly, že bychom se rády věnovaly ucelenému projektu, do kterého zakomponujeme co nejširší spektrum znalostí. Hned pro začátek jsme ale řešily, jaká data tedy budeme vizualizovat. Ani jedna z nás větší objemy dat k dispozici neměla, a proto nás napadlo, proč si nezkusit data z volně dostupných zdrojů získat sami. No a v tento moment se naše cesty proťaly se společností Dataweps a s naším mentorem Honzou Mayerem, následně Pavlem Klammertem.

Tato společnost se specializuje na získávání a následnou vizualizaci dat. Data jsou získávána mimo jiné metodou web scrapingu (viz Základní pojmy) a následně prezentována pomocí nástroje PowerBI. Tento nástroj je velmi intuitivní při ovládání a zároveň úžasně univerzální a našly jsme v něm pro sebe jasné využití do budoucna.

Jelikož nás obě baví zahraniční trhy a máme zvídavého ducha, rozhodly jsme se náš projekt směřovat na mezitržní online retailové srovnání. Při výběru země jsme se zase inspirovaly tím, s čím máme zkušenosti a zároveň, co by mohlo být pro české konzumenty analýzy zajímavé. Vypadlo nám z toho tedy Rusko, jakožto trh čítající 140 milionů obyvatel, ale zároveň pro dnešní generaci Čechů ne úplně známé prostředí.

Cíl projektu   

Hlavním cílem našeho projektu bylo srovnání nabídky vybraných produktů na českých a ruských e-shopech, jelikož mezitržní srovnání může pomoci si udělat obrázek o ruském online retailu. Ze získaných dat tak lze například indikovat možné díry na trhu nebo prodejní trendy.

Jako dílčí cíle jsme si stanovily určit pro dané kategorie: největší e-shopy, top produkty, ceny jednotlivých produktů.  

Základní pojmy   


E-shopy pro své fungování používají podobné technologie jako jiné weby. Webové stránky jsou psány v HTML (HyperText Markup Language) jazyce, který je charakteristický množinou tagů (značek) a jejich atributů (vlastností).  Aby byl konkrétní element v textu rozeznatelný, bývá ohraničen úhlovými závorkami, např. <a>. Dále jsou konkrétní elementy v textu pojmenovány pomocí tagů a mezi tagy je umístěn požadovaný text.  

Data z webových stránek a tedy i e-shopů se tak mohou získávat pomocí metody web scraping. Tato metoda zahrnuje proces, který umožňuje rozebrat (parsovat) určité množství dat z webu pro získání požadované informace.
Velmi užitečný je pro toto parsování jazyk XPath, který umožňuje zapisovat výrazy, jejichž výsledkem je nejčastěji množina uzlů. Řečeno jinak, XPathy mimo jiné umožňují vyjádřit relativní cestu od nějakého HTML uzlu k jinému elementu nebo atributu.
Jako další možnost pro rozparsování dat, je možné využít regulární výrazy. Jedná se o speciální řetězec znaků, který představuje určitý vzor pro textové řetězce. 

Postup práce  

Data pro český i zahraniční trh jsme získávaly z volně dostupných zdrojů metodou Web scraping (více viz v textu výše). 
Pro usnadnění práce jsme si nainstalovaly XPath Helper, který umožňuje extrahování, úpravu a vyhodnocení dotazu na libovolné webové stránce. Je pak poměrně snadné najít požadovanou část XML i když je webová stránka například v azbuce.
Na vybraných webových stránkách jsme postupně našly potřebné elementy, které jsme potřebovaly pro získání dat, a následně jsme začaly vytvářet databázi produktů v Google Drive Spreadsheetu.


Použití XPath Helper
Bylo více než jasné, že samotný XPath Helper za nás práci neodvede a bylo tedy nutné nastudovat (a hlavně nechat si poradit od našeho mentora), jak vytvořit univerzální zápis webové adresy tak, abychom ji mohly rozkopírovat na ostatní produkty. Cílem tedy bylo stahování dat co nejvíce automatizovat. Po velkém úsilí se zadařilo, a tak jsme začaly stahovat o sto šest.
Ukázka použití funkce v Google Spreadsheet pro získání části adresy s produkty
Pro získání požadovaných ID produktů jsme využily regulární výrazy: 
=REGEXEXTRACT(B2;"\d{6,10}\?")

Jednotlivé produkty u obou cenových srovnávačů jsme nechaly seřazeny dle výchozího nastavení stránky, tedy řazení dle oblíbenosti. To nám následně pomohlo při vytvoření statistiky nejžádanějších produktů v rámci jednotlivých kategorií.
Ukázky některých použitých postupů a funkcí: 
=IMPORTXML(A2;"//h1") 
=IMPORTXML($A$2;"//div[@class='n-snippet-card2__title']/a/@href") 
="https://market.yandex.ru/product/" &D2 & "/offers?track=tabs&local-offers-first=0" 
=TRANSPOZICE(IMPORTXML(B2;"//div[@class='n-product-top-offer__content']//a[contains(@class,'shop-name')]") ) 
=IMPORTXML(Kategorie!E2;"//h1")

Postupně jsme získaly všechny podklady, které jsme ukládaly do jednotlivých listů, a následně vytvořily požadovaný seznam. Vzhledem k neustálé aktualizaci dat v Google Spreadsheet jsme zavčas vše zálohovaly uložením do Excelu.
Ukázka vznikajícího seznamu produktů v Google Spreadsheet
Data z Google Spreadsheetu nám poskytly základ, zbylá data, která jsme chtěly využít pro analýzu, jsme získávaly již pomocí Excelu.
V rámci našeho projektu jsme chtěly také zjistit, jaký výrobce má nejvyšší četnost výskytu v jednotlivých kategorií. Bylo samozřejmě možné získat tyto informace pomocí regulárních výrazů ať už za použití Google Spreadsheetu nebo pomocí VBA, z časových důvodů jsme ale raději zvolily v tomto případě rychlejší cestu a použily funkce v Excelu, které jsme se naučily v rámci Digitální Akademie.
Výstřižek Excel souboru
Excel jsme použily také k vyčištění dat. Takto připravená data jsme následně nahrály do PowerBI, kde bylo nutné provést ještě druhou část úprav dat pomocí Query Editoru.
Po finálním vyčištění dat nám tak zbylo 2 400 řádků k využití. Data zahrnovala pět kategorií z elektroniky a to konkrétně: mobilní telefony, powerbanky, sluchátka, tablety a televize.
Nascrapované jsme měly pro každou z těchto kategorií produkty řazené dle oblíbenosti, tedy jejich názvy, dále jednotlivé e-shopy, které tento produkt prodávají, včetně údaje za jakou cenu a jednotlivé URL adresy e-shopů. Dále jsme si doplnily údaj o četnosti výskytu daného e-shopu v souboru a také pořadová čísla e-shopů.
Poté, co jsme si zajistily data v ucelené a využitelné podobě, jsme se vrhly na samotnou analýzu dat.  

Výsledky práce  

Z mezitržního srovnání českého a ruského online retailového trhu nám vzešlo množství zajímavých informací, které se pokusíme v této části interpretovat.  

Obecnější pohled  

Pokud se podíváme na celková data z našich pěti kategorií, tak zjistíme, že největšími hráči dle oblíbenosti na českém onlinovém trhu s elektronikou jsou dle srovnávače Heureka MALL.cz, CZC.cz, Smartyc, T.S.BOHEMIA a.s. a následně ExaSoft.cz. Zde je však třeba upozornit, že srovnávač Heureka neregistruje všechny české e-shopy. To platí například o jednom z největších e-shopů, internetovém obchodu Alza.cz, který odstoupil se zdůvodněním, že Heureka již není nezávislý srovnávač, jelikož ho koupila konkurenční e-commerce skupina Rockway. K zamyšlení se pak nabízí otázka, do jaké míry mohl jednotlivé pořadí e-shopů v naší analýze ovlivnit fakt, že ve skupině Rockway, kam Heureka patří, jsou nyní i internetové obchody MALL.cz, CZC.cz, Prozdravi.cz a jiné.
V námi zkoumaném segmentu jsou dle ruského srovnávače Yandex největšími onlinovými hráči CВЯЗНОЙ, BeCompact.RU, OZON.ru, ОНЛАЙН ТРЕЙД.РУ, XCOM-SHOP.RU
Co se týče nejoblíbenějších značek v českém onlinu tak z analyzovaného vzorku vítězí Samsung s 12,52%, následuje značka Apple s tržním zastoupením ve výši 9,79% a jako třetí největší hráč se nám profilovala společnost LG se 7,97% podílem z analyzovaného trhu.
Na ruském trhu je situace obdobná a vítězí tedy Samsung, dokonce ale se ziskem 22,79% ze zkoumaného segmentu trhu, následovaný společností Apple s 21,55% a dále společností LG s 7,04%.

Překvapilo nás, že nejoblíbenější výrobci pro dané námi zkoumané kategorie vycházejí zhruba stejní a že na ruském trhu zaujímají tak velký tržní podíl společnosti Samsung a Apple, což podpořilo naši hypotézu, že obecně inklinují ke kvalitním a zavedeným značkám.

Pokud se podíváme na průměrné ceny v jednotlivých kategoriích, tak uvidíme v řazení od nejdražšího po nejlevnější v ČR následující pořadí: televize, mobilní telefony, tablety, sluchátka a powerbanky.
V Rusku je situace obdobná: televize, tablety, mobily, sluchátka a powerbanky.
Hlavní rozdíl v analyzovaných datech vidíme v produktech televize a tablety. V Česku jsou lidé nejspíše více konzervativní co se týká moderních technologií a v průměru utrácejí až 20 000 korun za televize, ale jen 6 500 korun za tablety. Oproti tomu Rusové za televize v průměru utrácejí jen 13 500 korun, ale za tablety v průměru až 11 000 korun.

Podrobnější pohled  


Mobilní telefony
V segmentu mobilních telefonů, řazeného dle oblíbenosti produktu, se při mezitržním srovnání top 10 produktů objevila 50% shoda.
Co se týče nejpopulárnějších značek tak top pozice v ČR zaujímá Samsung, následně Apple a na třetím místě je Huawei. Naproti tomu v RF se na prvním místě umisťuje značka Xiomi následovaná značkou Apple a v závěru značkou Samsung.  
Umístění značky Xiomi na prvním místě bylo pro nás překvapivé vzhledem ke skutečnosti, že v top 10 produktech převažovala značka Apple. To může být způsobeno užší produktovou řadou značky Apple oproti značce Xiomi.
Na tomto segmentu trhu je také zajímavé, že Rusové v průměru utrácejí více peněz za dražší telefony než Češi, což můžeme vidět v následující statistice.

Powerbanky
Z hlediska nejoblíbenějších produktů jsme nenalezly v mezitržním srovnání žádnou shodu u top deseti produktů. Je zajímavé, že na ruském trhu všech pět prvních pozic obsadila značka Xiomi. 
Co se týká rozdělení trhu, tak v ČR vévodí společnosti ADATA s 38,37%, následovaná firmou Xiaomi s 16,91% a na třetím místě je společnost Remax s 13,73%. 
Naproti tomu největšími hráči na ruském trhu jsou firma Xiaomi s 19,50%, společnost Hiper s 18 % a firma Canyon s 15 % trhu.  
Co se týká produktů s nejvyšší cenou, nenašly jsme žádné výrazné rozdíly.

Sluchátka

Dle charakteru top deseti nejoblíbenějších sluchátek můžeme usuzovat, že Rusové jsou ochotni utratit za typ tohoto produktu více peněz, jelikož se na prvních pozicích umístily ve větším počtu značky Appel, JBL a Beats.

Tablety
U analýzy tabletů se nám na ruském trhu opět potvrdilo, že Rusové tíhnou k silným brandům. Zde konkrétně opět ke značkám Appel a Samsung. Jsou také ochotni utrácet za tablety vyšší sumy než Češi. 
Zaujal nás opravdu markantní rozdíl mezi tablety, které vyhledávají Češi a Rusové.
Televize
V segmentu televizí u top deseti produktů vítězí u obou zemí značky Samsung a LG, v České republice je top deset produktů doplněno ještě značkami Panasonic a Philips. 
Na rozdíl od všech jiných kategorií jsou nejspíše Češi ochotni utratit více peněz za televize než Rusové.

Přínos projektu a kam by mohl projekt pokračovat  

Hlavním cílem našeho projektu bylo srovnání nabídky vybraných produktů na českých a ruských e-shopech. K tomu jsme využily český srovnávač Heureka a ruský Yandex. Výsledek tohoto srovnání může nejen pomoci subjektům, které hledají možnosti na zahraničních trzích, ale má široké využití také vzhledem k identifikaci růstu firmy. Na tuto problematiku odpovídá například část naší práce zaměřená na srovnání produktů vzhledem k oblíbenosti. Při získání většího množství dat mohou například firmy lépe činit rozhodnutí, jaké nové produkty zařadit do svého portfolia. Zajímavou informaci může konečnému uživateli přinést také ukázka cenového srovnání v jednotlivých kategoriích.
Jako přínos projektu spatřujeme fakt, že pokud se postup pro web scraping co nejvíce zautomatizuje, bylo by do budoucnosti možné zaměřit se i na analýzu produktů v jiných zemích. Ostatně firma Dataweps už nyní nabízí možnost sledování aktuálních trendů u konkurence pomocí nástroje TrendLucid, který je nyní zaměřen primárně na český trh. Více na webových stránkách https://www.dataweps.com/cs/trendlucid/.
Získaná data by tak mohla posloužit firmě Dataweps pro sledování trendů i na zahraničních trzích 

Co jsme nestihly / co se nepodařilo  

Hned v úvodu je třeba zmínit, že původní plán na náš projekt čítal několik desítek kategorií a to z různých oblastí. Po několika bezesných nocí, kdy jsme stahovaly jednotlivá data, jsme však situaci přehodnotily a zaměřily se pouze na určité skupiny produktů z oblasti elektroniky. Věříme však, že do budoucna je možné naleznout praktičtější způsob jakým si potřebná data obstarat.
Původní scénář získání dat zahrnoval také použití makra přímo v Google Spreadsheet. Výsledné makro vypadlo následovně
I přes opakované úpravy se nám však nepodařilo makro dovézt do automatizovaného stavu, proto jsme se rozhodly a veškeré své síly investovaly do stahování dat výše popsaným způsobem.  

Co jsme se na projektu naučily 

Hard skills  

S tím jak pokračovala naše práce na projektu, jsme měly možnost se učit a zdokonalovat ve všem s čím jsme se střetly a skvělé bylo, že jsme měly jedna druhou a mohly se o komplikacích poradit a o úspěchy se podělit. Přece jenom jak se říká „Sdílená starost je poloviční starost, sdílená radost je dvojnásobná radost!“.
Na začátku práce jsme se ponořily do snahy pochopit jak vlastně fungují webové stránky, což bylo pro náš projekt naprosto stěžejní. Pomocí jakých jazyků se webové stránky tvoří, jaká je jejich struktura a jak je možné si z nich určitá data co nejvíce automatizovaně získat. V této části jsme si tak vyplnily své mezery v jazycích HTML a xPath, což se může někdy v budoucnu zase hodit, kdo ví.
Naprosto skvělé bylo taky naše objevení kouzel a skrytých featur jak MS Excelu, tak hlavě Spreadsheetu. Rozhodně jsme před začátkem naší práce na projektu netušily nic o možnosti importování XML, transpozice výsledků, všemožném prolinkování výsledků a vůbec univerzálnosti tohoto nástroje, který je dobře využitelný pokud pracujete na projektu s více lidmi v real-time čase. Excel nám zase skvěle posloužil při čištění dat.  Hodně jsme využívaly funkce na hledání a odstranění duplicit a rozparsování textů na námi potřebnou podobu, třeba pomocí regulárních výrazů.
No a konečně, naše milované PowerBI. To, že je tento nástroj naprosto kouzelný, jsme pochopily již při výuce a tak jsme se nemohly dočkat chvíle, kdy jej naplno otestujeme s našimi daty.  

Soft skills  

Minimálně stejně důležité, jako naše seznámení s technickými nástroji pro získání a následnou analýzu dat, bylo vypěstování si speciálních schopností řekněme měkčího charakteru.

Kdokoli, kdo příchází do světa IT, se bude na začátku jisto jistě potýkat se spoustou neznáma. Toto neznámo se ale také může převrátit v lavinu informací ve které je těžké se zorientovat a proto je důležité si tady najít svůj systém. Téměř vše, co jsme na projektu dělaly pro nás bylo nové a tak jsme se musely na velké množství věcí ptát a diskutovat o možných přístupech pro vyřešení určitého úkolu. To nám pomohlo se zlepšit ve týmovém přístupu a lépe komunikovat své myšlenky. Na druhou stranu, na téměř jakoukoli otázku, týkající se technikálií v IT, již s největší pravděpodobností existuje na internetu zpracovaná odpověď, takže jsme se naučily, že správné googlení je také super klíč. Další měkkou dovedností, kterou jsme si osvojily je trpělivost. Data se občas stahují velmi dlouho, ale jsou hold věci, které v životě neuspěcháte. A asi to nejdůležitější, co si z celé DA odneseme je vědomí, že každý problém má své řešení, hlavně se nevzdávat a nepropadat zbytečné panice! 

Komentáře

Populární příspěvky z tohoto blogu

Barbora Junová: Podpora začínajícího podnikání zaměřeného na prodej výrobků a poskytování služeb

Petra Havlínová: Automatické zpracování podkladů pro vyhodnocení vybraných KPI

Kateřina Kolouchová & Lenka Tomešová: Vliv počasí na kriminalitu v New Yorku a Brně