hledat

Začněte vyhledáváním výše

  1. Domů
  2. Články
  3. Z datového skladu do cloudu: Jak Česká spořitelna změnila mindset a otevřela cestu k self-service analytice

Z datového skladu do cloudu: Jak Česká spořitelna změnila mindset a otevřela cestu k self-service analytice

Anna Holzmannová
Z datového skladu do cloudu: Jak Česká spořitelna změnila mindset a otevřela cestu k self-service analytice

Nový díl podcastu Data Talk nabízí spoustu praktických tipů i strategických tahů, které se hodí každému, kdo má na starost cloud infrastrukturu v entreprize. O své zkušenosti se v něm podělili Jan Difko a David Lacina z České spořitelny. Samozřejmě je lepší poslechnout si je, jenže někdy není čas na hrdinství… Proto vám tento článek nabízí shrnutí toho nejzajímavějšího.

Přejít z robustního on-premise řešení na cloudový přístup v regulovaném bankovním prostředí je monumentální úkol. Změna se netýká jen technologie, ale i hluboké transformace firemní kultury a myšlení lidí. (Což bývá největší oříšek.) Česká spořitelna ukazuje, že právě lidský faktor a technologická jednoduchost hrají v úspěšné adopci nových datových platforem a self-service přístupu klíčovou roli. 

Nezmeškejte žádné novinky ITT

Původní stack a vznik bottlenecku 

V roce 2019 byla datová architektura primárně postavena na Oracle (centrální datový sklad, regulatorní reporting). Pro analytické a reportovací účely se používaly nástroje jako SAS Enterprise Guide, SAS Visual Analytics a Cognos. Tento centralizovaný model se však brzy stal bottleneckem (úzkým hrdlem). Rostoucí množství dat a požadavků z byznysové sféry vedlo k dlouhým dodacím lhůtám (až 14 dní i v případě jednoduchých ad-hoc reportů). 

Od Oraclu ke Keboole a Snowflaku 

Transformace datového prostředí České spořitelny začala kolem roku 2021. Tradiční on-premise architektura postavená na Oraclu a nástrojích typu SAS nebo Cognos začala narážet na své limity – v oblasti výkonu, flexibility i schopnosti rychle reagovat na potřeby byznysu. 

Cloudový přístup přinesl zásadní změnu – nešlo jen o migraci technologií, ale především o změnu mindsetu. Cloud podle architektů Honzy a Davida znamenal přechod od centralizovaného modelu, kde se úzké hrdlo datového skladu stále více zužovalo, k decentralizovanému self-service prostředí. Takovému, kde si mohou datové týmy mnoho úloh obsluhovat samy. 

Cloudová cesta: Synapse jako první pokus 

Pouť dat do cloudu začala s platformou Keboola, která běžela na backendu Synapse (Microsoft). Ta byla zvolena jako PaaS (Platform as a Service) služba v rámci Azure. 

Jenže se objevily technické problémy: 

  • Performance a konkurence: Platforma se potýkala s problémy s výkonem, zamykáním objektů a konkurencí uživatelů při paralelním přístupu. Synapse je nezvládala. 

  • Složitý self-service: Při vytváření tabulek s distribucemi bylo nutné psát složité SQL příkazy a zamykat pomocí viewček, což bylo pro byznysové uživatele obtížné. 

  • Dialektová bariéra: Přechod z Oracle SQL na Microsoft SQL dialekt byl pro vývojáře a datové specialisty komplikovaný a odváděl jejich pozornost od byznysové logiky k řešení syntaxe. 

Migrace na Snowflake: SaaS a výkon 

Po dvou letech a pomalé adopci nastal v roce 2023 rozhodující obrat. Tehdy se backend Kebooly přesunul na Snowflake (Software as a service, SaaS) – plnohodnotnou cloudovou data warehouse platformu postavenou na compute-storage separation“ architektuře. Migrace znamenala přepsání stovek transformací, kontrolu typů, řešení rozdílů mezi dialekty SQL (např. floaty, datové typy, procedury) i integraci s orchestrací přes Rockify. Výsledkem byl však dramatický posun ve výkonu, jednoduchosti a nákladech. 

Technické kroky a detaily migrace 

  • Paralelní běh: Migrace probíhala duplikováním transformací uvnitř Kebooly do dialektu Snowflake. Projekty tak běžely paralelně. 

  • SQL konverze: Největší práce byla s transformacemi. Na vině byly rozdíly v dialektech a problémy se složitějšími procedurami. Významnou pomoc při konverzi SQL kódu poskytl ChatGPT. 

  • Datové typy: Opakovaně se objevovaly problémy s převoditelností datových typů, zejména typu float. 

  • Přínos compute: Primárně přinesl Snowflake rychlejší compute (výpočetní výkon). A po dokončení migrace se dokonce ukázalo, že náklady jsou oproti Synapsi zhruba na třetině. 

Změna mindsetu: od centrální kontroly k důvěře 

Technologie však byla jen polovinou úspěchu. Tou druhou – a podstatnější – bylo zvládnutí lidského faktoru. V původním on-premise modelu byl vývoj pomalý… Každý SQL dotaz musel projít přes vývojáře, být otestován a schválen. Teprve potom mohl být nasazen. Cloudový přístup ovšem vyžaduje důvěru v týmy, které s daty pracují. 

S trochou nadsázky důvěřuj bez prověřuj“. Respektive: Nespoléhej na mnohastupňové kontrolní mechanismy a věř těm, co datům rozumí. Self-service analytika totiž umožnila týmům získat přímý přístup k datům a tvořit vlastní reporty. A tím pádem také žádoucí akční a podstatně zrychlené rozhodování. Tento posun však vyžadoval vzdělávání, mentoring a podporu. Pomohly iniciativy jako Datová akademie, která naučila zaměstnance SQL, práci v Tableu i základům datového myšlení. 

Jak říká David Lacina: Self-service odlehčil centrálním týmům a umožnil lidem dělat jednoduché ad-hoc analýzy samostatně. Když potřebuješ čísla zítra, nechceš čekat dva týdny.“ 

Přínosy cloudového přístupu 

  • Rychlost a škálovatelnost ▸ Snowflake umožnil běžet stovkám pipeline paralelně bez výpadků a uzamykání tabulek. 

  • Jednoduchost adopce ▸ Uživatelé se mohli připojit na libovolný zdroj dat a během hodin vytvořit funkční datový model. 

  • Nižší náklady ▸ Díky pay-as-you-go“ modelu se výpočetní výkon platí jen v případech, když je to potřeba. 

  • Bezpečnost a compliance ▸ Řešení splňuje požadavky na práci s citlivými daty ve vysoce regulovaném bankovním prostředí. 

  • Flexibilita pro byznys ▸ Týmy si mohou vytvářet vlastní datamarty, upravovat pipeline a testovat nové use-casy bez závislosti na IT

Co si z transformace odnést 

  • Rychlé vítězství pomáhá. Early adopters a první příklady úspěšného využití zvyšují důvěru v nové řešení. 

  • Platforma musí být jednoduchá: Složitost (jiný SQL dialekt, neznámé příkazy) novou platformu v očích uživatelů diskvalifikuje a brzdí adopci. Přechod musí být pro uživatele co nejméně bolestivý. 

  • Pozor na datové typy při migraci: Migrace mezi databázemi vždy přináší neočekávané problémy s datovými typy. V případě Honzy a Davida to byl typ float. 

  • Důvěřujte realitě, ne papíru (RFP): Řešení, které na papíře v rámci RFP (Request for Proposal) a assessmentů vypadá nejlépe (např. Synapse), může v reálném provozu selhat kvůli problémům s výkonem a složitostí. Reálné náklady na provoz (TCO, total cost ownership) se se Snowflake ukázaly být mnohem nižší, než bylo původně odhadováno. 

  • Automatizace není všelék. Stále potřebujete lidi, kteří datům i procesům rozumí. 

  • Self-service musí mít hranice. Standardizace, governance jsou nutné, aby se z demokracie nestal chaos. 

  • Neadoptujte překryvné funkce! Je nutné zvážit, zda funkce dostupné v abstraktivní vrstvě (Keboola) již nejsou lépe a efektivněji dostupné přímo na datovém backendu (Snowflake Cortex), aby se neinvestovalo úsilí do duplicitních adopcí. 

Mohlo by vás také zajímat

Z datového skladu do cloudu: Jak Česká spořitelna změnila mindset a otevřela cestu k self-service analytice