Z datového skladu do cloudu: Jak Česká spořitelna změnila mindset a otevřela cestu k self-service analytice
Nový díl podcastu Data Talk nabízí spoustu praktických tipů i strategických tahů, které se hodí každému, kdo má na starost cloud infrastrukturu v entreprize. O své zkušenosti se v něm podělili Jan Difko a David Lacina z České spořitelny. Samozřejmě je lepší poslechnout si je, jenže někdy není čas na hrdinství… Proto vám tento článek nabízí shrnutí toho nejzajímavějšího.
Přejít z robustního on-premise řešení na cloudový přístup v regulovaném bankovním prostředí je monumentální úkol. Změna se netýká jen technologie, ale i hluboké transformace firemní kultury a myšlení lidí. (Což bývá největší oříšek.) Česká spořitelna ukazuje, že právě lidský faktor a technologická jednoduchost hrají v úspěšné adopci nových datových platforem a self-service přístupu klíčovou roli.
Nezmeškejte žádné novinky ITT
Původní stack a vznik bottlenecku
V roce 2019 byla datová architektura primárně postavena na Oracle (centrální datový sklad, regulatorní reporting). Pro analytické a reportovací účely se používaly nástroje jako SAS Enterprise Guide, SAS Visual Analytics a Cognos. Tento centralizovaný model se však brzy stal bottleneckem (úzkým hrdlem). Rostoucí množství dat a požadavků z byznysové sféry vedlo k dlouhým dodacím lhůtám (až 14 dní i v případě jednoduchých ad-hoc reportů).
Od Oraclu ke Keboole a Snowflaku
Transformace datového prostředí České spořitelny začala kolem roku 2021. Tradiční on-premise architektura postavená na Oraclu a nástrojích typu SAS nebo Cognos začala narážet na své limity – v oblasti výkonu, flexibility i schopnosti rychle reagovat na potřeby byznysu.
Cloudový přístup přinesl zásadní změnu – nešlo jen o migraci technologií, ale především o změnu mindsetu. Cloud podle architektů Honzy a Davida znamenal přechod od centralizovaného modelu, kde se úzké hrdlo datového skladu stále více zužovalo, k decentralizovanému self-service prostředí. Takovému, kde si mohou datové týmy mnoho úloh obsluhovat samy.
Cloudová cesta: Synapse jako první pokus
Pouť dat do cloudu začala s platformou Keboola, která běžela na backendu Synapse (Microsoft). Ta byla zvolena jako PaaS (Platform as a Service) služba v rámci Azure.
Jenže se objevily technické problémy:
Performance a konkurence: Platforma se potýkala s problémy s výkonem, zamykáním objektů a konkurencí uživatelů při paralelním přístupu. Synapse je nezvládala.
Složitý self-service: Při vytváření tabulek s distribucemi bylo nutné psát složité SQL příkazy a zamykat pomocí viewček, což bylo pro byznysové uživatele obtížné.
Dialektová bariéra: Přechod z Oracle SQL na Microsoft SQL dialekt byl pro vývojáře a datové specialisty komplikovaný a odváděl jejich pozornost od byznysové logiky k řešení syntaxe.
Migrace na Snowflake: SaaS a výkon
Po dvou letech a pomalé adopci nastal v roce 2023 rozhodující obrat. Tehdy se backend Kebooly přesunul na Snowflake (Software as a service, SaaS) – plnohodnotnou cloudovou data warehouse platformu postavenou na „compute-storage separation“ architektuře. Migrace znamenala přepsání stovek transformací, kontrolu typů, řešení rozdílů mezi dialekty SQL (např. floaty, datové typy, procedury) i integraci s orchestrací přes Rockify. Výsledkem byl však dramatický posun ve výkonu, jednoduchosti a nákladech.
Technické kroky a detaily migrace
Paralelní běh: Migrace probíhala duplikováním transformací uvnitř Kebooly do dialektu Snowflake. Projekty tak běžely paralelně.
SQL konverze: Největší práce byla s transformacemi. Na vině byly rozdíly v dialektech a problémy se složitějšími procedurami. Významnou pomoc při konverzi SQL kódu poskytl ChatGPT.
Datové typy: Opakovaně se objevovaly problémy s převoditelností datových typů, zejména typu float.
Přínos compute: Primárně přinesl Snowflake rychlejší compute (výpočetní výkon). A po dokončení migrace se dokonce ukázalo, že náklady jsou oproti Synapsi zhruba na třetině.
Změna mindsetu: od centrální kontroly k důvěře
Technologie však byla jen polovinou úspěchu. Tou druhou – a podstatnější – bylo zvládnutí lidského faktoru. V původním on-premise modelu byl vývoj pomalý… Každý SQL dotaz musel projít přes vývojáře, být otestován a schválen. Teprve potom mohl být nasazen. Cloudový přístup ovšem vyžaduje důvěru v týmy, které s daty pracují.
S trochou nadsázky „důvěřuj bez prověřuj“. Respektive: Nespoléhej na mnohastupňové kontrolní mechanismy a věř těm, co datům rozumí. Self-service analytika totiž umožnila týmům získat přímý přístup k datům a tvořit vlastní reporty. A tím pádem také žádoucí akční a podstatně zrychlené rozhodování. Tento posun však vyžadoval vzdělávání, mentoring a podporu. Pomohly iniciativy jako Datová akademie, která naučila zaměstnance SQL, práci v Tableu i základům datového myšlení.
Jak říká David Lacina: „Self-service odlehčil centrálním týmům a umožnil lidem dělat jednoduché ad-hoc analýzy samostatně. Když potřebuješ čísla zítra, nechceš čekat dva týdny.“
Přínosy cloudového přístupu
Rychlost a škálovatelnost ▸ Snowflake umožnil běžet stovkám pipeline paralelně bez výpadků a uzamykání tabulek.
Jednoduchost adopce ▸ Uživatelé se mohli připojit na libovolný zdroj dat a během hodin vytvořit funkční datový model.
Nižší náklady ▸ Díky „pay-as-you-go“ modelu se výpočetní výkon platí jen v případech, když je to potřeba.
Bezpečnost a compliance ▸ Řešení splňuje požadavky na práci s citlivými daty ve vysoce regulovaném bankovním prostředí.
Flexibilita pro byznys ▸ Týmy si mohou vytvářet vlastní datamarty, upravovat pipeline a testovat nové use-casy bez závislosti na IT.
Co si z transformace odnést
Rychlé vítězství pomáhá. Early adopters a první příklady úspěšného využití zvyšují důvěru v nové řešení.
Platforma musí být jednoduchá: Složitost (jiný SQL dialekt, neznámé příkazy) novou platformu v očích uživatelů diskvalifikuje a brzdí adopci. Přechod musí být pro uživatele co nejméně bolestivý.
Pozor na datové typy při migraci: Migrace mezi databázemi vždy přináší neočekávané problémy s datovými typy. V případě Honzy a Davida to byl typ float.
Důvěřujte realitě, ne papíru (RFP): Řešení, které na papíře v rámci RFP (Request for Proposal) a assessmentů vypadá nejlépe (např. Synapse), může v reálném provozu selhat kvůli problémům s výkonem a složitostí. Reálné náklady na provoz (TCO, total cost ownership) se se Snowflake ukázaly být mnohem nižší, než bylo původně odhadováno.
Automatizace není všelék. Stále potřebujete lidi, kteří datům i procesům rozumí.
Self-service musí mít hranice. Standardizace, governance jsou nutné, aby se z demokracie nestal chaos.
Neadoptujte překryvné funkce! Je nutné zvážit, zda funkce dostupné v abstraktivní vrstvě (Keboola) již nejsou lépe a efektivněji dostupné přímo na datovém backendu (Snowflake Cortex), aby se neinvestovalo úsilí do duplicitních adopcí.