ilustrační obrázek

Data Vault architektura v BOHEMIA ENERGY

25. října 2019|DWH

V rámci dodávky datového skladu pro společnost BOHEMIA ENERGY entity s.r.o. jsme úspěšně završili první fázi tohoto rozsáhlého projektu. Byť jde o technologickou oblast, které se dlouhodobě věnujeme, řešili jsme celou řadu specifik.

Bylo zřejmé, že takto dynamická společnost bude své požadavky na DWH v průběhu času rozšiřovat a měnit. To byl hlavní důvod implementovat Data Vault architekturu, což sebou sice přineslo významné navýšení databázových záznamů, kde jsme se ocitli v řádu jednotek miliard, ale současně nám to už během první fáze umožnilo dynamicky zasahovat do konfigurace DWH a efektivně tak reagovat na zpřesňování zadání během detailní analýzy.

Pro datový vstup do L0 vrstvy jsme využili náš firemní framework, jehož funkcionalitu jsme rozšířili zejména vzhledem k potřebám detailní konfigurace datových vstupů z nejen relačních databází.

Rozsah každodenních aktualizací vylučoval u hlavních zdrojů plošnou metodu fulload nápočtu, proto jsme pro vybrané entity implementovali inkrementální načítání dat. Zde se nám velmi osvědčilo generování packages v prostředí Business Intelligence Markup Language - Biml. Tato metoda nám také pomohla při konverzi datových typů a celkově zpřehlednila proces importu dat.

Rozsah ETL transformací nebyl ze zadání zcela zřejmý a i zde jsme čelili velkým výzvám. Zejména co se týká složitosti mnohdy ryze výpočetních algoritmů, ale také objemu transformačně zpracovávaných dat, kdy o výsledku pro vrstvu L2 rozhodlo zpracování stovek miliónů provázaných záznamů. Stalo se také to, že doporučená metodika párování dat z různých systémů se ukázala jako nedostatečná, protože námi vyvíjená datová kompilace se prováděla vůbec poprvé v historii zadavatele a podklady od administrátorů produkčních systémů neobsahovaly řešení všech specifik.

V závěru první fáze nastala klíčová optimalizace importu dat s využitím paralelizace. Bez toho bychom nesplnili časový limit vymezený pro každodenní update. Nestačilo tedy jenom nahrát data správně, ale celý proces musel proběhnout také rychle.

Každý nový projekt nás posouvá znalostně vpřed a těší nás, že i tento opravdu rozsáhlý a složitý projekt přinesl pro nás jako dodavatele tuto přidanou hodnotu. Zvládnuté know how a detailní zkušenosti s implementací takových objemů dat jsou neocenitelné. Těšíme se na další výzvy.

Více informací k architektuře Data Vault Vám, v případě Vašeho zájmu, poskytne Team Leader DWH Jiří Bohuslav.

--------

O architektuře Data Vault si můžete také přečíst v článku pro časopis IT Systems (10/2018) od kolegy Michala Vitouška, v němž prochází základy architektury datového skladu dle návrhu Data Vault 2.0 a poukazuje na klady a zápory tohoto řešení.