Big data technologie pro okamžité zpracování masivního toku zpráv, datový sklad nebo maskování citlivých dat

Ve středu 21. 3. 2018 se v Profinitu uskutečnila odborná snídaně s názvem Zpracování velkých dat v praxi. Tematicky navazovala na předcházející akci, která se v únoru věnovala analytickým metodám Data science. Tentokrát jsme se ovšem zaměřili na technické otázky samotného získávání a zpracování velkých dat.

Pro nalezení optimální Big data platformy je obvykle prvním krokem úvodní studie (Proof of Concept). Jednu takovou jsme na snídani představili. Jednalo se o návrh systému pro zpracování extrémního toku IoT dat. Projekt vyžadoval výběr vhodných technologií pro zpracování a ukládání dat z „internetu věcí“ do Big data platformy pro další zpracování. Cílem bylo dosáhnout minimální latence (do 1 sekundy) při co největším toku zpráv na vstupu. PoC jsme realizovali na našem interním Hadoop clusteru. Vhodnou volbou technologií a optimalizací všech komponent jsme s rezervou hlavní požadavek splnili (průměrná doba zpracování byla kolem 300 ms).

Podle hodnocení účastníků vzbudila velký zájem prezentace o výhodách a nevýhodách využití big datové platformy, jako je Hadoop, pro funkce datového skladu. Podle nás je možné využít Hadoop pro některé úlohy tradičního datového skladu, které využijí masivní výpočetní sílu distribuovaného systému. Jde například o počítání agregací – včetně velmi složitých algoritmů, masivní zpracování nestrukturovaných dat, datamining, streaming dat a veškeré analytické úlohy. Pro některé úlohy se naopak Hadoop zatím nehodí. Big data technologie je navíc ve srovnání světem Data Warehouse stále mladá a často je obtížné vyhovět typicky korporátním požadavkům na vysokou úroveň zabezpečení nebo pravidelné zálohování.

V závěrečné přednášce jsme představili náš nástroj pro maskování dat s využitím Hadoopu. Maskování je užitečné v situacích, kdy chceme data používat, aniž by bylo možné pro lidi, kteří s nimi pracují, identifikovat konkrétní osoby, nebo připravit data pro testovací prostředí. Požadavky na maskování se také objevují v souvislosti s implementací evropské směrnice na ochranu osobních údajů GDPR.

Náš Hadoop Masking Tool umí automaticky identifikovat citlivé údaje, jako jsou adresy, čísla účtů nebo například telefonní čísla. Nabídnout jejich maskování s možností zachování vztahů mezi záznamy tak, aby se i ze zamaskovaných dat daly analytickými metodami získávat potřebné informace.

Technologie ekosystému kolem platformy Hadoop nabízí ohromné množství nástrojů a prochází dramatickým rozvojem. Tento vývoj trvale sledujeme, abychom byli schopni nabízet i řešení, která odpovídají náročným očekáváním zákazníků z oblasti financí nebo telekomunikací. Nabízíme možnost řídit se heslem: „Start small, start now“. Rychle vyzkoušet, co by mohlo fungovat a jak. Pro tyto účely disponujeme vlastním Hadoop clusterem. Vlastní hardware je důležitý předpoklad pro měření a testování, abychom empiricky ověřili požadavky na finální produkční prostředí.

Náš big data tým se od roku 2014, kdy jsme s touto kompetencí začínali, rozrostl na cca 40 konzultantů. Nabízíme úvodní konzultace a studie, návrh Big data infrastruktury, máme již k dispozici několik specificky připravených řešení, nabízíme i zakázkový vývoj v této oblasti.
Naše prezentace z pracovní snídaně jsou již dostupné online.