Technologie

Big Data mají specifické vlastnosti, které je odlišují od "tradičních" firemních dat. Tradiční datové sklady a nástroje pro správu dat nejsou připraveny na zpracování a analýzy velkých objemů dat ve velmi krátkém čase (někdy real-time) nebo nákladově efektivním způsobem. Proto je třeba hledat nové způsoby zpracování a analýzy velkých objemů dat. Jedním z principů, který se v této oblasti široce uplatnil, je masivně paralelní zpracování (dále i MPP). Mezi základní vlastnosti MPP systémů patří:

  • Odolnost vůči chybám – dílčí chyba systému způsobí pouze degradace výkonu, nikoli ztrátu dat
  • Konzistence – chyba systému nesmí ovlivnit výsledek výpočtu
  • Zotavení komponent – bez nutnosti restartu systému/úloh
  • Škálovatelnost – přidání zdrojů má za následek proporční nárůst výkonnosti

Jedním z takovýchto nových nástrojů, který umožňuje masivně paralelní zpracování dat, je Hadoop. Hadoop je open source framework pro zpracování, ukládání a analýzu velkého množství distribuovaných, nestrukturovaných dat. Původně byl vytvořen ve společnosti Yahoo!, jako inspirace byla použita MapReduce, uživatelsky definovaná funkce vyvinutá společností Google pro indexování webu. Hadoop je stavěn pro zpracování petabytů a exabytů dat distribuovaných přes více uzlů současně.

Další komponentou je MapReduce - výpočetní vrstva v rámci Hadoopu. Úlohy MapReduce přistupují k datům, která rozdělují do více replikovaných dílů a jejich zpracování posílají na jednotlivé uzly. Dotazy a další zpracování pak probíhá v každém uzlu paralelně. Výsledky jsou agregovány a ukládány do úložné vrstvy jako např. Hadoop Distributed File System (HDFS). Odtud jsou data načtena do jednoho z několika analytických prostředí pro analýzu.

Systém Hadoop se dále skládá z dalších vzájemně se doplňujících komponent. Mezi ně, kromě výše uvedených HDFS a MapReduce, patří NoSQL datová úložiště jako Cassandra nebo HBase.


Špičkové řešení Hadoop je obsaženo v technologických produktech, které naše společnost nabízí:

MapR distribuce

MapR distribuce Hadoop poskytuje enterprise distribuovanou platformu pro spolehlivé ukládání a zpracování dat. V rámci spolupráce s open source komunitou poskytuje širokou škálu technologií – SQL on Hadoop, NoSQL databáze, exekuční frameworky atd., což uspokojí širokou škálu potřeb. S využitím zpětné kompatibility a podpory multi-verzování nástrojů je možné upgradovat nástroje a stávající aplikace individuálně dle vašeho plánu. Webová konzole pro správu MapR Control System umožňuje sledovat a spravovat Hadoop cluster snadno a efektivně. Klíčové vlastnosti MapR jsou popsány níže.

Integrovaná NoSQL databáze – MapR-DB

MapR poskytuje volitelnou enterprise NoSQL databázi v Hadoopu pro spouštění operativních i analytických úloh v rámci jednoho clusteru. Toto řešení lze využít i pro stávající aplikace HBase, protože MapR-DB obsahuje veškerou funkčnost HBase - podporuje HBase API, flexibilní širokosloupcový datový model, škálovatelnost Hadoopu, datovou lokalitu v rámci MapReduce datových úloh, ACID transakce na úrovni řádku, silnou datovou konzistenci atd. Databáze běží na stejných uzlech v Hadoop clusteru a ukládá data v Hadoopu, takže lze spustit databázové úlohy vedle tradičních analytických úloh. Databáze sdílí administrativní funkčnost s Hadoopem, včetně vysoké dostupnosti, zotavení po havárii, snapshotů a bezpečnosti (autentizace, autorizace, síťové šifrování). Databáze je navržena tak, aby poskytovala vysoký výkon, kontinuální nízkou latenci (bez zpomalujícího zhutňování / defragmentace) a extrémní škálovatelnost.

Přímý NFS přístup a interoperabilita

Schopnost standardního NFS přístupu umožňuje číst a zapisovat data do Hadoopu, jako kdyby byla uložena v běžném systému souborů. Na rozdíl od jiných distribucí MapR poskytuje plnohodnotnou implementaci NFS díky Direct Access NFS komponentě, která podporuje veškeré funkce pro čtení a zápis. To umožňuje spustit existující aplikace založené na práci se souborovým systémem na MapR bez jakýchkoli změn. Přímý přístup NFS byl navržen pro vysoký výkon a vysokou dostupnost a je připraven pro distribuované nasazení v rámci celé organizace.

MapR pro integraci stávajících systémů zákazníka podporuje řadu dalších standardů - všechna rozhraní Hadoopu včetně HDFS a HBase, ODBC/JDBC, Kerberos, LDAP, atd. Je tedy možné nasadit MapR do vaší stávající podnikové architektury a vyhnout se tím nežádoucí závislosti na jednom dodavateli.

Vysoká dostupnost a zotavení po havárii

Integrované prostředky pro vysokou dostupnost (HA) eliminují jednotlivé body selhání jednotlivých uzlů, metadat systému souborů, přístupu NFS, řízení zdrojů (YARN) a sledování úloh. Tyto prostředky umožňují vysokou provozuschopnost s nulovou ztrátou dat a to včetně eliminace restartování běžící úlohy po havárii uzlu. Rolling upgrade umožní upgradovat cluster za běhu v reálném čase a tím minimalizovat plánované prostoje.

Vestavěná funkce zotavení po havárii (DR) umožní vytvořit strategii kontinuity běhu systému v případě havárie celé lokality. Zrcadlení umožňuje vytvořit konzistentní vzdálenou repliku nebo "zrcadlo" pro zotavení po havárii, stejně jako pro vyrovnávání zátěže a geografického rozšíření. Plánované zrcadlení vysílá pouze rozdíly na úrovni bloků, aby se minimalizoval jak čas synchronizace, tak využití šířky pásma. Funkce Promotable Mirror umožňuje snadno zapnout vzdálené zrcadlo jako aktivní master cluster, které významně zrychlí čas obnovy (RTO). Kaskáda zrcadel umožňuje vytvářet řetězce zrcadel (zrcadla zrcadel) pro podporu více vzdálených datových center.

MapR Snapshots umožní rychle obnovit smazané nebo poškozené soubory. MapR Snapshots jsou konzistentní, což znamená, že přesně odrážejí stav clusteru v době, kdy byl snímek pořízen.

Integrované zabezpečení

MapR poskytuje bezpečnostní kontroly, které zajišťují přístup k citlivým datům pouze pro oprávněné uživatele. Data jsou chráněna pomocí standardních unixových souborových oprávnění spolu se seznamy řízení přístupu založených na rolích. Pro autentizaci můžete využít Kerberos a/nebo LDAP přes Pluggable Authentication Modules (PAM). Jako alternativa ke Kerberosu je k dispozici nativní autentizační systéma, který je ideální pro prostředí nepotřebující externí ověřování. Výkonné šifrování na úrovni spojení šifruje data odesílaná mezi uzly pro zajištění bezpečnosti dat.

Vysoký výkon a škálovatelnost

MapR je držitelem světových rekordů pro TeraSort a MinuteSort při použití mnohem menších hardwarových zdrojů než využívá konkurence. Jeden ze zákazníků MapR nedávno vytvořil rekord MinuteSort tříděním 1,65 TB dat za minutu na 1/7 počtu serverů použitých v předchozí verzi rekordu. Inovace v systému souborů pro rychlejší přístup k souborům a optimalizovaný MapReduce umožňuje vyšší výkon s menším počtem hardware ve srovnání s jinými distribucemi.

MapR, diky architekture distribuovaných metadat souborového systému, s rostoucím počtem uzlů lineárně škáluje a podporuje ukládání až 1 bilionu souborů. MapR clustery jsou navrženy tak, aby škálovaly až na 10.000 uzlů a poskytly dostatek prostoru pro rostoucí datová úložiště.

MapR-DB lze škálovat na daleko vyšší úrovni než ostatní NoSQL technologie. Databáze podporuje až 1 bilion tabulek, milióny sloupců, bilion řádek a velikosti buňky až 2 GB.

Multi-tenancy

S multi-tenancy, jedinečnou vlastností MapR, je možné spravovat různé skupiny uživatelů, datové sady a aplikace v rámci jednoho clusteru a zároveň je udržovat oddělené od sebe navzájem. Lze současně spouštět různé úlohy bezpečně, spolehlivě a efektivně. Některé z vlastností, které přispívají k multi-tenancy v MapR:

  • Svazky - logické oddíly clusteru pro vytváření samostatných administračních politiky, jako jsou kvóty, oprávnění a plánování kapacity
  • Bezpečnost - řízení přístupu na základě rolí pro omezení přístupu k datům
  • Kontrola umístění dat - určuje, na kterém uzlu jsou data uložena za účelem izolace odlišných souborů dat
  • Kontrola umístění úloh - určuje, které uzly budou spouštět úlohy za využití zdrojů v konkrétních částech clusteru, používané ve spojení s kontrolou umístění dat
  • ExpressLane – automatické dokončování běhu malých úloh i v případě zaneprázdnění clusteru velkými úlohami
  • YARN – použití Hadoop 2.x plánovače zdrojů pro alternativní úrovně kontroly zdrojů při vícenásobném spouštění úloh v clusteru

Datameer

Datameer zjednodušuje prostředí pro analýzu velký data do jediné aplikace postavené nad výkonnou platformou Hadoop. Jako jediná end-to-end analytická aplikace pro Hadoop je navržena tak, aby zpracování velkých objemů dat bylo jednoduché pro každého. Datameer kombinuje samoobslužnou integraci dat a analytiku s vizualizací.

Self-service datová analýza

Datameer poskytuje kompletní analytiku - od jednoduchých spojení a transformací až po komplexní prediktivní analýzy. Uživatelské rozhraní tabulkového procesoru spolu s množstvím analytických funkcí nabízí možnosti pro vaše analýzy, limitované pouze vaší fantazií. Nemusíte se omezovat předem připraveným schématem, pomocí Datameeru můžete analyzovat strukturovaná i nestrukturovaná data, takže získáte nejširší a nejúplnější pohled na vaše data, jaký lze vymyslet.

Vizualizace dat

Pomocí jednoduchého drag & drop WYSIWYG Infographic Designeru můžete vybudovat dashboard obsahující všechny potřebné informace. Tyto datové vizualizace jsou zobrazitelné na jakémkoliv zařízení. Jediným omezením zůstává i zde pouze vaše představivost.

Smart Execution™

Patentovaná technologie Smart Execution™ inteligentně a dynamicky vybírá a kombinuje různé výpočetní frameworky pro výpočty v Datameeru. Konkrétně zlepšuje využití a výkon clusteru výběrem nejvhodnějšího a efektivního výpočetního frameworku v každém kroku analytického procesu.

Datameer vytváří profily datových souborů při importu do Hadoopu a Smart Execution™ používá tyto informace a metadata k určení výpočetního frameworku pro další analytický krok a jeho optimalizaci. Pro uživatele se dějí tyto optimalizace naprosto transaprentním způsobem, přičemž není třeba žádné ruční konfigurace a zároveň není potřeba ani další dodatečný hardware (např. duplicitní in-memory cluster) ani software.

Smart Execution™ přináší výrazné zlepšení výkonu, zejména v prostředích s smíšenými úlohami, které obsahují malé i velké objemy dat. Důsledkem je větší uživatelská interaktivita pro menší datové sady. Smart Execution™ je také ideální pro iterační samoučící algoritmy jako např. Datameer Smart Analytics™. S nasazením Smart Execution™ lze používat Datameer pro širokou škálu úloh, které vyžadují rychlejší časy odezvy nebo nízkou latenci. Tyto případy použití pokrývají celou řadu IT a business oblastí, včetně analýz zákazníků, provozních analýz, detekce podvodů a datově řízených produktů a služeb.

Smart Analytics™

Datameer je průkopníkem snadno použitelného řešení pro datové analýzy nad Hadoopem a nyní s příchodem Smart Analytics™ poskytuje i sofistikované statistické analýzy na kliknutí pro každého. Datameer Smart Analytics™ poskytuje pokročilé funkce jako jsou clustering, rozhodovací stromy, sloupcové závislosti a doporučení k hledání skupiny a vztahů ukrytých v datech.

Dramaticky snížená složitost

Na rozdíl od tradičních BI řešení vyžadující třístupňový proces, který zahrnuje tři různé dodavatele, tři týmy odborníků a tři různé technologie, Datameer zjednodušuje toto komplexní prostředí do jednoho řešení.

Datameer využívá sílu Hadoopu k odstranění procesu ETL, obchází nutnost předvytvořených schémat a poskytuje samoobslužné funkce koncovým uživatelům, které nepotřebují pomoc IT oddělení. Konečným důsledkem je vyšší rychlost a pružnost při získávání informací z dat.

Správa dat

Datameer poskytuje robustní enterprise funkce pro správu dat se snadným nastavením bez potřeby programování s flexibilními integračními body pro správu závislostí toku dat v rámci organizace:

  • Import, export, data linky
  • Partitioning dat a úložišť
  • Komprese
  • Retenční politiky
  • Profilování dat
  • Analýza zdrojů, Meta analýza

Bezpečnost

Autentizace

Datameer se integruje s LDAPem / Active Directory (AD) a podporuje zabezpečení Hadoop prostředí Kerberosem.

Autorizace

Datameer poskytuje přístup založený na skupinách s delegací na všechny Datameer komponenty.

Šifrování

Datameer podporuje použití HTTPS. Kromě toho jsou všechna pověření koncových uživatelů, hesla a klíče (SSH, EC2, atd.) maskována v UI Datameeru a šifrovaná v úložišti metadat.

Výběr Hadoopu

Datameer je analytická aplikace nativně postavena na Hadoopu. Plně využívá lineární škálovatelnost a flexibilita Hadoopu přináší koncovým uživatelům možnosti integrace a analytiky. Podporuje všechny hlavní distribuce Hadoopu a umožňuje vybrat vám nejlepší distribuci pro vaše potřeby.