V této části našeho webu se můžete seznámit s technologickými novinkami, zajímavostmi z oblasti Big Data, inspiracemi, případovými studiemi, řešením konkrétních problémů... Pokud potřebujete znát odpověď na konkrétní otázku a nenaleznete zde odpověď, neváhejte nás kontaktovat!
MapR Streams
prosinec 2015
MapR Technologies, Inc. představil v prosinci 2015 MapR Streams, komponentu v rámci MapR konvergentní datové platformy pro zpracování streamovaných dat.
MapR Streams je globální publish-subscribe systém pro zpracování velkých objemů streamovaných dat. Spojuje producenty a konzumenty dat po celém světě v reálném čase s neomezenou škálovatelností. MapR Streams je první big-data streaming systém postavený na konvergované datové platformě a to jediný big-data streamovací systém podporující globální replikaci událostí ve škálovatelnosti a spolehlivosti IoT.
Konvergovaná platforma pro streamování
MapR konvergovaná datová platforma vám umožňuje rychle a snadno vytvářet spolehlivé real-time aplikace díky:
Jeden cluster pro streamování, úkládání dat, databázi a analytiku
Perzistence streamovaných dat, poskytnutí přímého přístupu k datům pro dávkové a interaktivní výpočetní frameworky a tím eliminaci zbytečných přesunů dat
Unifikovaný bezpečnostní framework pro data-in-motion a data-in-rest poskytující autentifikaci, autorizaci a šifrování
Enterprise spolehlivost se samo obnovením a architekturou bez SPOF
Kontinuální data
MapR Streams poskytuje data k okamžitému zpracování a ostatním aplikacím díky:
Kafka API pro producenty a konzumenty v reálném čase pro snadnou migraci aplikací
Předpřipravené integraci s populárními framewroky pro zpracování streamů jako jsou Spark Streaming, Storm, Flink, a Apex.
Globálně
MapR Streams globálně replikuje data v měřítku IoT díky:
Libovolné topologii podporující tisíce clusterů po celém světě. Topologie připojených clusterů zahrnuje varianty one-to-one, one-to-many, many-to-one, many-to-many, hvězda, kruh a smíšené topologie. Smyčky v topologii jsou automaticky detekovány a ošetřeny, aby se zabránilo duplikaci dat.
Globální replikaci metadat. Stream metadat je replikován spolu s daty a umožňuje producentů a konzumentům pokračovat v činnosti při výpadku služeb jednotlivých lokalit. Data jsou rozložena v geograficky distribuovaných lokalitách přes cross-clusteru replikace pro zajištění kontinuity činnosti v případě výpadku celých lokalit.
BI projekty honosící se názvem Big Data se těší u zákazníků v poslední době velké popularitě.
listopad 2015
BI projekty honosící se názvem Big Data se těší u zákazníků v poslední době velké popularitě. Nezřídka je nemožné prosadit projekt, který toto slovní spojení nemá v názvu bez ohledu na to, že obsah projektu nemá dle definice s Big Daty nic společného. Podstatně horší na tom ale je nesmyslné očekávání, které management od těchto projektů mívá, plynoucí většinou z nepochopení přínosu Big Data technologií.
Ilustrovat to lze mj. i na následujících otázkách, které pochází od skutečných zákazníků:
Mám nahradit svůj stávající datový sklad technologií Big Data?
Vyřeším BI problém v oblasti XY použitím Big Data nástroje?
Dokážou se Big Data nástroje přizpůsobit procesům v naší firmě?
MapR Technologies, Inc. uvolnil development preview nového produktu MapR Document Database.
září 2015
S rostoucí popularitou relačních databází mnozí vývojáři aplikací očekávájí, že databázové záznamy mají stejné sloupce v rámci tabulky a očekávají, že záznamy z jedné tabulky lze spojit se záznamy v jiných tabulkách.
S NoSQL se potlačila potřeba normalizace dat do samostatných tabulek, místo toho jsou záznamy reprezentovány jako jeden objekt. Tyto jednotlivé objekty mohou být reprezentovány hodnotami v úložišti typu klíč-hodnota, jako řádky v úložišti typu "široký sloupec" (aka "rodina sloupců"), nebo jako
JavaScript Object Notation (JSON) v dokumentové databázi.
MapR-DB v nové verzi přidává ke svému osvědčenému NoSQL úložišti podporu pro JSON. Díky nativní podpoře JSON je zjednodušený vývoj aplikací, především díky přímé podpoře hierarchických a vnořených dat.
Není nutná serializace a deserializace objektů, pomocí API lze přímo zápisovat a číst v rámci hierarchie dokumentu.
Praktická ukázka pro vývojáře je na následujícím videu:
Pro zajištění bezpečnosti a řízení dat je rozhodnující schopnost auditovat činnost Hadoop clusteru, včetně souborového systému, ACL a změn.
Následující video ukazuje, jakým způsobem lze zjistit změny v MapR 5.0 clusteru pomocí vizuálního nástroje.
MapR 5.0
červen 2015
MapR Technologies, Inc. uvedl na Hadoop Summitu 2015 novou verzi 5.0 distribuce MapR, která rozšiřuje možnosti použítí v real-time aplikacích, zabezpečení a self-service analýze dat.
červen 2015
Distribuce MapR 5.0 je konstruovaná pro zpracování dat s velkým objemem a vysokou rychlostí na jedné datové platformě, která umožňuje vytvářet novou třídu aplikací pracujících v reálném čase.
Nejnovější verze MapR distribuce automaticky synchronizuje úložiště, databáze a fultextové indexy pro podporu komplexních real-time aplikací. MapR 5.0 zahrnuje také komplexní bezpečnostní auditování, podporu Apache Drill a nejnovější Hadoop 2.7 s YARN.
Základní přehled nových funkcí:
Rozšíření MapR frameworku pro výměnu dat v reálném čase použitého v MapR-DB pro replikaci tabulek o podporu dalších výpočetních frameworků. První podporovaný framework je Elasticsearch, kde je umožněna synchronizace fulltextových indexů bez nutnosti psaní vlastního kódu.
Přídání Hadoop 2.7 včetně YARN 2.7 s podporou nových vlastností jako rolling upgrade pro YARN aplikace pro doplnění stávájícího rolling upgradu MapR platformy nebo integraci podpory pro Docker kontejnery.
Vylepšení v oblasti řízení a bezpečnosti:
Komplexní audit pro všechna data přistupný přes log soubory ve formátu JSON, který umožňuje rozsáhlé reportování, ověřování a rychlou analýzu pomocí Apache Drill.
Podpora pro Apache Drill 1.x, včetně Drill Views. Tato inovativní funkce zajišťuje bezpečný přístup k datům na úrovni polí v souborech s cílem zajistit přístupnost dat pro konkrétní analytiky. Analytici mohou mít rovněž oprávnění pro správu dat, s nímž mohou sdílet své datové soubory s dalšími analytiky.
Zaujala Vás tato informace? Chcete vědět víc? Kontaktujte nás.
SQL pro Hadoop interaktivně a s nízkou latencí? Odpovědí je Apache Drill!
Apache Drill je open source dotazovací nástroj pro Hadoop s nízkou latencí poskytující SQL analytiku v měřítku petabytů. Disponuje schopností zjištění datového schéma za běhu - jedná se o průkopnický nástroj pro self-service analýzu dat uložených v různých datových formátech nebo NoSQL databázích. Díky implementaci ANSI SQL standardu Apache Drill umožňuje
integraci se stávajícími vizualizačními nástroji a nevyžaduje učení další technologie.
Představení Apache Drill
Ukázka implementace - různé datové zdroje, vizualizace