Big Data

V této části našeho webu se můžete seznámit s technologickými novinkami, zajímavostmi z oblasti Big Data, inspiracemi, případovými studiemi, řešením konkrétních problémů... Pokud potřebujete znát odpověď na konkrétní otázku a nenaleznete zde odpověď, neváhejte nás kontaktovat!

MapR Streams

prosinec 2015

MapR Technologies, Inc. představil v prosinci 2015 MapR Streams, komponentu v rámci MapR konvergentní datové platformy pro zpracování streamovaných dat.

MapR Streams je globální publish-subscribe systém pro zpracování velkých objemů streamovaných dat. Spojuje producenty a konzumenty dat po celém světě v reálném čase s neomezenou škálovatelností. MapR Streams je první big-data streaming systém postavený na konvergované datové platformě a to jediný big-data streamovací systém podporující globální replikaci událostí ve škálovatelnosti a spolehlivosti IoT.

Konvergovaná platforma pro streamování

MapR konvergovaná datová platforma vám umožňuje rychle a snadno vytvářet spolehlivé real-time aplikace díky:

  • Jeden cluster pro streamování, úkládání dat, databázi a analytiku
  • Perzistence streamovaných dat, poskytnutí přímého přístupu k datům pro dávkové a interaktivní výpočetní frameworky a tím eliminaci zbytečných přesunů dat
  • Unifikovaný bezpečnostní framework pro data-in-motion a data-in-rest poskytující autentifikaci, autorizaci a šifrování
  • Enterprise spolehlivost se samo obnovením a architekturou bez SPOF

Kontinuální data

MapR Streams poskytuje data k okamžitému zpracování a ostatním aplikacím díky:

  • Kafka API pro producenty a konzumenty v reálném čase pro snadnou migraci aplikací
  • Předpřipravené integraci s populárními framewroky pro zpracování streamů jako jsou Spark Streaming, Storm, Flink, a Apex.

Globálně

MapR Streams globálně replikuje data v měřítku IoT díky:

  • Libovolné topologii podporující tisíce clusterů po celém světě. Topologie připojených clusterů zahrnuje varianty one-to-one, one-to-many, many-to-one, many-to-many, hvězda, kruh a smíšené topologie. Smyčky v topologii jsou automaticky detekovány a ošetřeny, aby se zabránilo duplikaci dat.
  • Globální replikaci metadat. Stream metadat je replikován spolu s daty a umožňuje producentů a konzumentům pokračovat v činnosti při výpadku služeb jednotlivých lokalit. Data jsou rozložena v geograficky distribuovaných lokalitách přes cross-clusteru replikace pro zajištění kontinuity činnosti v případě výpadku celých lokalit.

MapR Streams bude k dispozici v Q1/2016.

MapR Datasheet

Představení MapR Streams:

Porovnání MapR Streams vs. Apache Kafka:

Spása jménem Big Data

listopad 2015

BI projekty honosící se názvem Big Data se těší u zákazníků v poslední době velké popularitě.

listopad 2015

BI projekty honosící se názvem Big Data se těší u zákazníků v poslední době velké popularitě. Nezřídka je nemožné prosadit projekt, který toto slovní spojení nemá v názvu bez ohledu na to, že obsah projektu nemá dle definice s Big Daty nic společného. Podstatně horší na tom ale je nesmyslné očekávání, které management od těchto projektů mívá, plynoucí většinou z nepochopení přínosu Big Data technologií.

Ilustrovat to lze mj. i na následujících otázkách, které pochází od skutečných zákazníků:

  • Mám nahradit svůj stávající datový sklad technologií Big Data?
  • Vyřeším BI problém v oblasti XY použitím Big Data nástroje?
  • Dokážou se Big Data nástroje přizpůsobit procesům v naší firmě?

Odpovědi na tyto otázky se dozvíte v tomto článku

MapR Document Database

září 2015

MapR Technologies, Inc. uvolnil development preview nového produktu MapR Document Database.

září 2015

S rostoucí popularitou relačních databází mnozí vývojáři aplikací očekávájí, že databázové záznamy mají stejné sloupce v rámci tabulky a očekávají, že záznamy z jedné tabulky lze spojit se záznamy v jiných tabulkách.

S NoSQL se potlačila potřeba normalizace dat do samostatných tabulek, místo toho jsou záznamy reprezentovány jako jeden objekt. Tyto jednotlivé objekty mohou být reprezentovány hodnotami v úložišti typu klíč-hodnota, jako řádky v úložišti typu "široký sloupec" (aka "rodina sloupců"), nebo jako JavaScript Object Notation (JSON) v dokumentové databázi.

MapR-DB v nové verzi přidává ke svému osvědčenému NoSQL úložišti podporu pro JSON. Díky nativní podpoře JSON je zjednodušený vývoj aplikací, především díky přímé podpoře hierarchických a vnořených dat. Není nutná serializace a deserializace objektů, pomocí API lze přímo zápisovat a číst v rámci hierarchie dokumentu.

Praktická ukázka pro vývojáře je na následujícím videu:

Více informací získáte na maprdb.io

Auditování v MapR 5.0

Ukázka možností auditování v MapR 5.0

Pro zajištění bezpečnosti a řízení dat je rozhodnující schopnost auditovat činnost Hadoop clusteru, včetně souborového systému, ACL a změn.

Následující video ukazuje, jakým způsobem lze zjistit změny v MapR 5.0 clusteru pomocí vizuálního nástroje.

MapR 5.0

červen 2015

MapR Technologies, Inc. uvedl na Hadoop Summitu 2015 novou verzi 5.0 distribuce MapR, která rozšiřuje možnosti použítí v real-time aplikacích, zabezpečení a self-service analýze dat.

červen 2015

Distribuce MapR 5.0 je konstruovaná pro zpracování dat s velkým objemem a vysokou rychlostí na jedné datové platformě, která umožňuje vytvářet novou třídu aplikací pracujících v reálném čase. Nejnovější verze MapR distribuce automaticky synchronizuje úložiště, databáze a fultextové indexy pro podporu komplexních real-time aplikací. MapR 5.0 zahrnuje také komplexní bezpečnostní auditování, podporu Apache Drill a nejnovější Hadoop 2.7 s YARN.
Základní přehled nových funkcí:

  • Rozšíření MapR frameworku pro výměnu dat v reálném čase použitého v MapR-DB pro replikaci tabulek o podporu dalších výpočetních frameworků. První podporovaný framework je Elasticsearch, kde je umožněna synchronizace fulltextových indexů bez nutnosti psaní vlastního kódu.
  • Přídání Hadoop 2.7 včetně YARN 2.7 s podporou nových vlastností jako rolling upgrade pro YARN aplikace pro doplnění stávájícího rolling upgradu MapR platformy nebo integraci podpory pro Docker kontejnery.
  • Vylepšení v oblasti řízení a bezpečnosti:
    • Komplexní audit pro všechna data přistupný přes log soubory ve formátu JSON, který umožňuje rozsáhlé reportování, ověřování a rychlou analýzu pomocí Apache Drill.
    • Podpora pro Apache Drill 1.x, včetně Drill Views. Tato inovativní funkce zajišťuje bezpečný přístup k datům na úrovni polí v souborech s cílem zajistit přístupnost dat pro konkrétní analytiky. Analytici mohou mít rovněž oprávnění pro správu dat, s nímž mohou sdílet své datové soubory s dalšími analytiky.

Zaujala Vás tato informace? Chcete vědět víc? Kontaktujte nás.


Originální tiskové prohlášení MapR 5.0 Press Release

Představení Apache Drill

SQL pro Hadoop interaktivně a s nízkou latencí? Odpovědí je Apache Drill!

Apache Drill je open source dotazovací nástroj pro Hadoop s nízkou latencí poskytující SQL analytiku v měřítku petabytů. Disponuje schopností zjištění datového schéma za běhu - jedná se o průkopnický nástroj pro self-service analýzu dat uložených v různých datových formátech nebo NoSQL databázích. Díky implementaci ANSI SQL standardu Apache Drill umožňuje integraci se stávajícími vizualizačními nástroji a nevyžaduje učení další technologie.

Představení Apache Drill

Ukázka implementace - různé datové zdroje, vizualizace