ZVLÁŠTNÍ NEPRODEJNÁ PŘÍLOHA | ČERVEN 2014 …ZVLÁŠTNÍ NEPRODEJNÁ PŘÍLOHA | ČERVEN 2014Bigdata 2014 pro efektivnější byznys Získejte z big dat hodnotné informace

Z V L Á Š T N Í N E P R O D E J N Á P Ř Í L O H A | Č E R V E N 2 0 1 4

Bigdata2 0 1 4 pro efektivnější byznys

Získejte z big dat hodnotné informace Vybíráme nejvhodnější úložiště Deset častých mýtů

S I LV E R P A R T N E R

Bigdata_2014_235x297.indd 6 6/23/14 1:13 PMBez názvu-21 15Bez názvu-21 15 23.06.14 13:4323.06.14 13:43

BIG DATA | GOVERNANCE

II CO M P U T E RWO R L D 12 | 2014

Získejte z big dat hodnotné informaceV současnosti je běžnou součástí naší kultury zdravý životní styl. Většina lidí se více či méně snaží žít zdravě a být v kondici, protože se pak cítí lépe, dokáže snadněji vykonávat každodenní činnosti a ví, že se v budoucnu vyhne mnohým problémům. A s big daty je to podobné. I zde totiž platí, že větší neznamená lepší a silnější. Samotný fakt, že lze pomocí různých technologií a nástrojů pracovat s velkými objemy dat, není jistotou, že díky tomu lidé, komerční společnosti či jiné instituce získají více informací nebo jakoukoli jinou užitnou hodnotu, kterou budou schopny využít pro plnění svých cílů.

MICHAL GÜRTNER

Cílem big data governance je zavést jistá pravidla, principy, technologie a lidské činnosti, které budou

směřovat k efektivní správě a vytě-žování velkých objemů údajů s cílem vytvořit hodnotné in-formace pro své vlastníky a uživatele.

Jinými slovy lze říci, že big data governance je specifická kultura pro práci s big daty. Pokud se správně definuje a dodržuje, odrazí se to nejen ve všech aktivitách, které komerční i nekomerční instituce vykonávají, ale bude to znamenat i lepší výhled do budoucnosti a eliminaci možných problémů.

Nicméně aby se podařilo vytvořit onu „správně definovanou kulturu“ pro práci s big daty a onu big data governance zavést, je po-třeba si odpovědět na řadu otázek a přizpůsobit jednotlivé oblasti tak, aby se jejich dodržování nebo rozsah samotný nestaly problémem.

Příkladem otázek, na které je nutné znát od-povědi, mohou být:

■ V jakém stavu je aktuálně kultura pro práci s daty, existuje vůbec, je formalizovaná a dodr-žuje se?

■ Do jakého cílového stavu se chceme dostat, jaké oblasti big data governance chceme řešit a jaké jsou priority?

■ Existují dostatečné zdroje a kapacity na im-plementaci a dosažení stanovených cílů, lze jich reálně dosáhnout v rámci požadovaného časo-vého plánu?

■ Co implementace big data governance při-nese, lze její přínosy objektivně měřit a jakým způsobem?

Konkrétní oblasti, které big data governance pokrývá, popisuje následující text. Definování, implementace a dodržování big data governance lze považovat za klíč k získání hodnotných in-formací z velkých objemů údajů, protože právě ty pomáhají plnit cíle a stávají se ceněným ma-jetkem firem a institucí.

Práce a integraceAby bylo možné big data využívat, je nutné je přenést ze zdrojových systémů a všech možných zařízení, která je generují do cílových úložišť. V rámci tohoto přenosu nebo kdykoli později se musejí vykonat různé transformační úlohy včet- ně integrace s daty z jiných systémů a zařízení.

Řešení na bázi Hadoopu, která existují, ne-jsou pro datové integrace vhodná ani použitelná. Toto tvrzení pochází z analýzy „Hadoop is not Data Integration Solution“, kterou uveřejnil Gartner.

Hlavním důvodem je fakt, že vlastnosti a funkcionalita běžně dostupných ETL (ELT) ná-strojů žádná jiná řešení zatím neposkytují, a také kvůli tomu, že integrační úlohy nejsou izolované, je potřeba je řešit v kontextu a se zna-lostí okolí a účelu, pro jaký se údaje integrují.

Na druhé straně však stojí specifické úlohy, které naopak vyžadují „součinnost“ hadoopo-vých řešení a mnohdy je vhodné udělat transfor-mační úlohy s big daty právě prostřednictvím Hadoopu (procesů Map & Reduce).

Vzhledem k výše uvedeným faktům je ne-zbytné mít k dispozici vhodnou integrační plat-

formu, která bude dostatečně flexibilní a ro-bustní. Existuje mnoho způsobů, jakými lze data zachytávat a předávat je k dalšímu zpracování.

Svět big dat znamená práci s velkými objemy údajů z různých zdrojů, a proto jsou dalšími dů-ležitými vlastnostmi konektivita, škálovatelnost a rychlost, s jakou dokáže integrační platforma data zpracovávat.

Integrační úlohy se v tomto případě nesmí stát úzkým hrdlem a musejí zajistit poskytování dat v podobě, která se nedefinuje, a v kvalitě a čase, jenž splňuje očekávání uživatelů.

Pouze v takovém případě lze následně získat požadované výstupy, které pomohou firmám a organizacím plnit jejich cíle.

Porozumění, kvalita a důvěryhodnost

Pokud se má z big dat vytěžit ma-ximum, je nutné jim porozumět.

Objem, různorodost a rychlost, s jakými se údaje generují, jsou příliš vysoké na to, aby bylo možné big datům poro-zumět jen na základě jejich manuálního prozkoumávání –

ať už ve smyslu prohlížení je-jich struktur či hodnot (tedy dat

samotných).Kvůli tomu existuje řada softwa-

rových nástrojů, které tyto činnosti do-kážou automatizovat. Pokud jsou nástroje

dostatečně škálovatelné a dovedou vykonávat analýzu velkého objemu dat během akceptova-telné doby či dokonce v reálném čase, lze jejich výstupem řídit datové toky a v případě zjištění nekonzistencí nebo nevyhovující datové kvality spustit procesy čištění dat či párování zá-znamů – a to i ve světě big dat.

Datová kvalita však není jen otázkou párování a odstraňování duplicitních údajů, ale i jejich standardizací a obohacením. Týká se to širokého spektra dat – nejen názvů firem, jmen lidí, ad-resních údajů, ale i názvů produktů, nejrůzněj-ších kvantifikačních údajů, metrik nebo pros-tých textů, které mohou být zdrojem dat napří-klad pro analýzu sentimentu.

Jakýkoli výstup softwarového nástroje má však omezenou vypovídající hodnotu, pokud se datům neporozumí. Klíčové je proto datům i je-jich strukturám přiřadit význam a znát jejich kontext, souvislosti a vztah k činnostem a aktivi-tám, které firmy a instituce vykonávají.

Kvůli tomu je vhodné používat nástroje, jež tuto problematiku pokrývají a poskytují svým uživatelům komfortní uživatelské prostředí. Ta-kové prostředí je rychle přístupné a umožní na-příklad zobrazit definici určitého termínu.

Následně lze zjistit, jaký je vztah konkrétního termínu k datům, kde se nacházejí, jak vznikla a jakou mají strukturu.

Pojetí big data governance

Rizika Náklady

Renomé

Strategie

Majetek

Zisk

Růst Projekty

Procesy

Analytika

Big data

CW12-bd2-3.indd IICW12-bd2-3.indd II 20.06.14 14:0420.06.14 14:04

CO M P U T E RWO R L D.C Z III

GOVERNANCE | BIG DATA

Rovněž je potřeba znát informace o tom, jestli jsou data aktuální a zda prošla nějakým procesem obohacování nebo čištění. S tím sou-visí správa metadat nejrůznějších IT objektů (např. databázových objektů, struktur Hadoop, ETL, aplikací apod.), jež jsou nedílnou součástí big data governance.

Oblast správy terminologie a metadat lze po-važovat za jednu z náročnějších z pohledu lid-ských zdrojů. Vyžaduje vysokou míru součin-nosti mnoha lidí, kteří se podílejí na definování termínů, jejich vztahů a vazeb do okolí.

Lidé zabývající se výhradně IT technologiemi spolupracují s koncovými uživateli, kterým in-formační technologie nic neříkají – a přesto spolu musí tito pracovníci komunikovat (napří-klad při zadávání a specifikaci požadavků na no-vou funkcionalitu či analýzu využívající techno-logii big dat).

Právě pro zlepšení komunikace a omezení vzniku nedorozumění mezi těmito skupinami lidí je klíčové využití vhodných nástrojů, které usnadňují spolupráci mezi lidmi, jež mluví řečí IT a byznysu.

Představit si lze situaci, kdy na základě re-portu, který poukazuje na procentuální mezi-roční nárůst zisku, se rozhodlo o prorůstovém opatření, třeba stavbě nové pobočky firmy.

V případě, že nejsou k dispozici přesné infor-mace o tom, co vlastně termín zisk znamená a jaká vstupní data se pro tvorbu reportu pou-žila, by se mohlo stát, že report vykazoval infor-maci o zisku, který nebyl očištěn od kurzových rozdílů a vytvořil se na základě neúplných údajů – třeba jen za určitý segment či region. Je tedy docela možné, že reálně zisk firmy neroste, a není tedy důvod ke stavbě nové prodejní pobočky.

Výše popsané oblasti big data governance po-máhají zvýšit důvěryhodnost i kvalitu dat a in-formací, na jejichž základě dochází k mnoha rozhodnutím, která ovlivňují chod firem či institucí.

Životní cyklus a bezpečnostŽivotní cyklus dat a zajištění jejich bezpečnosti je významnou úlohou, která přímo ovlivňuje ná-klady a reputaci všech firem a institucí. Včasná archivace dat může například pozitivně ovlivnit výkonnost některých databázových systémů, protože pracují s menším množstvím dat a není nutné je posilovat.

Cena za jednotku dat uložených v transakč-ním systému či v klasickém datovém skladu je vyšší než u údajů ukládaných v Hadoopu či na zálohovacím médiu. Vliv na tuto hodnotu mají také použitý hardware, software a náklady na administraci.

Nejen z tohoto důvodu se dnes big data a dis-tribuce Hadoopu používají k tzv. augmentaci tra-dičních datových skladů – tedy jejich rozšíření o struktury vhodné právě pro ukládání a práci

s big daty.Za rozumnou cenu lze

tímto způsobem dosáhnout zvýšení kapacity datových skladů a vykonávat pokročilé analýzy velkého množství strukturovaných i nestruktu-rovaných dat.

Další oblastí, kterou je nutné zvládnout a automati-zovat, je příprava vhodného vzorku testovacích dat, a tím výrazné zkrácení času testo-vání a nasazení nové aplikace.

Zásadně tím lze snížit cenu celého projektu a mít dříve benefity plynoucí z nasazení nové aplikace či procesu.

Na bezpečnost dat se dnes kladou vysoké nároky – exis-tuje celá řada regulatorních požadavků a zákonů, které

upravují způsob uchovávání, manipulaci a distri-buci citlivých dat. Nejen klasické databázové sy-stémy, ale i distribuce Hadoopu, které slouží k uchování a práci s big daty, je nezbytné sledo-vat, zajistit jejich bezpečnost a zamezit přístupu neoprávněných uživatelů.

Softwarová řešení, která dokážou sledovat a řídit aktivity nejen v distribucích Hadoopu, by měla být součástí majetku organizací – tak se nevystaví nebezpečí ztráty dat a nechtěné publi-city nebo vysoké pokuty za porušení zákona.

Zpřístupnění a analýzaBig data lze uživatelům zpřístupnit mnoha způ-soby, například v podobě reportů s agregovanými údaji, vizualizacemi, smysluplnými pohledy na samotná data či dynamickými obrazovkami s mnoha stále se měnícími informacemi.

Jinou možností jsou nástroje založené na principu vyhledávání a indexace obsahu různých datových zdrojů, které však dokážou zobrazovat i relevantní informace, specifické a potřebné pro danou organizaci.

Výstupy z analytických, statistických a mode-lovacích nástrojů jsou jen dalším příkladem pro-středí, které propojuje uživatele s big daty.

Rozhodující však je, že hodnota jakéhokoli vý-stupu, obrazovky, reportu či analýzy roste anebo naopak klesá úměrně s tím, jak úplné, kvalitní a důvěryhodné jsou podkladové údaje.

V případě, že firmy a instituce budou respek-tovat výše popsané principy big data governance, dokážou pomocí svých velkých objemů údajů ge-nerovat nejen hodnotné informace, které zlepší jejich rozhodování. Zároveň i optimalizují svoje náklady a eliminují možná rizika. A díky tomu budou disponovat solidním základem pro svůj budoucí rozvoj a prosperitu. ■

Autor pracuje jako technický konzultant pro IT

Součásti big data governance

Analýza Integrace

Transakční aplikace

Správa

Analytické aplikace

Kostky

Streamy

Big data

Data

Změny

Kvalita Bezpečnost Životní cyklus

Datové sklady

Zdroje, zařízení

Integrace

CW12-bd2-3.indd IIICW12-bd2-3.indd III 20.06.14 14:0420.06.14 14:04

BIG DATA | STORAGE

IV CO M P U T E RWO R L D 12 | 2014

Vyberte si vhodné úložištěV éře big dat firmy shromažďují informace příslovečně nadsvětelnou rychlostí. Tradiční strategie ukládání dat ale s tímto trendem nedokáže udržet krok. Jak se tedy můžete vyhnout potížím s úložišti pro velké objemy údajů?

STACY COLLETTOVÁ

Pokud jde o big data, úložiště se již nepova-žuje za monolitické silo, které by bylo svou povahou proprietární a uzavřené, tvrdí

Ashish Nadkarni, analytik IDC.Velké množství těchto systémů se podle něj

v současné době nasazuje s využitím interních disků – je to podobné modelům použitým fir-mami jako Facebook nebo Google, kde je úlo-žiště tvořeno právě interními disky v serverech.

Ty přitom mívají v sobě až 48 HDD a samotná platforma ukládání se řídí softwarem. Používají se k tomu univerzální operační systémy, na kte-rých běží softwarové jádro.

Uložená data rostou ročně o zhruba třetinu, uvádí Aberdeen Group. To znamená, že oddělení IT musí zdvojnásobit svou úložnou kapacitu kaž-dých 24 až 30 měsíců. „Dnes se na ukládání dat vydává průměrně 13 % z rozpočtů IT,“ popisuje Dick Csaplar, analytik Aberdeenu, a dodává: „Za dva roky by to mohlo být 26 % a potom i 52 %. Velmi brzy se to vymkne kontrole, takže nemůžete dělat stále totéž znovu a znovu.“

Přestože je faktem, že náklady na úložiště klesají, nesnižují se podle něj dostatečně rychle, aby vyrovnaly potřebu dalších výdajů na úložiště, jak objem dat roste.

Záplava nestrukturovaných dat také stále stoupá. „Těžkým úkolem, který se každý snaží vyře-šit, jsou nestrukturovaná data pocházející z doku-

mentů, u nichž byste nečekali, že z nich budete do-lovat informace,“ prohlašuje Vince Campisi, ředi-tel IT z GE Software, která propojuje počítače, big data a lidi s cílem usnadnit analýzu údajů.

„Tradiční principy BI v koncepci a podobě stále platí, ale množství přicházejících informací je mno-hem větší, než postačí pro transakce v systémech využívaných pro provoz běžného podnikání.“

Jak tedy vytvořit strategii ukládání dat v éře big dat, škálovat architekturu ukládání dat, aby dokázala udržet krok s daty a růstem podniku, a udržet přitom náklady na ukládání dat pod kontrolou? Poučte se u některých pokročilých uživatelů.

Big data nejsou pro společnost Quicken Lo-ans nic nového. Tento on -line poskytovatel hy-poték je zvyklý na ukládání a analýzu dat od více než 1,5 milionu klientů a úvěrů na bydlení v hodnotě desítek miliard dolarů.

Před třemi lety však s nimi společnost teprve začínala. „Začali jsme se zaměřovat na big data získaná ze sociálních sítí – Twitteru, Facebooku, ze sledování pohybu uživatelů na webu a z webového chatu,“ což je obrovské množství nestrukturova-ných dat, vysvětluje tamější ředitelka IT Ling-long Heová.

„Způsob uchovávání dat je důležitý, protože má dopad na strategii, a to nejen ohledně ukládání, ale také synchronizace se strukturovanými daty či zvy-šování vlivu na firmu,“ vysvětluje Heová.

Společnost Quicken Loans již měla stanove-nou strategii pro škálování úložišť, která využí-vala centralizovanou síť SAN. Pro ukládání big dat však potřebovala více než jen škálovatelný úložný prostor, ale také výpočetní výkon umís-těný blízko k uloženým datům. Řešením pro ni byly uzly s Hadoopem.

„Můžeme využívat jednotlivé uzly, servery, pro-cesory, úložnou kapacitu a operační paměť, takže je to pro výpočty velmi rychlé,“ pochvaluje si Heová. „Z hlediska nákladů, výkonu i růstu to pro nás má mnohem větší vliv.“

Navíc takové řešení umocňuje a vytváří cestu pro nové paradigma v oblasti podnikových big dat, kde je úložiště levnější a neoddělitelně spo-jené s výpočetním a úložným výkonem.

Použití levnějších úložišťV těsných politických závodech mohou infor-mace způsobit rozdíl. Zeptejte se lidí z poraden-ské společnosti Catalist. Ta získává údaje od mi-lionů voličů doplněné o obrovské množství „po-zorování“ založených na dalších veřejných zá-znamech, jako jsou třeba transakce v oblasti nemovitostí nebo žádosti o úvěrovou historii do-tyčného subjektu.

Informace produkované jejími analytickými nástroji sdělují organizátorům kampaně, jaké lidi oslovit, a mohou dokonce doporučit kandi-dátům, aby přes noc změnili svou volební strategii.

„Měli jsme velké úložiště EMC, které jsme vyřa-dili, protože bylo příliš drahé a spotřebovávalo mnoho energie,“ vzpomíná Jeff Crigler, technolo-gický ředitel Catalistu, a poznamenává, že sy-stému EMC docházela i kapacita.

Firma tedy vybudovala cluster serverů NAS, z nichž každý zvládne uložit petabajt dat. „Je to v podstatě velká krabice disků s procesorem, který je dostatečně inteligentní, aby mohl fungovat po-dobně jako řešení od EMC.“ Disky mají vysokou kapacitu, software nabízí luxusní konfiguraci a funkce zajišťuje nenáročný procesor.

Csaplar z Aberdeenu vidí rostoucí trend ústupu od drahých úložišť, která stojí více než dva miliony korun, směrem k levnějším serve-rům, jež nyní zvládnou udělat více práce.

„Výkon těchto zařízení roste a přebírá funkce, které dříve vykonávala specializovaná řešení. Je to podobné, jako když se sítě vyvinuly z rozbočovačů a síťových karet připojených do sítě do funkce umís-těné přímo v procesoru,“ dodává Csaplar.

Jsem přesvědčený, že se ukládání dat také ubírá tímto směrem, myslí si Csaplar. Namísto nákupu velkých a drahých diskových polí firmy používají přístup JBOD (skupina dis- ků) – nasazují neinteligentní zařízení pro ukládání dat a výpočetní kapacitu serverů k jejich správě.

„To snižuje celkové náklady na úložiště a nepři-jdete o žádnou funkcionalitu – nebo možná dosta-nete 80 % výsledků za 20 % nákladů,“ pozname-nává Csaplar.

Catalist nahradil svá zařízení s cenami více než dva miliony korun za čtyři úložné jednotky

CW12-bd4-5.indd IVCW12-bd4-5.indd IV 20.06.14 14:0520.06.14 14:05

CO M P U T E RWO R L D.C Z V

STORAGE | BIG DATA

NAS za tři čtvrtě milionu. „To bylo před rokem a půl,“ a náklady na ukládání dat nadále klesaly.

Csaplar očekává, že se na trhu objeví oby-čejné levné systémy ve větší míře, až více organi-zací zjistí, že splňují jejich potřeby. Velcí doda-vatelé, jako je EMC, vidí hrozbu, a proto kupují firmy, které dodávají menší úložiště.

Mezera mezi ukládáním a zpracovánímSoučasný software umožňuje ukládání dat ještě blíže k analytickým nástrojům a komprese sou-borů udržuje nároky na úložiště pod kontrolou.

Dodavatelé, jako je HP, respektive její divize Vertica, mají přímo uvnitř databáze k dispozici analytické funkce, které podnikům dovolují dě-lat analytické výpočty bez nutnosti extrahovat informace do odděleného prostředí kvůli zpra-cování. Také Greenplum (součást EMC) nabízí podobné funkce.

Obě řešení jsou součástí nové generace sloup-cových databází, které jsou navrženy tak, aby pokud jde o analytické pracovní zátěže, nabídly výrazně lepší výkon, menší nároky na úložiště a lepší efektivitu než databáze založené na řád-cích. Greenplum se nedávno stala součástí firmy Pivotal Labs, nabízející podnikovou platformu PaaS a jež je součástí EMC.

Například firma Catalist si vybrala databázi Vertica speciálně kvůli výše zmíněným funkcím, uvádí Crigler. Protože je databáze sloupcová na-místo řádková, hledá kardinalitu dat ve sloupci a na základě toho může dělat kompresi. Kardina-lita popisuje vztah jedné tabulky dat k jiné na rozdíl od vztahů jeden vůči mnoha nebo mnoho vůči mnoha.

V databázi máme sloupec nazývaný „Stav“ pro záznam každé osoby. V souboru o velikosti 300 milionů registrovaných voličů se ale obje-vuje jen padesátkrát, popisuje Crigler.

„V řádkově založených relačních open source da-tabázových systémech, jako jsou například Postgres nebo MySQL, by se objevoval 300milionkrát. Pokud použijete takovou úroveň komprese na všechno – od názvů ulic po příjmení Novák, pak to (a další kompresní algoritmy) přinese z hlediska úložného prostoru obrovské úspory.“

Volba databázové technologie tedy výrazně ovlivní množství potřebného úložného místa.

Na straně úložiště pomáhají deduplikace, komprese a virtualizace snižovat velikost sou-borů a množství dat ukládaných pro pozdější analýzu. A tiering dat je dobře známá možnost rychlého předání nejdůležitějších dat analytic-kým nástrojům.

SSD jsou dalším populárním médiem pro ukládání dat v případě, že musí být rychle do-stupná. Tyto systémy udržují údaje v režimu velmi rychlé odezvy, vysvětluje Csaplar.

Uchovávají data v těsné blízkosti procesorů, aby tak serverům umožnily rychlou analýzu dat. Původně byly pro mnoho podniků příliš drahé, ale ceny už klesly na úroveň, kdy si vrstvy vytvo-řené z SSD mohou dovolit i středně velké spo-lečnosti, dodává Csaplar.

Vzestup cloudůCloudové úložiště hraje ve strategiích ukládání big dat stále významnější roli. V oborech, kde or-ganizace působí po celém světě, jako jsou ropný průmysl nebo těžaři zemního plynu, se údaje ze senzorů posílají přímo do cloudu – a v mnoha případech se tam dělá i analýza.

„Pokud sbíráte data z deseti nebo více zdrojů, nebudete je pravděpodobně ukládat do svého dato-vého centra, protože to není u tak velkého množství dat nákladově efektivní,“ uvádí Nadkarni z IDC.

Například firma GE mnoho let analyzovala data senzorů strojů pomocí technologie big dat kvůli plánování údržby letadel. Campisi říká, že množství údajů shromážděných z listu plynové turbíny elektrárny jen za několik hodin běhu může převyšovat množství dat, která se v sociál-ních sítích sbírají celý den.

Firmy využívají cloud ke shromažďování dat i jejich analýze v něm, takže odpadá potřeba je přenášet do datového centra.

„Společnosti jako Amazon vám poskytnou výpo-četní vrstvu pro analýzu těchto údajů přímo v cloudu. Když jejich rozbor dokončíte, můžete je vždy přesunout, řekněme z vrstvy typu S3 na vrstvu typu Glacier (Ledovec),“ dodává Nadkarni.

Glacier představuje extrémně levnou mož-nost uložení dat, kterou oznámil Amazon Web Services v loňském roce. Je určená pro uchová-vání dat „u ledu“ po celá desetiletí.

Další dodavatelé mají podobné služby clou-dové archivace, uvádí Csaplar a poznamenává, že tyto nabídky se profesionálně spravují za velmi dostupnou cenu a mohly by například sloužit jako konečné místo uložení starých pásek.

Při velmi nízkých cenách za gigabajt je hodně těžké takové nabídce odolat. „Jakmile dojde k pročištění údajů a nebudou obsahovat žádné cit-livé informace, můžete je do takovéhoto archivu dát, a snížit si tak nároky na vlastní datové cen-trum,“ radí Nadkarni.

I běžné podniky se už zajímají o použití cloudu pro ukládání a analýzu dat. Asi 20 % šéfů IT dotázaných analytiky IDC uvádí, že se zamě-řili na cloud jako na způsob rozšíření analytic-kých schopností, i když mají k dělání analýz vlastní datová centra.

„Je to hlavně ze dvou důvodů,“ vysvětluje Nad-karni. „Zaprvé tyto projekty často neřídí IT oddě-lení. Zadruhé vzhledem k času na nasazení a zpro-voznění považuje mnoho podnikových oddělení za jednodušší spustit několik instancí v cloudu, což za-bere od pár týdnů po pouhých několik dní.“

Campisi z GE Software tvrdí, že většina zá-kazníků, které podporují, zatím pořád ukládá a analyzuje data ve svém prostředí.

„Přecházíme ale na stále větší využívání clou-dové technologie a schopnosti podporovat tuto stra-tegii,“ popisuje Campisi.

Také Crigler se snaží přijít na to, jak přenést všechna data Catalistu do cloudu. Tato firma již replikuje do tohoto prostředí své databáze, jež odpovídají identitám voličů, „protože je to velké množství dat, které se používá v době, kdy dochází ke špičkám“.

„Ke špičkám dochází čtyři až pět měsíců před volbami. Schopnost rozšířit kapacitu zpracování a využít více disků i procesorů je skutečně důle-žitá,“ vysvětluje Crigler.

Také se snaží najít strategii, která přinese nej-lepší výkon za vynaložené investice při využití tohoto typu dat a potřebě dělat analytické dotazy vůči historickým údajům.

„Je to velká výzva,“ říká Crigler. Například podle něj je služba Amazon Elastic Block pomalá a S3 ještě pomalejší. Nejlepší možností je nej-dražší alternativa – připojené vyhrazené úložiště ve velmi velkých boxech Amazonu, ale to je opravdu drahé.

„Musíte tedy najít způsob, jak svá data analyzo-vat a vypočítat křivku cena/výkon pro různé druhy a stáří dat, a optimalizovat úložiště na základě svých skutečných potřeb,“ dodává Crigler.

Mnoho firem se stále potýká s ranými fázemi svých strategií ukládání big dat, ale zanedlouho budou běžnější hyperškálovatelná výpočetní pro-středí, jako využívají třeba firmy Google nebo Facebook.

„Děje se to,“ prohlašuje Nadkarni. „Celý tento návrh úložiště založený na levných serverech s mnoha disky je přímým důsledkem zvyků oddě-lení, které Amazon, Facebook, Google a další následovaly.“

V Silicon Valley některé startupy nabízejí úložné systémy big dat založené na principech právě od výše zmíněných gigantů. Na nedávné konferenci VMworld „bylo minimálně deset firem se zakladateli, kteří dříve pracovali ve společnos-tech Google nebo Facebook,“ popisuje Nadkarni.

„Z právních důvodů nemohou startupy přesně okopírovat magické řešení využívané jejich dřívěj-ším zaměstnavatelem, ale principy jsou tam už dobře zavedené,“ vysvětluje Nadkarni. „Za pár let uvidíte, jak si tento princip hyperškálovatelnosti nachází cestu do běžných podniků, protože nebude existovat jiný způsob, jak to efektivně udělat.“ ■

CW12-bd4-5.indd VCW12-bd4-5.indd V 20.06.14 14:0520.06.14 14:05

VI CO M P U T E RWO R L D 12 | 2014

Big data nejsou jen chiméra.Zrychlí auto i vylepší přihrávkuJenson Button řadí první rychlostní stupeň, červená světla zhasínají a formule týmu McLaren -Mercedes vyráží do dalšího závodu. Ve stejnou chvíli začnou do datového centra týmu plynout informace z desítek senzorů umístěných v automobilu.

Současné závody Formule 1 jsou sportem, který je extrémně závislý na rychlosti. Už dávno ale ne jen na rychlosti pilotů jednot-

livých monopostů, ale také na tom, jakou rych-lostí dovedou technici týmu vyhodnocovat infor-mace tekoucí z vozu přímo do jejich počítačů. Analyzovat je po závodě a připravovat se na ten další rozhodně nestačí – změny v nastavení auta se musí provést ještě během závodu.

Big data v realitěJiž několik let můžeme ve světě informačních technologií sledovat dva zřejmě nejdůležitější trendy – big data a cloud. I když o nich mluví snad každý, představit si pod nimi něco reálného neumí úplně všichni. Snad i proto řada firem stále váhá, nakolik jsou tyto trendy pro ně důle-žité a co jim mohou přinést. V podstatě se tak samy brání vlastnímu úspěchu. Firma, která dnes nemá dostatek informací o svém podnikání včas, je totiž odsouzena k neúspěchu.

Spojení obou těchto trendů, které přinesla společnost SAP v podobě SAP HANA Enterprise Cloud, umožňuje firmám analyzovat v reálném čase skutečně obrovské množství dat a tyto in-formace okamžitě využít k řízení svého byznysu. Podle odhadů IDC překročil celkový objem dat umístěných v databázích v roce 2013 6 bilionů terabajtů (1 TB = 1 099 511 627 776 bajtů).

Velká část může zůstat ležet bez užitku. Ale nemusí. Příkladem mohou být právě závody For-mule 1 a tým McLaren -Mercedes, který ve své centrále ve Velké Británii implementoval právě platformu SAP HANA Enterprise Cloud. Propo-jení in -memory technologie s cloudem umož-ňuje přímo v centrále společnosti analyzovat te-lemetrická data obou automobilů v reálném čase. I když se jede třeba Velká cena Koreje či Singapuru na opačné straně zeměkoule, mohou technici ve Wokingu nedaleko Londýna jít až do takového detailu, že upraví funkci turbodmycha-dla ve voze některého z jezdců týmu, případně mohou, ve spolupráci s týmem na okruhu, upra-vovat závodní strategii.

Přitom právě v letošním roce prochází For-mule 1 zřejmě největší proměnou za poslední roky. Mění se auta i pravidla. Tým McLaren--Mercedes F1 je ale na tyto novinky díky spolu-práci se SAP připraven. Schopnosti in -memory platformy SAP HANA umožňují proměnit infor-mace ve znalosti rychleji než kdykoli předtím.

A nemusí to pochopitelně platit jen o týmu For-mule 1. Velkými objemy dat dnes disponuje celá řada firem, schopnost je využít může být nejdů-ležitějším faktorem rozhodujícím o úspěchu či neúspěchu.

Technologie vylepší tréninkBig data mohou proměnit i mnohem méně tech-nologické sporty, než je právě Formule 1. Na první pohled by se mohlo zdát, že jedinou tech-nikou, která pomáhá fotbalistům, je ta kopací. Bundesligový tým TSG Hoffenheim se rozhodl, že při získávání informací o tréninku a výkon-nosti svých hráčů nebude spoléhat jen na to, co vidí trenér a jeho asistenti. A tak se spolehli na SAP HANA.

Senzory, které jsou umístěné v míči a které mají jednotliví hráči na těle, ale také v holenních chráničích či v oblečení, umožňují získávat v re-álném čase informace o pohybu jednotlivých hráčů po hřišti, jejich zrychlení či třeba o práci s míčem. Během jediného zápasu posbírají tyto senzory až 60 milionů pozičních informací, které se v reálném čase ukládají na servery SAP HANA a mohou se okamžitě analyzovat a zobrazovat.

Trenéři mají k dispozici data i z fyzické pří-pravy, mohou zjistit, kde jsou slabiny toho kte-rého hráče, a zaměřit se na ně. Stejně tak sa-motní fotbalisté mohou třeba při tréninku v po-silovně okamžitě sledovat na obrazovkách, jak si stojí ve srovnání se zbytkem týmu. Že to je pro sportovce velmi motivační prvek, je asi zbytečné zdůrazňovat.

Nejde ale jen o tréninky hráčů jednoho týmu. SAP spolupracuje také s německou fotbalovou reprezentací. Ta využívá možnosti analýzy ob-rovského množství dat, kterou nabízí SAP HANA, ke zpětné analýze zápasů.

Obrázky z kamer umístěných kolem hrací plochy jsou ukládány na servery a analyzovány po jednotlivých políčkách. Díky tomu je možné získat detailní informace o pohybu každého hráče po hřišti, ale také třeba identifikovat, jaké chyby vedly k obdržené brance.

Často se říká, že hráč během utkání nemá čas přemýšlet, že může jen reagovat. Big data ale mohou pomoci proniknout do našich myšlenko-vých procesů – právě díky nim lze zpětně analy-zovat chování toho kterého hráče v konkrétní si-tuaci a zjistit, kterou vyhodnotil dobře a kdy se naopak rozhodl špatně. Téměř by se dalo říci, že big data nás znají lépe než my sami sebe.

Zažijte fotbal jinakPrávě tyto infor-mace mohou zcela změnit pohled, jaký máme dnes na sle-dování sportovních utkání. Až dosud si musel fanoušek vy-brat mezi komfor-tem televizního pře-nosu a atmosférou na tribuně. Brzy to možná bude jinak. Právě díky úžasným schopnostem, které nabízí SAP HANA

Enterprise Cloud, bude moci každý fanoušek přímo na stadionu sledovat detailní informace o hře na svém telefonu či tabletu. Bude se moci kdykoli podívat, jak si ten který hráč stojí.

Na rozdíl od některých českých klubů týmy v Bundeslize si uvědomují, jak důležití pro ně fa-noušci jsou. I proto se s nimi chtějí podělit o ce-lou řadu zákulisních informací, třeba na sociál-ních sítích. Profesionální tým musí mít profesio-nální komunikaci. S aplikací SAP Social Media Analytics by NetBase mohou lidé zodpovědní za komunikaci identifikovat důležité příspěvky na sociálních sítích, zachytit případné stížnosti fa-noušků v diskuzi nebo třeba poznat, co je za-jímá. ■

Big data na vlastní očiAnalýzu hráčů německé reprezentace můžete vidět na vlastní oči. A dokonce v kamiónu, který jinak pře-váží vozy Formule 1. Do Česka totiž dorazí SAP Big Data Truck. K vidění v něm bude samozřejmě i celá řada dalších příkladů, jak mohou big data posloužit právě vašemu byznysu. Vice informací získáte na ad-rese: www.sap.com/ms/sap -big -data -tour.html

CW12-bd6.indd VICW12-bd6.indd VI 20.06.14 14:1820.06.14 14:18

CO M P U T E RWO R L D.C Z VII

▶

PRAXE | BIG DATA

V poslední době se technologii big dat věnuje velká pozornost. Nabízela se jako možné řešení pro všechno – od detekce narušení přes předcházení podvodům až po léčbu rakoviny či stanovení optimálních cen produktů. Big data však nejsou všelékem na každý problém.

Deset rozšířených mýtů: Jaká je skutečnost?

MARIA KOROLOVOVÁ

Pokud firmy věří v některé mýty, které big data obklopují, mohly by se kvůli tomu vy-dat špatným směrem, ztratit mnoho času

a peněz a mohlo by je to stát jejich konkurenční postavení na trhu nebo poškodit jejich pověst.

Zde jsou některé z největších mýtů, které se okolo big dat stále točí.

MÝTUS 1Big data zvládnou jen datoví vědciVe skutečnosti samotní datoví

vědci nestačí. „Samotní tito lidé nedokážou z big dat informace získávat, pokud v první řadě nevědí, co hledají,“ upozorňuje Pat Farrell, šéf pro ana-lýzy dat ve zdravotnickém ekosystému Penn Me-dicine. „Potřebujete specializované pracovníky, kteří oboru rozumějí, mají znalosti z dotyčné ob-lasti, chápou možné otázky a pohledy, které by pro váš konkrétní obor byly cenné.“

Zmíněný Penn Medicine zahrnuje jak sa-motný systém zdravotní péče, tak lékařskou univerzitu.

Prvně jmenovaná divize po dlouhou dobu shromažďuje klinická data ve svém datovém skladu, na její univerzitě zase nová technologie umožňuje dekódování lidského genomu, které s sebou nese obrovské množství dat.

„Víme, že tam někde uvnitř se skrývá poklad, a konečně máme výpočetní výkon, abychom se k němu dostali,“ říká Farrell a dodává, že kombi-nace analýzy dat s odbornými lékařskými zna-lostmi otevírá zcela novou oblast prediktivního zdravotnictví.

MÝTUS 2Čím více dat, tím větší hodnotaShromažďování dat, jejich ukládání

a katalogizace vyžadují čas a zdroje, připomíná Farrell. Bezhlavý sběr velkého množství údajů ale může vytížit zdroje, které byste jinak použili na důležitější projekty.

Farrell proto doporučuje, aby společnosti měly dříve, než začnou data sbírat, jasnou před-stavu konkrétní metriky nebo klíčového ukaza-tele výkonu, které požadují.

„Chcete se dostat do bodu, kdy máte hrst plnou zlatých valounů – moudrosti, jež je pro vás cenná,“ vysvětluje Farrell. „Samotná uložená data nestačí.“

MÝTUS 3Big data jsou jen pro velké společnostiVětší firmy mohou mít více vnitř-

ních zdrojů dat, ale i malé organizace mohou efektivně využít data pocházející ze sociálních sítí, od vládních úřadů a dodavatelů dat.

„Nehledě na velikost vaší organizace je lepší, abyste se rozhodovali na základě dat a nespoléhali se jen na intuici či pocity,“ radí Darin Bartik, výkonný ředitel produktového managementu divize Information Management Solutions ve společnosti Dell.

Menší podniky mohou dělat rozhodnutí na základě dat méně často než ty velké, ale zase mo-hou svůj směr korigovat rychleji.

„Menší společnosti mohou využívat osvědčené postupy, aby lépe využily data k rozhodování a pře-konaly či takticky porazily větší a pomalejší konku-renci,“ vysvětluje Bartik.

MÝTUS 4Všechna data se vytvořila stejněStátní úřad ve Virginii posledních

20 let shromažďuje data o zapsaných studen-tech, stipendiích a diplomech. Neznamená to ale, že údaje shromážděné před 20 lety a ulo-žené ve stejném datovém poli nutně obsahují stejná data.

„Největším problémem je chápání dat – protože jde o encyklopedická data, výzkumníci si myslí, že se získala podle stejných pravidel,“ vysvětluje Tod Massa, ředitel datových skladů a výzkumu pravi-del tamější Rady vysokých škol.

Například data o výsledcích standardních stu-dentských testů se původně sbírala jen za místní studenty, potom došlo k pauze a nakonec se shromažďují i za ty, kteří pocházejí ze zahraničí. Podobně se rozdílně sledují údaje o etnické příslušnosti.

Ve skutečnosti se mohou libovolná data na-hlásit odlišně – z důvodu existence jiné insti-tuce, jiného období nebo v důsledku změn per-sonálu v těchto organizacích. „Domnívám se, že se smysl dat v průběhu času mění,“ upozorňuje Massa.

V důsledku toho je potřeba, aby analytici měli nejen statistické schopnosti, ale také znalosti dat a trendů v oboru jako celku. „Nemůžete všechny tyto záležitosti naprogramovat do datového skladu,“ dodává Massa.

Totéž platí i pro externí zdroje dat. „Údaje shromažďované v průběhu například posledních 50 let se mohou dramaticky změnit. Pochopení kon-textu je pro dobré využití dat skutečně nezbytné,“ upozorňuje Massa.

MÝTUS 5Nasbírejte teď a přeberte pozdějiÚložiště jsou stále levnější, ale ne-

jsou úplně zadarmo. Mnoha firmám však roste chuť na data rychleji, než jak klesají ceny úlo-žišť, prohlašuje Brad Peters, výkonný ředitel spo-lečnosti Birst, která je dodavatelem cloudového řešení business intelligence.

Firmy si myslí, že budou sbírat data a teprve později přijdou na to, co s nimi budou moci dě-

CW12-bd7-8.indd VIICW12-bd7-8.indd VII 20.06.14 14:0620.06.14 14:06

BIG DATA | PRAXE

VIII CO M P U T E RWO R L D 12 | 2014

lat, popisuje Peters a dodává: „Vidím řadu velkých korporací shromažďujících kvanta údajů, jejichž náklady pro tuto činnost stále rostou, a přitom jim to nepřináší žádnou hodnotu.“

Ve skutečnosti podle Peterse u některých množin dat začíná platit zákon klesajících vý-nosů. Řekněme například, že děláte průzkum, abyste dokázali odhadnout výsledek voleb.

Potřebujete pro reprezentativní vzorek získat určitý počet lidí. Po dosažení tohoto bodu ale už přidávání dalších lidí statistickou odchylku vý-znamně neovlivní.

„Ukládáte spoustu dat s nadějí, že vám poskyt-nou o něco vyšší přesnost?“ ptá se Peters. „Nebo pořizujete více personálu? Zabezpečujete lépe své sítě? Nepostupujete moc rychle z důvodu nedosta-tečného růstu ekonomiky a rozpočtů.“

Nejsou to ale jen náklady na úložiště, jak upo-zorňuje Dean Gonsowski, ředitel pro správu in-formací a big data z firmy Recommind, která se specializuje na analýzy nestrukturovaných dat. Například únik dat může podle něj společnost značně poškodit.

Data uložená v datových skladech mohou být navíc předmětem různých důkazů na základě rozličných soudních sporů.

A konečně – čím více dat máte, tím déle trvá jejich přebrání. „Když jsou v archivu miliardy zá-znamů, trvá vyhledávání odpovídajících informací hodiny nebo i týdny,“ popisuje Gonsowski a do-dává: „Velké množství informací skutečně začíná blokovat činnost systémů, které se nikdy nevytvá-řely pro zvládání takových objemů.“

MÝTUS 6Čím konkrétnější prognóza, tím lépeJe lidská přirozenost myslet si, že

když je něco konkrétnější, je to také přesnější. Časový údaj 15 h 12 min. je přesnější než „někdy odpoledne“. Meteorolog, který předpovídá, že v neděli ráno bude určitě pršet, je přesnější než ten, který předpovídá „padesátiprocentní šanci na přeháňky o víkendu“.

Ve skutečnosti je ale pravdou opak. V mnoha situacích platí, že přesnější předpověď je méně pravděpodobná. Řekněme například, že zákaz-ník koupí zcela konkrétní notebook s jasnou konfigurací. A jediný další klient, který si pro-dukt s naprosto stejnou konfigurací koupil v mi-nulosti, si přibral k nákupu také pár růžových lo-diček na jehlovém podpatku.

„Doporučení pro prodejce růžových lodiček na jehlách může být velmi konkrétní, ale může mít vel-kou statistickou odchylku,“ upozorňuje Jerry Jao, výkonný ředitel v marketingové organizaci Re-tention Science. Obchodní a marketingoví ma-nažeři se ale podle něj s tímto stavem setkávají zcela běžně.

MÝTUS 7Big data jsou totéž jako HadoopHadoop, populární open source da-

tabáze pro nestrukturovaná data, poutá velkou pozornost. Jsou zde ale také i jiné možnosti.

„Existuje celé hnutí NoSQL,“ popisuje Irfan Khan, šéf a viceprezident divize Big Data ve spo-lečnosti SAP. „Jsou zde technologie jako MongoDB, Cassandra a řada dalších.“

Některé z nich se mohou pro konkrétní pro-jekt big dat hodit lépe než ostatní.

Konkrétně Hadoop funguje tak, že rozdělí data na části a pracuje na více úsecích současně. Tento přístup řeší mnoho problémů big dat, ale ne všechny.

„Někdy musíte záležitost zvládnout způsobem, pro který Hadoop není ideální,“ upozorňuje Grant Ingersoll, technologický ředitel společnosti Lu-cidWorks, která poskytuje poradenství pro big data. „Lidé potřebují zachovat rozvahu a vybrat pro sebe nejlepší řešení, ne se nechat zlákat popularitou toho, co používají ostatní,“ dodává Ingersoll.

MÝTUS 8Big data se hodí jen na velké problémyŘeditel IT ve velké bance nedávno

hovořil o technologii pro big data a dostal otázku na možnost samoobslužného využití koncovými uživateli. „Uvedl, že mu to nepřipadá možné,“ vzpomíná Peters ze společnosti Birst.

Je zcela běžné, že si někteří manažeři myslí, že technologie pro big data dokáže odpovědět jen na určité typy otázek.

Takový přístup lze shrnout následujícími slovy: „Naším cílem využití big dat je vyřešit jen ně-kolik málo problémů s velmi vysokou hodnotou s využitím práce datových vědců. Nechceme datový chaos, kde přístup k těmto informacím mají i běžní lidé, protože si nemyslíme, že to potřebují.“

Peters ale s tímto přístupem nesouhlasí a do-dává, že je přitom v mnoha oborech běžný. „Je to rozbujelý mýtus uvnitř hlavně velkých pojišťovacích společností, že podnikoví uživatelé prý nejsou dost chytří, aby to zvládli.“

MÝTUS 9Koncoví uživatelé nepotřebují přímý přístup k technologii big dat

Rychlý přísun big dat z různých zdrojů a ve vel-kých objemech může vytvářet dojem, že je to příliš složité na to, aby s touto technologií mohl pracovat i běžný zaměstnanec. Nemusí to však nutně být pravda.

Vezměte si například všechny údaje získané z přístrojů na jednotce intenzivní péče. Srdeční frekvence, údaje o dýchání a výsledky EKG. Lé-kaři a zdravotní sestry mohou příliš často vidět jen aktuální naměřené hodnoty pacienta.

„Nemohou se podívat a vidět, jaké to bylo před deseti minutami, nebo pomocí grafu odhadnout to, co bude za hodinu,“ popisuje Anthony Jones, marketingový ředitel společnosti Philips Healthcare.

Možnost vidět historická data pacienta může být pro lékaře při rozhodování velmi cenná. „Lpění na týmu datových vědců může v tomto pří-padě způsobit ztrátu velké příležitosti,“ varuje Jones.

V současné době je potřeba zajistit, aby všechna ta různá zařízení generující data spolu komunikovala, přestože k tomu původně nebyla navržená, a používají se různé platformy, ope-rační systémy a programovací jazyky.

Jakmile se vám to podaří, musíte data dostat do použitelné podoby a zpřístupnit je například zmíněným lékařům a zdravotním sestrám v oka-mžiku, když je potřebují.

MÝTUS 10Bublina big dat nakonec praskneHumbuk v podobě různých mód-

ních technologií se v cyklech objevuje a zase mizí, ale transformační změny zůstávají. Inter-netová bublina praskla – ale neznamenalo to přece konec samotného internetu.

A i když humbuk časem utichne, podniky bu-dou i dále big data využívat. Ve skutečnosti bu-dou v důsledku exponenciálního růstu využívat big data ve větší míře, než kdy předpokládaly – například IDC předpovídá, že celkové množství shromažďovaných údajů se do roku 2020 každé dva roky zdvojnásobí.

Nejde ale jen o to, že firmy budou shromaž-ďovat více údajů, než sbírají v současné době. Objeví se pravděpodobně nové typy dat, která budou vyžadovat obrovské množství úložného prostoru.

„Dostaneme se do bodu, kdy se například u každé osoby přijímané do nemocnice bude mapo-vat její genom,“ tvrdí Anthony Jones z Philips He-althcare. „To umožní detailní přizpůsobení péče o pacienta. Když mluvíme o big datech, jde o obrov-ské množství dat. Nemyslím, že si mnoho šéfů IT opravdu uvědomuje, o kolik se zhorší situace okolo úložišť.“

Tím, že firmy budou považovat big data za pouhou fázi, mohou ztratit příležitost zachytit údaje, které by mohly mít na jejich podnikání vliv v budoucnu, varuje Bryan Hill, technolo-gický ředitel společnosti Cadient Group, která se specializuje na interaktivní marketing.

„Význam pojmu big data se pravděpodobně změní, stejně jako je tomu u cloud computingu, a nijak se to neliší od toho, co se stalo s webem či samotným internetem,“ vysvětluje Hill. „Pojem se může změnit, ale smysl big dat zůstane.“ ■

Význam pojmu big data se pravděpodobně změní stejně, jako je tomu u cloud computingu, a nijak se to neliší od toho, co se stalo s webem či samotným internetem. Pojem se může změnit, ale smysl big dat zůstane.BRYAN HILL, TECHNOLOGICKÝ ŘEDITEL, CADIENT GROUP

CW12-bd7-8.indd VIIICW12-bd7-8.indd VIII 20.06.14 14:0620.06.14 14:06

Documents

ZVLÁŠTNÍ NEPRODEJNÁ PŘÍLOHA | ČERVEN 2014 …ZVLÁŠTNÍ NEPRODEJNÁ PŘÍLOHA | ČERVEN 2014Bigdata 2014 pro efektivnější byznys Získejte z big dat hodnotné informace