Programiranje

Kaj je analitika velikih podatkov? Hitri odgovori iz različnih naborov podatkov

Obstajajo podatki in potem so veliki podatki. Torej, v čem je razlika?

Opredeljeni veliki podatki

Jasne definicije velikih podatkov je težko določiti, ker lahko veliki podatki zajemajo številne primere uporabe. Toda na splošno se izraz nanaša na nabore podatkov, ki so tako obsežni in tako zapleteni, da tradicionalni programski izdelki za obdelavo podatkov ne morejo zajeti, upravljati in obdelati podatkov v razumnem času.

Ti nabori velikih podatkov lahko vključujejo strukturirane, nestrukturirane in polstrukturirane podatke, od katerih je vsak mogoče pridobiti za vpogled.

O tem, koliko podatkov dejansko predstavljajo „velike“, je mogoče razpravljati, vendar so tipično lahko v več petabajtih - in za največje projekte v območju egzabajtov.

Za velike podatke so pogosto značilni trije V-ji:

  • skrajnost glasnost podatkov
  • široko raznolikost vrst podatkov
  • hitrost pri kateri je treba podatke obdelati in analizirati

Podatki, ki predstavljajo velike podatkovne shrambe, lahko prihajajo iz virov, ki vključujejo spletna mesta, družabna omrežja, namizne in mobilne aplikacije, znanstvene poskuse ter - vse pogosteje - senzorje in druge naprave na internetu stvari (IoT).

Koncept velikih podatkov vsebuje vrsto povezanih komponent, ki organizacijam omogočajo, da podatke uporabijo v praksi in rešijo številne poslovne probleme. Sem spadajo IT-infrastruktura, potrebna za podporo velikim podatkovnim tehnologijam, analitika, uporabljena za podatke; platforme za velike podatke, potrebne za projekte, povezane sklope spretnosti in dejanske primere uporabe, ki so smiselni za velike podatke.

Kaj je podatkovna analitika?

V resnici prinaša vrednost vsem organizacijam, ki zbirajo velike podatke, je analitika, ki se uporablja za podatke. Brez analitike, ki vključuje pregledovanje podatkov za odkrivanje vzorcev, korelacij, vpogledov in trendov, so podatki le en kup in nič z omejeno poslovno uporabo.

Z uporabo analitike za velike podatke lahko podjetja vidijo prednosti, kot so večja prodaja, izboljšana storitev za stranke, večja učinkovitost in splošen dvig konkurenčnosti.

Podatkovna analitika vključuje preučevanje naborov podatkov, da bi dobili vpogled ali sklepali, kaj vsebujejo, na primer trende in napovedi o prihodnjih dejavnostih.

Z analiziranjem informacij z uporabo orodij za analizo velikih podatkov lahko organizacije sprejmejo bolje informirane poslovne odločitve, na primer, kdaj in kje voditi tržno kampanjo ali predstaviti nov izdelek ali storitev.

Analitika se lahko nanaša na osnovne aplikacije poslovne inteligence ali bolj napredne napovedne analitike, kakršne uporabljajo znanstvene organizacije. Med najnaprednejšimi vrstami podatkovne analitike je podatkovno rudarjenje, kjer analitiki ocenjujejo velike nabore podatkov, da bi ugotovili razmerja, vzorce in trende.

Podatkovna analitika lahko vključuje raziskovalno analizo podatkov (za prepoznavanje vzorcev in odnosov v podatkih) in potrditveno analizo podatkov (z uporabo statističnih tehnik, da ugotovimo, ali je predpostavka o določenem naboru podatkov resnična.

Druga razlika je kvantitativna analiza podatkov (ali analiza numeričnih podatkov, ki imajo merljive spremenljivke, ki jih je mogoče statistično primerjati), in kvalitativna analiza podatkov (ki se osredotoča na neštevilčne podatke, kot so video, slike in besedilo).

IT infrastruktura za podporo velikih podatkov

Da bi koncept velikih podatkov deloval, morajo organizacije imeti vzpostavljeno infrastrukturo za zbiranje in hrambo podatkov, dostop do njih in zaščito informacij med shranjevanjem in prenosom. To zahteva uvedbo orodij za analizo velikih podatkov.

Na visoki ravni to vključuje sisteme za shranjevanje in strežnike, zasnovane za velike podatke, programsko opremo za upravljanje in integracijo podatkov, programsko opremo za poslovno inteligenco in analitiko podatkov ter aplikacije za velike podatke.

Velik del te infrastrukture bo verjetno v krajih, saj si podjetja še naprej prizadevajo za vlaganje v svoje podatkovne centre. Toda organizacije se vedno bolj zanašajo na storitve računalništva v oblaku, da bi lahko rešile večino svojih potreb po velikih podatkih.

Za zbiranje podatkov je treba imeti vire za zbiranje podatkov. Številne od njih - na primer spletne aplikacije, kanali v družabnih omrežjih, mobilne aplikacije in e-poštni arhivi - že obstajajo. Ko pa se IoT zasidra, bodo morda podjetja morala zbirati senzorje na vseh vrstah naprav, vozil in izdelkov za zbiranje podatkov, pa tudi na nove aplikacije, ki ustvarjajo uporabniške podatke. (IoT-usmerjena analitika velikih podatkov ima svoje posebne tehnike in orodja.)

Za shranjevanje vseh dohodnih podatkov morajo organizacije imeti na voljo ustrezno shranjevanje podatkov. Med možnostmi shranjevanja so tradicionalna podatkovna skladišča, podatkovna jezera in shranjevanje v oblaku.

Orodja varnostne infrastrukture lahko vključujejo šifriranje podatkov, preverjanje pristnosti uporabnikov in druge kontrole dostopa, nadzorne sisteme, požarne zidove, upravljanje mobilnosti podjetja in druge izdelke za zaščito sistemov in podatkov,

Tehnologije velikih podatkov

Poleg omenjene IT infrastrukture, ki se na splošno uporablja za podatke. Obstaja več tehnologij, specifičnih za velike podatke, ki bi jih morala podpirati vaša IT infrastruktura.

Hadoop ekosistem

Hadoop je ena izmed tehnologij, ki je najbolj povezana z velikimi podatki. Projekt Apache Hadoop razvija odprtokodno programsko opremo za razširljivo porazdeljeno računalništvo.

Programska knjižnica Hadoop je ogrodje, ki omogoča porazdeljeno obdelavo velikih naborov podatkov med skupinami računalnikov z uporabo preprostih programskih modelov. Zasnovan je tako, da se od enega strežnika poveča na tisoče, od katerih vsak ponuja lokalno računanje in shranjevanje.

Projekt vključuje več modulov:

  • Hadoop Common, običajni pripomočki, ki podpirajo druge module Hadoop
  • Distribuirani datotečni sistem Hadoop, ki omogoča visoko zmogljiv dostop do podatkov aplikacije
  • Hadoop YARN, ogrodje za razporejanje delovnih mest in upravljanje virov grozda
  • Hadoop MapReduce, sistem YARN za vzporedno obdelavo velikih naborov podatkov.

Apache Spark

Apache Spark, del ekosistema Hadoop, je odprtokodni ogrodje za računalništvo grozdov, ki služi kot motor za obdelavo velikih podatkov v Hadoopu. Spark je postal eden ključnih okvirov za obdelavo podatkov, ki se distribuira z velikimi podatki in ga je mogoče uporabiti na različne načine. Ponuja izvorne vezave za programske jezike Java, Scala, Python (zlasti distribucijski sistem Anaconda Python) in R (R je še posebej primeren za velike podatke) in podpira SQL, pretakanje podatkov, strojno učenje in obdelavo grafov.

Podatkovna jezera

Podatkovna jezera so skladišča, ki hranijo izredno velike količine surovih podatkov v izvorni obliki, dokler jih poslovni uporabniki ne potrebujejo. Pobude za digitalno preoblikovanje in rast interneta stvari pomagajo spodbuditi rast podatkovnih jezer. Podatkovna jezera so zasnovana tako, da uporabnikom olajšajo dostop do velikih količin podatkov, ko se pojavi potreba.

Baze podatkov NoSQL

Konvencionalne zbirke podatkov SQL so namenjene zanesljivim transakcijam in priložnostnim poizvedbam, vendar imajo omejitve, kot je toga shema, zaradi katere so manj primerne za nekatere vrste aplikacij. Podatkovne baze NoSQL obravnavajo te omejitve ter podatke shranjujejo in upravljajo na načine, ki omogočajo visoko operativno hitrost in veliko prilagodljivost. Mnoga so razvila podjetja, ki so iskala boljše načine za shranjevanje vsebine ali obdelavo podatkov za množična spletna mesta. V nasprotju s podatkovnimi bazami SQL je veliko baz podatkov NoSQL mogoče vodoravno prilagoditi na stotine ali tisoče strežnikov.

Podatkovne baze v pomnilniku

Baza podatkov v pomnilniku (IMDB) je sistem za upravljanje baz podatkov, ki se za shranjevanje podatkov v prvi vrsti opira na glavni pomnilnik in ne na disk. Podatkovne baze v pomnilniku so hitrejše od podatkovno baz, optimiziranih za disk, kar je pomemben dejavnik pri uporabi analitike velikih podatkov in ustvarjanju podatkovnih skladišč in podatkovnih kart.

Velike podatkovne spretnosti

Prizadevanja za velike podatke in analitiko velikih podatkov zahtevajo posebne spretnosti, ne glede na to, ali prihajajo iz organizacije ali prek zunanjih strokovnjakov.

Mnoge od teh veščin so povezane s ključnimi komponentami velike podatkovne tehnologije, kot so Hadoop, Spark, zbirke podatkov NoSQL, podatkovne baze v pomnilniku in analitična programska oprema.

Drugi so specifični za discipline, kot so znanost o podatkih, rudarjenje podatkov, statistična in kvantitativna analiza, vizualizacija podatkov, splošno programiranje ter struktura in algoritmi podatkov. Ljudje s splošnimi vodstvenimi veščinami morajo tudi videti projekte velikih podatkov do konca.

Glede na to, kako pogosti so postali projekti za analizo velikih podatkov in pomanjkanje ljudi s tovrstnimi znanji, bi lahko bil iskanje izkušenih strokovnjakov eden največjih izzivov za organizacije.

Primeri uporabe analitike velikih podatkov

Veliki podatki in analitika se lahko uporabljajo za številne poslovne težave in primere uporabe. Tu je nekaj primerov:

  • Analitika strank. Podjetja lahko preučijo podatke o strankah, da izboljšajo izkušnjo strank, izboljšajo stopnje konverzije in povečajo hrambo.
  • Operativna analitika. Izboljšanje operativne uspešnosti in boljša uporaba premoženja podjetja sta cilja mnogih podjetij. Orodja za analizo velikih podatkov lahko podjetjem pomagajo najti načine za učinkovitejše poslovanje in izboljšanje učinkovitosti.
  • Preprečevanje goljufij. Orodja in analiza velikih podatkov lahko organizacijam pomagajo prepoznati sumljive dejavnosti in vzorce, ki bi lahko nakazovali goljufivo vedenje, ter pomagajo ublažiti tveganja.
  • Optimizacija cen. Podjetja lahko z analitiko velikih podatkov optimizirajo cene, ki jih zaračunavajo za izdelke in storitve, kar pomaga povečati prihodek.