Hitri podatki: naslednji korak po velikih podatkih

Veliki podatki postanejo veliki s pomočjo nenehnega toka dohodnih podatkov. V obsežnih okoljih podatki prihajajo z neverjetnimi hitrostmi, vendar jih je še vedno treba analizirati in shraniti.

John Hugg, arhitekt programske opreme pri VoltDB, predlaga, da smo namesto da bi preprosto shranili te podatke, ki jih bomo pozneje analizirali, morda prišli do točke, ko jih je mogoče analizirati, ko jih zaužijemo, obenem pa ohranjamo izjemno visoke stopnje vnosa z orodji, kot je Apache Kafka.

- Paul Venezia

Pred manj kot desetimi leti si skorajda ni bilo mogoče predstavljati, da bi analizirali petabajte zgodovinskih podatkov s pomočjo blagovne strojne opreme. Danes so gruče Hadoop, zgrajene iz tisočih vozlišč, skoraj običajne. Odprtokodne tehnologije, kot je Hadoop, so znova zamislile, kako učinkovito obdelati petabajte na petabajtih podatkov z uporabo blaga in virtualizirane strojne opreme, tako da je bila ta sposobnost razvijalcem povsod na voljo poceni. Posledično se je pojavilo področje velikih podatkov.

Podobna revolucija se dogaja s tako imenovanimi hitrimi podatki. Najprej določimo hitre podatke. Velike podatke pogosto ustvarijo podatki, ki se ustvarijo z neverjetno hitrostjo, kot so podatki o pretočnem kliku, podatki o finančnih oznakah, združevanje dnevnikov ali podatki senzorjev. Pogosto se ti dogodki zgodijo od tisoč do deset tisočkrat na sekundo. Ni čudno, da se ta vrsta podatkov običajno imenuje "požarna cev".

Ko govorimo o gasilskih ceveh za velike podatke, ne merimo prostornine v tipičnih gigabajtih, terabajtih in petabajtih, ki so znani v podatkovnih skladiščih. Glasnost merimo s časom: število megabajtov na sekundo, gigabajtov na uro ali terabajtov na dan. Govorimo o hitrosti in prostornini, ki je bistvo razlike med velikimi podatki in podatkovnim skladiščem. Veliki podatki niso samo veliki; je tudi hitro.

Prednosti velikih podatkov se izgubijo, če se sveži, hitro premikajoči se podatki iz gasilske cevi odvržejo v HDFS, analitični RDBMS ali celo ploščate datoteke, ker je njihova sposobnost ukrepanja ali opozarjanja zdaj, ko se stvari dogajajo, je izgubljen. Požarna cev predstavlja aktivne podatke, takojšnje stanje ali podatke s stalnim namenom. Skladišče podatkov je nasprotno način iskanja zgodovinskih podatkov za razumevanje preteklosti in napovedovanje prihodnosti.

Delovanje glede na podatke, ki jih prispejo, je bilo drago in nepraktično, če ne celo nemogoče, zlasti na osnovni strojni opremi. Tako kot vrednost v velikih podatkih se tudi vrednost v hitrih podatkih odklene s prenovljeno implementacijo čakalnih vrst sporočil in sistemi za pretakanje, kot sta odprtokodna Kafka in Storm, ter s prenovljeno implementacijo zbirk podatkov z uvedbo odprtokodnih ponudb NoSQL in NewSQL .

Zajemanje vrednosti v hitrih podatkih

Za obdelavo podatkov, ki prispejo na desettisoče do milijone dogodkov na sekundo, boste potrebovali dve tehnologiji: prvič, pretočni sistem, ki lahko dostavi dogodke tako hitro, kot pridejo; in drugič, shramba podatkov, ki lahko obdela vsak element tako hitro, kot prispe.

Dostava hitrih podatkov

Kafka je bila zasnovana kot vrsta sporočil in za reševanje zaznanih težav obstoječih tehnologij. To je neka vrsta über-čakalne vrste z neomejeno razširljivostjo, porazdeljenimi namestitvami, večnamenskostjo in močno vztrajnostjo. Organizacija bi lahko razporedila en grozd Kafka, da bi zadovoljila vse svoje potrebe čakalnih sporočil. Kljub temu Kafka prinaša sporočila. Ne podpira obdelave ali kakršnih koli poizvedb.

Morda vam bo všeč tudi