Programiranje

Apache Eagle spremlja uporabo velikih podatkov

Apache Eagle, ki je bil prvotno razvit na eBayu, nato pa podarjen fundaciji Apache Software Foundation, zapolnjuje veliko varnostno nišo, ki je še vedno redko poseljena, če ne celo gola: z velikimi podatkovnimi okviri izsrka morebitne težave z varnostjo in zmogljivostjo.

Za to Eagle uporablja druge odprtokodne komponente Apache, kot so Kafka, Spark in Storm, za generiranje in analizo modelov strojnega učenja iz vedenjskih podatkov grozdov velikih podatkov.

Pogled od znotraj

Podatki za Eagle lahko prihajajo iz dnevnikov dejavnosti za različne vire podatkov (HDFS, Hive, MapR FS, Cassandra) ali iz meritev uspešnosti, pridobljenih neposredno iz ogrodja, kot je Spark. Podatke lahko nato sistem Kafka pretaka v sistem za zaznavanje v realnem času, ki je vgrajen z Apache Storm, ali v sistem za usposabljanje modelov, zgrajen na Apache Spark. Prvi za ustvarjanje opozoril in poročil na podlagi obstoječih pravilnikov; slednji je namenjen ustvarjanju modelov strojnega učenja za vodenje novih politik.

Ta poudarek na vedenju v realnem času je na vrhu seznama "ključnih lastnosti" v dokumentaciji za Eagle. Sledijo »razširljivost«, »metapodatki« (kar pomeni, da se spremembe pravilnikov uvedejo samodejno, ko se spremenijo njihovi metapodatki) in »razširljivost«. To zadnje pomeni, da vire podatkov, opozorilne sisteme in mehanizme pravilnikov, ki jih uporablja Eagle, dobavljajo vtičniki in niso omejeni na to, kar je v škatli.

Ker je bil Eagle sestavljen iz obstoječih delov sveta Hadoop, ima dve teoretični prednosti. Prvič, manj je novih izumov kolesa. Drugič, tisti, ki že imajo izkušnje z zadevnimi kosi, bodo imeli nogo gor.

Kaj delajo moji ljudje?

Poleg zgoraj omenjenih primerov uporabe, kot sta analiza uspešnosti dela in spremljanje nepravilnega vedenja, lahko Eagle analizira tudi vedenja uporabnikov. Tu ne gre recimo za analizo podatkov iz spletne aplikacije, da bi se seznanili z javnimi uporabniki aplikacije, temveč za uporabnike samega okvira za velike podatke - ljudi, ki gradijo in upravljajo Hadoop ali Spark back end. Vključen je primer, kako zagnati takšno analizo in jo lahko uporabimo takšno, kot je ali spremenjeno.

Eagle omogoča tudi razvrščanje dostopa do podatkov aplikacije glede na stopnjo občutljivosti. Trenutno lahko to funkcijo uporabljajo samo aplikacije HDFS, Hive in HBase, vendar je v interakciji z njimi model, kako bi lahko razvrstili tudi druge vire podatkov.

Naj bo to pod nadzorom

Ker so okviri za velike podatke hitro ustvarjajoče se stvaritve, je bilo težko zgraditi zanesljivo varnost okoli njih. Eagleova predpostavka je, da lahko zagotavlja analizo in opozarjanje na podlagi politik kot možno dopolnilo drugim projektom, kot je Apache Ranger. Ranger zagotavlja preverjanje pristnosti in nadzor dostopa v Hadoopu in z njim povezanih tehnologijah; Eagle vam predstavi, kaj ljudje počnejo, ko jim dovolijo noter.

Največje vprašanje, ki se vije nad prihodnostjo Eagle - da, tudi to že zgodaj - je, v kolikšni meri ga bodo prodajalci Hadoop elegantno uvrstili v obstoječe distribucije ali uporabili lastne varnostne ponudbe. Varnost in upravljanje podatkov sta že dolgo ena od manjkajočih kosov, s katerimi bi lahko konkurirali komercialne ponudbe.

$config[zx-auto] not found$config[zx-overlay] not found