Programiranje

Pregled Qubole: Samopostrežna analitika velikih podatkov

Qubole, ki izhaja iz oblačne podatkovne platforme za analitiko, umetno inteligenco in strojno učenje, ponuja rešitve za sodelovanje strank, digitalno preobrazbo, izdelke, ki temeljijo na podatkih, digitalno trženje, posodobitev in varnostno obveščanje. Zahteva hiter čas za vrednotenje, podporo za več oblakov, 10-kratno produktivnost skrbnika, razmerje med operaterji in uporabnikom 1: 200 in nižje stroške v oblaku.

Na podlagi mojih kratkih izkušenj s platformo Qubole dejansko naredi integriranje številnih odprtokodnih orodij in nekaj lastniških orodij za ustvarjanje samopostrežne izkušnje z velikimi podatki, ki temelji na oblaku, za analitike podatkov in podatkovne inženirje in podatkovni znanstveniki.

Qubole vas popelje od ETL skozi raziskovalno analizo podatkov in izdelavo modelov do uvajanja modelov na proizvodni ravni. Medtem avtomatizira številne operacije v oblaku, na primer zagotavljanje in spreminjanje virov, ki sicer zahtevajo veliko časa skrbnika. Ali bo ta avtomatizacija dejansko omogočila 10-kratno povečanje produktivnosti skrbnika ali razmerje med operaterjem in uporabnikom 1: 200 za katero koli določeno podjetje ali primer uporabe, ni jasno.

Qubole se nagiba k pojmu "aktivni podatki". V bistvu ima večina podatkovnih jezer - ki so v bistvu shrambe datotek, napolnjene s podatki iz številnih virov, vse na enem mestu, ne pa v eni bazi podatkov - majhen odstotek podatkov, ki se aktivno uporabljajo za analizo. Qubole ocenjuje, da je večina podatkovnih jezer 10% aktivnih in 90% neaktivnih, in napoveduje, da lahko to razmerje spremeni.

Med tekmece Qubole spadajo Databricks, AWS in Cloudera. Obstajajo številni drugi izdelki, ki tekmujejo le nekaj Qubolejevih funkcij.

Databricks gradi prenosnike, nadzorne plošče in delovna mesta na vrhu upravitelja gruč in Sparka; Ko sem ga leta 2016 pregledal, se mi je zdel koristna platforma za podatkovne znanstvenike. Databricks je nedavno odprl svoj izdelek Delta Lake, ki ponuja transakcije ACID, prilagodljivo obdelavo metapodatkov ter enotno pretakanje in serijsko obdelavo podatkov do podatkovnih jezer, da so bolj zanesljivi. in jim pomagati pri hranjenju analize Spark.

AWS ima široko paleto podatkovnih izdelkov in v resnici Qubole podpira integracijo z mnogimi od njih. Cloudera, ki zdaj vključuje Hortonworks, ponuja storitve skladišča podatkov in strojnega učenja ter storitev podatkovnega vozlišča. Qubole trdi, da tako Databricks kot Cloudera nimata finančnega upravljanja, vendar lahko upravljanje izvajate sami na ravni enega oblaka ali z uporabo izdelka za upravljanje v več oblakih.

Kako Qubole deluje

Qubole vsa svoja orodja integrira v oblačno in brskalniško okolje. O delih okolja bom razpravljal v naslednjem poglavju tega članka; v tem poglavju se bom osredotočil na orodja.

Qubole izvaja nadzor stroškov v okviru upravljanja grozdov. Določite lahko, da grozdi uporabljajo določeno mešanico vrst primerkov, vključno s točkovnimi primerki, ko so na voljo, ter najmanjše in največje število vozlišč za samodejno skaliranje. Določite lahko tudi, koliko časa se bo katera še naprej izvajala brez obremenitve, da se izognete primerkom zombija.

Iskra

V avgustovskem članku "Kako Qubole obravnava izzive Apache Spark" direktor Qubole Ashish Thusoo razpravlja o prednostih in pasti Sparka ter o tem, kako Qubole sanira težave, kot so konfiguracija, zmogljivost, stroški in upravljanje virov. Spark je ključna komponenta Qubole za podatkovne znanstvenike, ki omogoča enostavno in hitro preoblikovanje podatkov in strojno učenje.

Presto

Presto je odprtokodni distribuirani poizvedbeni mehanizem SQL za izvajanje interaktivnih analitičnih poizvedb proti podatkovnim virom vseh velikosti, od gigabajtov do petabajtov. Presto poizvedbe se izvajajo veliko hitreje kot poizvedbe Hive. Presto lahko istočasno vidi in uporablja metapodatke in sheme podatkov Hive.

Panj

Apache Hive je priljubljen odprtokodni projekt v ekosistemu Hadoop, ki olajša branje, pisanje in upravljanje velikih naborov podatkov v porazdeljenem pomnilniku z uporabo SQL. Strukturo lahko projiciramo na podatke, ki so že v pomnilniku. Izvajanje poizvedb v panju se izvaja prek Apache Tez, Apache Spark ali MapReduce. Hive on Qubole lahko izvaja samodejno spreminjanje obsega in neposredno pisanje z upoštevanjem delovne obremenitve; odprtokodni panj nima teh optimizacij, usmerjenih v oblak.

Ustanovitelji Qubole so bili tudi ustvarjalci Apache Hive. Hive so ustanovili na Facebooku in ga odprli leta 2008.

Kvantno

Quantum je Qubolejev lastni interaktivni poizvedbeni mehanizem SQL, ki nima strežnikov, samodejno spreminja skale in podpira tako Hive DDL kot Presto SQL. Quantum je plačljiva storitev, ki je stroškovno učinkovita za občasne vzorce poizvedb, ki se širijo v daljšem obdobju, in ima strog način za preprečevanje nepričakovane porabe. Quantum uporablja Presto in dopolnjuje strežniške gruče Presto. Kvantne poizvedbe so omejene na 45 minut izvajanja.

Zračni tok

Airflow je platforma, ki temelji na Pythonu in omogoča programsko ustvarjanje, razporejanje in spremljanje delovnih tokov. Delovni tokovi so usmerjeni aciklični grafi (DAG) nalog. DAG konfigurirate s pisanjem cevovodov v kodo Python. Qubole ponuja Airflow kot eno od svojih storitev; pogosto se uporablja za ETL.

Novi QuboleOperator je mogoče uporabljati tako kot katerega koli drugega obstoječega operaterja Airflow. Med izvajanjem operaterja v poteku dela bo ukaz poslal Qubole Data Service in počakal, dokler se ukaz ne konča. Qubole podpira senzorje datotek in panjev, ki jih Airflow lahko uporablja za programsko spremljanje delovnih tokov.

Če si želite ogledati uporabniški vmesnik Airflow, morate najprej zagnati gručo Airflow, nato pa odpreti stran gruče, da si ogledate spletno mesto Airflow.

RubiX

RubiX je Qubolejev lahek okvir za predpomnjenje podatkov, ki ga lahko uporablja sistem za velike podatke, ki uporablja vmesnik datotečnega sistema Hadoop. RubiX je zasnovan za delo s sistemi za shranjevanje v oblaku, kot sta Amazon S3 in Azure Blob Storage, ter za predpomnjenje oddaljenih datotek na lokalnem disku. Qubole je izdal RubiX za odprtokodno različico. Če želite omogočiti RubiX v Quboleju, morate potrditi polje.

Kaj počne Qubole?

Qubole ponuja celovito platformo za analitiko in podatkovno znanost. Funkcionalnost je razdeljena med približno dvanajst modulov.

Modul Raziskovanje omogoča ogled podatkovnih tabel, dodajanje shramb podatkov in nastavitev izmenjave podatkov. Na AWS si lahko ogledate svoje podatkovne povezave, vedra S3 in shrambe podatkov Qubole Hive.

Modula Analyze in Workbench vam omogočata izvajanje ad hoc poizvedb v vaših naborih podatkov. Analyze je stari vmesnik, Workbench pa novi vmesnik, ki je bil še vedno v različici beta, ko sem ga preizkusil. Oba vmesnika omogočata vlečenje in spuščanje podatkovnih polj v poizvedbe SQL in izbiro mehanizma, ki ga uporabljate za izvajanje operacij: Quantum, Hive, Presto, Spark, zbirka podatkov, lupina ali Hadoop.

Smart Query je oblikovalec poizvedb na osnovi obrazcev SQL za Hive in Presto. Predloge omogočajo ponovno uporabo parametriziranih poizvedb SQL.

Prenosni računalniki so prenosniki Zeppelin s tehnologijo Spark ali (v različici beta) Jupyter za prenos podatkov. Nadzorne plošče ponujajo vmesnik za skupno rabo raziskav, ne da bi dovolili dostop do vaših zvezkov.

Načrtovalnik vam omogoča samodejno zagon poizvedb, delovnih tokov, uvoza in izvoza podatkov ter ukazov v intervalih. To dopolnjuje ad hoc poizvedbe, ki jih lahko zaženete v modulih Analyze in Workbench.

Modul grozdov vam omogoča upravljanje grozdov strežnikov Hadoop / Hive, Spark, Presto, Airflow in deep learning (beta). Uporaba vam omogoča sledenje uporabi grozda in poizvedb. Nadzorna plošča vam omogoča, da konfigurirate platformo zase ali za druge, če imate dovoljenja za sistemsko skrbništvo.

Qubole od konca do konca

Šel sem skozi uvažanje baze podatkov, ustvarjanje sheme Hive in analizo rezultata s Hive in Presto ter ločeno v zvezku Spark. Za isti postopek sem si ogledal tudi Airflow DAG in zvezek za strojno učenje s Sparkom na nepovezanem naboru podatkov.

Poglobljeno učenje v Quboleju

Podatke o znanosti smo v Quboleju videli do ravni klasičnega strojnega učenja, kaj pa globoko učenje? Eden od načinov za globoko učenje v Qubole je vstaviti korake Pythona v zvezke, ki uvažajo okvire za poglobljeno učenje, kot je TensorFlow, in jih uporabiti v naborih podatkov, ki so že izdelani s Sparkom. Druga stvar je, da Amazon SageMaker pokličete iz prenosnikov ali Airflowa, ob predpostavki, da namestitev Qubole deluje na AWS.

Večina tega, kar počnete v Quboleju, ne zahteva izvajanja na grafičnih procesorjih, vendar globoko učenje pogosto potrebuje grafične procesorje, ki omogočajo, da se usposabljanje zaključi v razumnem času. Amazon SageMaker poskrbi za to z izvajanjem globokih učnih korakov v ločenih grozdih, ki jih lahko konfigurirate s toliko vozlišči in grafičnimi procesorji, kot je potrebno. Qubole ponuja tudi grozde strojnega učenja (v različici beta); na AWS ti omogočajo pospešena delovna vozlišča tipa g in p z grafičnimi procesorji Nvidia, na Google Cloud Platform in Microsoft Azure pa enakovredna pospešena vozlišča delavcev.

Komplet orodij za velike podatke v oblaku

Qubole, oblačna podatkovna platforma za analitiko in strojno učenje, vam pomaga uvoziti nabore podatkov v jezero podatkov, graditi sheme s Hive in poizvedovati po podatkih s Hive, Presto, Quantum in Spark. Za izdelavo delovnih tokov uporablja prenosnike in Airflow. Pokliče lahko tudi druge storitve in uporablja druge knjižnice, na primer storitev Amazon SageMaker in knjižnico TensorFlow Python za poglobljeno učenje.

Qubole vam pomaga upravljati porabo v oblaku z nadzorovanjem mešanice primerkov v gruči, zagonom in samodejnim skaliranjem grozdov na zahtevo ter samodejnim izklopom grozdov, ko niso v uporabi. Deluje na AWS, Microsoft Azure, Google Cloud Platform in Oracle Cloud.

Na splošno je Qubole zelo dober način, da izkoristite (ali "aktivirate") svoje podatkovno jezero, izolirane zbirke podatkov in velike podatke. Qubole lahko 14 dni brezplačno preizkusite pri izbiri AWS, Azure ali GCP z vzorčnimi podatki. Z lastnim računom za infrastrukturo v oblaku in s svojimi podatki lahko uredite tudi brezplačno preskusno različico za do pet uporabnikov in en mesec.

Stroški: Preizkusni in preizkusni računi, brezplačno. Enterprise platforma, 0,14 USD na QCU (Qubole Compute Unit) na uro.

Platforma: Amazon Web Services, Google Cloud Platform, Microsoft Azure, Oracle Cloud.

$config[zx-auto] not found$config[zx-overlay] not found