Programiranje

Kako izbrati platformo za analizo podatkov

Ne glede na to, ali ste odgovorni za razvoj programske opreme, devops, sisteme, oblake, avtomatizacijo preskusov, zanesljivost spletnega mesta, vodenje skupin za scrum, infosec ali druga področja informacijske tehnologije, boste imeli vedno večje možnosti in zahteve za delo s podatki, analitiko in strojnim učenjem .

Tech Spotlight: Analytics

  • Kako izbrati platformo za analizo podatkov ()
  • 6 najboljših praks za vizualizacijo poslovnih podatkov (Computerworld)
  • Zdravstvena analitika: 4 zgodbe o uspehu (CIO)
  • SD-WAN in analitika: Poroka za novo normalno (Network World)
  • Kako zaščititi algoritme kot intelektualno lastnino

Vaša izpostavljenost analitiki lahko prihaja iz IT-podatkov, kot je razvijanje meritev in vpogledov v agilnih, devops-ih ali metrikah spletnih mest. Ni boljšega načina, da se naučite osnovnih veščin in orodij v zvezi s podatki, analitiko in strojnim učenjem, kot da jih uporabite za podatke, ki jih poznate in jih lahko izkoristite za vpogled v spodbujanje dejanj.

Stvari postanejo nekoliko bolj zapletene, ko se odcepite iz sveta IT-podatkov in zagotovite storitve skupinam podatkovnih znanstvenikov, državljanskim podatkovnim znanstvenikom in drugim poslovnim analitikom, ki izvajajo vizualizacije podatkov, analitiko in strojno učenje.

Najprej je treba podatke naložiti in očistiti. Potem boste glede na obseg, raznolikost in hitrost podatkov verjetno naleteli na več začasnih zbirk podatkov in podatkovnih tehnologij v oblaku. Nazadnje se je v zadnjih nekaj letih tisto, kar je nekoč izbiralo med orodji za poslovno inteligenco in vizualizacijo podatkov, razširilo v kompleksno matriko analitike s polnim življenjskim ciklom in platform za strojno učenje.

Pomen analitike in strojnega učenja povečuje odgovornosti IT na več področjih. Na primer:

  • IT pogosto nudi storitve v zvezi z vsemi integracijami podatkov, zalednimi bazami podatkov in analitičnimi platformami.
  • Skupine za razvoj pogosto uvedejo in prilagodijo podatkovno infrastrukturo, da omogočijo eksperimentiranje na modelih strojnega učenja in nato podpirajo obdelavo podatkov v proizvodnji.
  • Ekipe omrežnih operacij vzpostavijo varne povezave med analitičnimi orodji SaaS, večglasnostmi in podatkovnimi centri.
  • Skupine za upravljanje IT storitev se odzivajo na zahteve in incidente v zvezi s podatki in analitičnimi storitvami.
  • Infosec nadzoruje upravljanje in implementacijo varnosti podatkov.
  • Razvijalci v aplikacije vključujejo modele analitike in strojnega učenja.

Glede na eksplozijo analitike, podatkovnih platform v oblaku in zmogljivosti strojnega učenja je tukaj priročnik za boljše razumevanje življenjskega cikla analitike, od integracije in čiščenja podatkov, do dataopsov in modelopov, do samih zbirk podatkov, podatkovnih platform in analitike.

Analytics se začne z integracijo podatkov in čiščenjem podatkov

Preden lahko analitiki, državljanski podatkovni znanstveniki ali ekipe za podatkovno znanost izvajajo analitiko, jim morajo biti na voljo potrebni viri podatkov v njihovih platformah za vizualizacijo podatkov in analitiko.

Za začetek lahko obstajajo poslovne zahteve za integracijo podatkov iz več podjetniških sistemov, pridobivanje podatkov iz aplikacij SaaS ali pretakanje podatkov iz senzorjev IoT in drugih podatkovnih virov v realnem času.

To so vsi koraki za zbiranje, nalaganje in integracijo podatkov za analitiko in strojno učenje. Glede na zapletenost podatkov in težave s kakovostjo podatkov obstajajo priložnosti za vključitev v podatkovne kroge, katalogizacijo podatkov, upravljanje glavnih podatkov in druge pobude za upravljanje podatkov.

Vsi poznamo besedno zvezo "smeti noter, smeti ven." Analitiki morajo biti zaskrbljeni zaradi kakovosti svojih podatkov, znanstveniki pa morajo biti zaskrbljeni zaradi pristranskosti v svojih modelih strojnega učenja. Prav tako je pravočasnost vključevanja novih podatkov ključnega pomena za podjetja, ki želijo postati bolj usmerjena v realnem času. Iz teh razlogov so cevovodi, ki nalagajo in obdelujejo podatke, kritičnega pomena pri analitiki in strojnem učenju.

Baze podatkov in platforme za vse vrste izzivov upravljanja podatkov

Nalaganje in obdelava podatkov je nujen prvi korak, potem pa se stvari pri izbiri optimalnih podatkovnih baz zapletejo. Današnje odločitve vključujejo skladišča podatkov v podjetjih, podatkovna jezera, platforme za obdelavo velikih podatkov in specializirane zbirke podatkov NoSQL, graf, ključ-vrednost, dokumente in stolpce. Za podporo obsežnega skladiščenja podatkov in analitike obstajajo platforme, kot so Snowflake, Redshift, BigQuery, Vertica in Greenplum. Nazadnje obstajajo platforme za velike podatke, vključno s Spark in Hadoop.

Velika podjetja bodo verjetno imela več skladišč podatkov in bodo uporabljala oblačne podatkovne platforme, kot sta Cloudera Data Platform ali MapR Data Platform ali platforme za orkestracijo podatkov, kot je InfoWorks DataFoundy, da bodo vsa ta skladišča dostopna za analitiko.

Najpomembnejši javni oblaki, vključno z AWS, GCP in Azure, imajo vse platforme in storitve za upravljanje podatkov. Na primer, Azure Synapse Analytics je Microsoftovo skladišče podatkov SQL v oblaku, medtem ko Azure Cosmos DB ponuja vmesnike za številne shrambe podatkov NoSQL, vključno s Cassandro (stolpčni podatki), MongoDB (podatki ključ-vrednost in dokumenti) in Gremlin (podatki grafa) .

Podatkovna jezera so priljubljena nakladalna postaja za centraliziranje nestrukturiranih podatkov za hitro analizo, v ta namen pa lahko izbirate med Azure Data Lake, Amazon S3 ali Google Cloud Storage. Za obdelavo velikih podatkov imajo oblaki AWS, GCP in Azure tudi ponudbe Spark in Hadoop.

Platforme Analytics ciljajo na strojno učenje in sodelovanje

Z naloženimi, očiščenimi in shranjenimi podatki lahko znanstveniki in analitiki podatkov začnejo izvajati analitiko in strojno učenje. Organizacije imajo veliko možnosti, odvisno od vrste analitike, spretnosti analitične ekipe, ki izvaja delo, in strukture osnovnih podatkov.

Analitiko je mogoče izvajati v samopostrežnih orodjih za vizualizacijo podatkov, kot sta Tableau in Microsoft Power BI. Obe orodji sta namenjeni državljanskim podatkovnim znanstvenikom in razkrijeta vizualizacije, izračune in osnovno analitiko. Ta orodja podpirajo osnovno integracijo podatkov in njihovo prestrukturiranje, vendar se pred analitičnimi koraki pogosto zgodi bolj zapleteno premeščanje podatkov. Tableau Data Prep in Azure Data Factory sta spremljevalni orodji za pomoč pri integraciji in preoblikovanju podatkov.

Skupine za analitiko, ki želijo avtomatizirati več kot zgolj integracijo in pripravo podatkov, lahko iščejo platforme, kot je Alteryx Analytics Automation Process. Ta celovita platforma za sodelovanje povezuje razvijalce, analitike, državljanske znanstvenike in znanstvenike z avtomatizacijo poteka dela in samopostrežno obdelavo podatkov, analitiko in obdelavo strojnega učenja.

Alan Jacobson, glavni analitik in podatkovni direktor pri Alteryxu, pojasnjuje: »Pojav avtomatizacije analitičnih procesov (APA) kot kategorije poudarja novo pričakovanje, da bo vsak delavec v organizaciji delal na področju podatkov. Razvijalci informacijske tehnologije niso nobena izjema in razširljivost platforme Alteryx APA je še posebej koristna za te delavce. "

Obstaja več orodij in platform, namenjenih znanstvenikom podatkov, katerih namen je povečati njihovo produktivnost s tehnologijami, kot sta Python in R, hkrati pa poenostaviti številne operativne in infrastrukturne korake. Databricks je na primer operativna platforma za podatkovno znanost, ki omogoča uvajanje algoritmov v Apache Spark in TensorFlow, hkrati pa upravlja računalniške grozde v oblaku AWS ali Azure.

Zdaj nekatere platforme, kot je SAS Viya, združujejo pripravo podatkov, analitiko, napovedovanje, strojno učenje, analitiko besedila in upravljanje modelov strojnega učenja v eno samo platformo modelops. SAS operacionalizira analitiko in cilja na znanstvenike, poslovne analitike, razvijalce in vodstvo s skupno platformo za sodelovanje.

David Duling, direktor oddelka za raziskave in razvoj na področju upravljanja odločitev pri SAS, pravi: »Modelops vidimo kot prakso ustvarjanja ponovljivega in preverljivega cevovoda operacij za uvajanje vse analitike, vključno z modeli AI in ML, v operacijske sisteme. Kot del modelops lahko uporabimo sodobne prakse devops za upravljanje kode, testiranje in spremljanje. To pomaga izboljšati pogostost in zanesljivost uvajanja modelov, kar posledično povečuje gibčnost poslovnih procesov, zgrajenih na teh modelih. "

Dataiku je še ena platforma, ki si prizadeva za pripravo podatkov, analitiko in strojno učenje na rastoče ekipe za podatkovne vede in njihove sodelavce. Dataiku ima vizualni model programiranja, ki omogoča naprednejše razvijalce SQL in Python prenosnike za sodelovanje in kodo.

Druge platforme za analitiko in strojno učenje vodilnih ponudnikov poslovne programske opreme želijo analitične zmogljivosti prenesti v podatkovne centre in vire podatkov v oblaku. Na primer, Oracle Analytics Cloud in SAP Analytics Cloud sta namenjena centraliziranju obveščevalnih podatkov in avtomatizaciji vpogledov, da se omogočijo odločitve od konca do konca.

Izbira platforme za analizo podatkov

Izbira orodij za integracijo podatkov, skladiščenje in analitiko je bila včasih bolj enostavna pred vzponom velikih podatkov, strojnega učenja in upravljanja podatkov. Danes obstaja kombinacija terminologije, zmogljivosti platforme, operativnih zahtev, potreb po upravljanju in ciljnih uporabniških osebnosti, ki izberejo platforme bolj zapleteno, še posebej, ker mnogi prodajalci podpirajo več uporabnih paradigem.

Podjetja se razlikujejo v analitičnih zahtevah in potrebah, vendar bi morala iskati nove platforme z vidika že obstoječih. Na primer:

  • Podjetja, ki so imela uspeh pri programih za znanost o državljanih in imajo že vzpostavljena orodja za vizualizacijo podatkov, bodo ta program morda želela razširiti z avtomatizacijo analitičnih procesov ali tehnologijami za pripravo podatkov.
  • Podjetja, ki želijo orodjarno, ki omogoča znanstvenikom podatkov, ki delajo v različnih delih podjetja, lahko razmislijo o celotnih analitičnih platformah z zmožnostmi preskusov.
  • Organizacije z več različnimi zalednimi podatkovnimi platformami lahko koristijo podatkovne platforme v oblaku za njihovo katalogizacijo in centralno upravljanje.
  • Podjetja, ki standardizirajo vse ali večino podatkovnih zmogljivosti pri enem ponudniku javnih oblakov, bi morala raziskati ponujene platforme za integracijo podatkov, upravljanje podatkov in analitiko podatkov.

Ker analitika in strojno učenje postajata pomembni temeljni kompetenci, bi morali tehnologi razmisliti o poglabljanju svojega razumevanja razpoložljivih platform in njihovih zmogljivosti. Moč in vrednost analitičnih platform se bosta samo povečali, prav tako pa tudi njihov vpliv v celotnem podjetju.

$config[zx-auto] not found$config[zx-overlay] not found