Štirje razlogi, da projekti velikih podatkov ne uspejo, in štirje načini za uspeh

Projekti velikih podatkov so v veliki meri in obsegu, pogosto zelo ambiciozni in prepogosto popolni neuspehi. Leta 2016 je Gartner ocenil, da je 60 odstotkov projektov velikih podatkov propadlo. Leto kasneje je analitik Gartnerja Nick Heudecker dejal, da je bilo njegovo podjetje s 60-odstotno oceno "preveč konzervativno" in da je stopnja neuspeha znašala približno 85 odstotkov. Danes pravi, da se ni nič spremenilo.

Gartner pri tej oceni ni sam. Dolgoletni izvršni direktor Microsofta in (do nedavnega) izvršni direktor podjetja Snowflake Computing Bob Muglia je za analitično spletno stran Datanami dejal: »Ne najdem srečne stranke Hadoop. To je nekako tako preprosto. ... Število strank, ki so Hadoop dejansko uspešno ukrotile, je verjetno manj kot 20 in morda manj kot deset. To je samo noro glede na to, kako dolgo je bil ta izdelek, ta tehnologija na trgu in koliko energije je v to vložila splošna industrijska energija. " Hadoop je seveda motor, ki je sprožil manijo velikih podatkov.

Tudi drugi, ki poznajo velike podatke, pravijo, da je težava resnična, resna in ne povsem tehnološka. Pravzaprav je tehnologija manjši vzrok za neuspeh glede na resnične krivce. Tu so štirje ključni razlogi, da projekti velikih podatkov ne uspejo, in štirje ključni načini, kako lahko uspete.

Težava z velikimi podatki št. 1: Slaba integracija

Heudecker je dejal, da se za napakami velikih podatkov skriva en velik tehnološki problem, in sicer vključevanje izoliranih podatkov iz več virov, da bi dobili vpoglede, ki jih želijo podjetja. Vzpostavitev povezav z zapuščenimi, zapuščenimi sistemi preprosto ni enostavna. Po njegovih besedah so stroški integracije pet do desetkrat večji od stroškov programske opreme. »Največja težava je preprosta integracija: kako povežete več virov podatkov, da dobite nekakšen rezultat? Veliko gre pot po podatkovnem jezeru in pomislim, če se vse povežem z nečim čarobnim. Ni tako, "je dejal.

Tihi podatki so del problema. Stranke so mu povedale, da so podatke iz sistemov zapisov potegnile v skupno okolje, kot je podatkovno jezero, in niso mogle ugotoviti, kaj vrednosti pomenijo. "Ko potegnete podatke v podatkovno jezero, kako veste, kaj pomeni to število 3?" Je vprašal Heudecker.

Ker delajo v silosih ali ustvarjajo podatkovna jezera, ki so samo podatkovna močvirja, samo praskajo po površini, kaj bi lahko dosegli, je dejal Alan Morrison, višji raziskovalec pri PwC. »Ne razumejo vseh razmerij v podatkih, ki jih je treba izkopati ali sklepati in jih navesti eksplicitno, da lahko stroji ustrezno razlagajo te podatke. Ustvariti morajo sloj grafa znanja, tako da lahko stroji razlagajo vse podatke o primerkih, ki so preslikani spodaj. V nasprotnem primeru ste pravkar dobili podatkovno jezero, ki je podatkovno močvirje, «je dejal.

Problem velikih podatkov št. 2: Nedoločeni cilji

Mislili bi, da bi večina ljudi, ki se ukvarjajo s projektom velikih podatkov, dejansko imela cilj v mislih, presenetljivo pa ne. Projekt samo začnejo s ciljem kot naknadno misel.

»Problem moraš dobro razkriti. Ljudje mislijo, da lahko povežejo strukturirane in nestrukturirane podatke in dobijo vpogled, ki ga potrebujete. Problem morate definirati vnaprej. Kakšen vpogled želite dobiti? Jasno je opredelil težavo in jo opredelil vnaprej, «je povedal Ray Christopher, vodja trženja izdelkov pri Talendu, podjetju za programsko opremo za integracijo podatkov.

Joshua Greenbaum, glavni analitik pri Enterprise Application Consulting, je dejal, da je del tega, kar je ogrozilo projekte velikih podatkov in skladiščenje podatkov, glavno vodilo običajno kopičenje velike količine podatkov in ne reševanje ločenih poslovnih težav.

»Če združite velike količine podatkov, dobite izpis podatkov. Temu pravim sanitarno odlagališče. Odlagališča niso dobro mesto za iskanje rešitev, «je dejal Greenbaum. "Strankam vedno rečem, da se odločijo, kateri diskretni poslovni problem je treba najprej rešiti, in se odločijo za to, nato pa preučijo kakovost razpoložljivih podatkov in rešijo problem, ko je poslovni problem ugotovljen."

„Zakaj večina velikih podatkovnih projektov propade? Za začetek večini voditeljev velikih podatkovnih projektov primanjkuje vizije, «je dejal Morrison iz PwC. »Podjetja so zmedena glede velikih podatkov. Večina le pomisli na numerične podatke ali NLP-je in mehanizme za prepoznavanje, ki omogočajo preprosto iskanje besedil in druge vrste prepoznavanja vzorcev. "

Težava z velikimi podatki št. 3: Vrzel v spretnostih

Podjetja prepogosto mislijo, da se bodo lastne veščine, ki so jih zgradile za skladiščenje podatkov, spremenile v velike podatke, če pa očitno ni tako. Za začetek skladiščenje podatkov in veliki podatki popolnoma nasprotno obdelujejo podatke: Skladiščenje podatkov naredi zapis v zapisu, kar pomeni, da se podatki očistijo, obdelajo, strukturirajo in organizirajo, še preden gredo v podatkovno skladišče.

Pri velikih podatkih se podatki zbirajo in uporabi shema o branju, kjer se podatki ob branju obdelajo. Torej, če gre obdelava podatkov nazaj od ene metodologije do druge, lahko stavite, da so tudi veščine in orodja. In to je samo en primer.

»Spretnosti bodo vedno izziv. Če že čez 30 let govorimo o velikih podatkih, bo izziv še vedno, «je dejal Heudecker. »Veliko ljudi si obesi klobuk na Hadoop. Moje stranke so izzvane pri iskanju virov Hadoop. Spark je malo boljši, ker je ta kup manjši in ga je lažje trenirati. Hadoop je na desetine programskih komponent. "

Težava z velikimi podatki št. 4: Vrzel v tehnološki generaciji

Projekti velikih podatkov pogosto zajemajo starejše podatkovne silose in jih poskušajo združiti z novimi viri podatkov, kot so senzorji ali spletni promet ali družabni mediji. Za to ni povsem kriva družba, ki je te podatke zbrala v času pred idejo o analitiki velikih podatkov, vendar je kljub temu problem.

"Skoraj največja manjkajoča spretnost je veščina, kako razumeti, kako združiti ti dve zainteresirani strani, da ju bosta skupaj rešili zapletene probleme," je dejal svetovalec Greenbaum. »Podatkovni silosi so lahko ovira za velike podatkovne projekte, ker ni standardnega ničesar. Torej, ko začnejo preučevati načrtovanje, ugotovijo, da ti sistemi niso bili uvedeni na noben način, da bi bili ti podatki ponovno uporabljeni, «je dejal.

"Pri različnih arhitekturah morate obdelavo delati drugače," je dejal Talendov Christopher. »Razlike v tehničnih spretnostih in arhitekturi so bile pogost razlog, da za lokalno skladišče podatkov ne morete vzeti trenutnih orodij in jih integrirati z velikim podatkovnim projektom - ker bodo te tehnologije predrage za obdelavo novih podatkov. Torej potrebuješ Hadoopand Spark in se moraš naučiti novih jezikov. "

Rešitev za velike podatke št. 1: Načrtujte vnaprej

To je stari kliše, vendar velja tukaj: če ne načrtujete, načrtujete neuspeh. "Uspešna podjetja so tista, ki imajo rezultat," je dejal Gartner's Heudecker. »Izberite nekaj majhnega in dosegljivega ter novega. Ne jemljite starega primera uporabe, ker imate omejitve. "

"Najprej morajo razmisliti o podatkih in svoje organizacije oblikovati na strojno berljiv način, tako da podatki služijo tej organizaciji," je dejal Morrison iz PwC.

Rešitev za velike podatke št. 2: Sodelujte

Vse prepogosto zainteresirane strani niso vključene v projekte velikih podatkov - prav tisti ljudje, ki bi uporabili rezultate. Če sodelujejo vse zainteresirane strani, lahko premagajo številne ovire, je dejal Heudecker. "Če strokovnjaki sodelujejo in sodelujejo s poslovno stranjo, da bi dosegli dejanski rezultat, lahko to pomaga," je dejal.

Heudecker je opozoril, da podjetja, ki uspevajo v velikih podatkih, veliko vlagajo v potrebna znanja. To najbolj vidi v podjetjih, ki temeljijo na podatkih, kot so finančne storitve, Uber, Lyft in Netflix, kjer premoženje podjetja temelji na dobrih in uporabnih podatkih.

»Naj bo to skupinski šport, ki bo pomagal pri kuraciji in zbiranju podatkov ter čiščenju. S tem se lahko poveča tudi celovitost podatkov, «je dejal Talendov Christopher.

Rešitev za velike podatke št. 3: Fokus

Zdi se, da imajo ljudje miselnost, da mora biti projekt velikih podatkov obsežen in ambiciozen. Kot vse, kar se učite prvič, je tudi najboljši način za uspeh začeti z majhnim, nato pa se postopoma razširiti v ambicijah in obsegu.

"Morali bi zelo natančno opredeliti, kaj počnejo," je dejal Heudecker. "Morali bi izbrati problematično domeno in jo imeti v lasti, na primer odkrivanje prevar, mikrosegmentiranje kupcev ali ugotavljanje, kateri nov izdelek naj uvede na tisočletnem trgu."

"Na koncu morate prositi za vpogled, ki ga želite, ali za digitalizacijo poslovnega procesa," je dejal Christopher. »Tehnologije ne postavljate samo na poslovni problem; to morate definirati vnaprej. Podatkovno jezero je nujno, vendar ne želite zbirati podatkov, če jih ne bo uporabljal nihče v poslu. "

V mnogih primerih to pomeni tudi, da lastnega podjetja ne prenapihnete. »V vsakem podjetju, ki sem ga kdaj študiral, je le nekaj sto ključnih konceptov in odnosov, na katerih deluje celotno podjetje. Ko to enkrat razumete, se zavedate, da so vsi ti milijoni razlik le majhne različice tistih nekaj sto pomembnih stvari, «je dejal Morrison iz PwC. »Pravzaprav odkrijete, da številne rahle razlike sploh niso razlike. Gre za res enake stvari z različnimi imeni, različnimi strukturami ali različnimi oznakami, «je dodal.

Rešitev za velike podatke št. 4: Jettison zapuščina

Čeprav boste morda želeli uporabiti tiste terabajte podatkov, zbranih in shranjenih v vašem podatkovnem skladišču, je dejstvo, da boste morda bolje oskrbovani, če se osredotočite na novo zbrane podatke v sistemih za shranjevanje, zasnovanih za velike podatke in zasnovanih za nezaščitene.

"Vsekakor svetujem, da ni nujno, da vas spoštuje obstoječa tehnološka infrastruktura samo zato, ker je vaše podjetje licenca zanjo," je dejal svetovalec Greenbaum. »Pogosto lahko nove zapletene težave zahtevajo nove zapletene rešitve. Če se desetletje vračamo k starim orodjem po korporaciji, to ni prava pot. Številna podjetja uporabljajo stara orodja in to ubije projekt. "

Morrison o = opozoril: "Podjetja se morajo nehati zapletati v lastno spodnje perilo in samo izogibati se stari arhitekturi, ki ustvarja več silosov." Rekel je tudi, da morajo prenehati pričakovati, da bodo prodajalci zanje rešili njihove zapletene sistemske težave. »Zdi se, da desetletja mnogi domnevajo, da se lahko rešijo velike težave s podatki. Vsak problem z velikimi podatki je sistemski problem. Ko gre za kakršne koli zapletene spremembe sistemov, si morate narediti pot ven, «je dejal.