Današnje vloge v znanosti o podatkih ne bodo obstajale čez 10 let

V prihodnjem desetletju bo vloga podatkovnega znanstvenika, kot jo poznamo, videti zelo drugačna kot danes. A brez skrbi, nihče ne napoveduje izgubljenih služb, samo spremenila službe.

Podatkovni znanstveniki bodo v redu - po podatkih Urada za statistiko dela naj bi vloga še vedno rasla z večjo stopnjo od povprečne do leta 2029. Toda napredek v tehnologiji bo zagon za velik premik v odgovornostih in v način, kako podjetja pristopajo k analitiki kot celoti. Orodja AutoML, ki pomagajo avtomatizirati cevovod strojnega učenja od neobdelanih podatkov do uporabnega modela, bodo vodila to revolucijo.

Čez 10 let bodo imeli podatkovni znanstveniki povsem različne sklope znanj in orodij, vendar bo njihova funkcija ostala enaka: služiti kot samozavestni in kompetentni tehnološki vodiči, ki lahko zapletene podatke osmislijo za reševanje poslovnih težav.

AutoML demokratizira znanost o podatkih

Do nedavnega so bili algoritmi in procesi strojnega učenja skoraj izključno domena bolj tradicionalnih vlog na področju znanosti o podatkih - tistih s formalno izobrazbo in visokošolsko izobrazbo ali zaposlenih v velikih tehnoloških korporacijah. Podatkovni znanstveniki so imeli neprecenljivo vlogo v vseh delih razvojnega spektra strojnega učenja. Toda sčasoma bo njihova vloga postala bolj skupna in strateška. Z orodji, kot je AutoML, za avtomatizacijo nekaterih bolj akademskih veščin se lahko podatkovni znanstveniki osredotočijo na usmerjanje organizacij k rešitvam poslovnih težav s podatki.

V mnogih pogledih je to zato, ker AutoML demokratizira prizadevanja za izvajanje strojnega učenja v praksi. Ponudniki od zagonskih podjetij do hiper skalerjev v oblaku so uvedli dovolj enostavne rešitve, s katerimi lahko razvijalci uporabljajo in eksperimentirajo brez velike izobraževalne ali izkustvene ovire za vstop. Podobno so nekatere aplikacije AutoML dovolj intuitivne in preproste, da se lahko netehnični delavci preizkusijo v reševanju problemov v svojih oddelkih - tako da v organizacijah ustvarijo "znanstvenika za državljanske podatke".

Da bi raziskali možnosti, ki jih te vrste orodij odpirajo tako za razvijalce kot za znanstvenike podatkov, moramo najprej razumeti trenutno stanje znanosti o podatkih, ki je povezano z razvojem strojnega učenja. Najlažje je razumeti, če ga postavimo na zrelostno lestvico.

Manjše organizacije in podjetja z bolj tradicionalnimi vlogami, zadolženimi za digitalno preobrazbo (tj. ne klasično usposobljeni znanstveniki za podatke) običajno spadajo na ta konec te lestvice. Trenutno so največje stranke za nenavadne aplikacije strojnega učenja, ki so bolj namenjene občinstvu, ki ne pozna zapletenosti strojnega učenja.

Prednosti: Te aplikacije na ključ so ponavadi enostavne za izvedbo, razmeroma poceni in enostavne za uporabo. Za manjša podjetja z zelo specifičnim postopkom avtomatizacije ali izboljšanja je na trgu verjetno več izvedljivih možnosti. Zaradi majhne ovire za vstop so te aplikacije kot nalašč za znanstvenike, ki se prvič podajo v strojno učenje. Ker so nekatere aplikacije tako intuitivne, omogočajo celo netehničnim zaposlenim, da eksperimentirajo z avtomatizacijo in naprednimi podatkovnimi zmogljivostmi - kar lahko v organizacijo vnese dragocen peskovnik.
Slabosti: Ta razred aplikacij strojnega učenja je razvpito neprilagodljiv. Čeprav jih je mogoče enostavno izvajati, jih ni enostavno prilagoditi. Kot določena stopnja natančnosti je pri nekaterih aplikacijah morda nemogoča. Poleg tega lahko te aplikacije močno omeji odvisnost od predhodno usposobljenih modelov in podatkov.

Primeri teh aplikacij so Amazon Comprehend, Amazon Lex in Amazon Forecast iz Amazon Web Services ter Azure Speech Services in Azure Language Understanding (LUIS) iz Microsoft Azure. Ta orodja so pogosto dovolj za naraščajoče znanstvenike na področju podatkov, da naredijo prve korake v strojnem učenju in uvedejo svoje organizacije še dlje v zreli spekter.

Prilagodljive rešitve s programom AutoML

Organizacije z velikimi, a razmeroma pogostimi nabori podatkov - mislijo na podatke o transakcijah strank ali meritve tržnega e-poštnega sporočila - potrebujejo večjo prilagodljivost pri uporabi strojnega učenja za reševanje težav. Vnesite AutoML. AutoML izvede korake poteka ročnega strojnega učenja (odkrivanje podatkov, raziskovalna analiza podatkov, nastavitev hiperparametrov itd.) In jih zgosti v nastavljiv sklad.

Prednosti: Aplikacije AutoML omogočajo izvajanje več poskusov na podatkih v večjem prostoru. Toda resnična velesila AutoML je dostopnost - konfiguracije po meri je mogoče zgraditi in vhode razmeroma enostavno izboljšati. Še več, AutoML ni narejen izključno z znanstveniki za podatke kot občinstvom. Razvijalci se lahko tudi zlahka ukvarjajo s peskovnikom, da elemente strojnega učenja vnesejo v svoje izdelke ali projekte.
Slabosti: Čeprav se približuje, omejitve AutoML pomenijo, da bo natančnost izhodov težko izpopolniti. Zaradi tega imajo znanstveniki za shranjevanje podatkov kartice, ki nosijo stopnje, pogosto pogled na programe, zgrajene s pomočjo AutoML-a, tudi če je rezultat dovolj natančen, da reši težavo.

Primeri teh aplikacij so Amazon SageMaker AutoPilot ali Google Cloud AutoML. Podatkovci bodo čez desetletje nedvomno morali poznati takšna orodja. Tako kot razvijalec, ki obvlada več programskih jezikov, bodo morali tudi podatkovni znanstveniki obvladati več okolij AutoML, da bodo lahko veljali za najboljše talente.

"Ročno valjane" in domače rešitve strojnega učenja

Trenutno se razvija večina naprednih in lastniških programov strojnega učenja v največjih podjetjih in podjetjih Fortune 500. Podatkovni znanstveniki v teh organizacijah so del velikih skupin, ki izpopolnjujejo algoritme strojnega učenja z uporabo zgodovinskih podatkov podjetja in te aplikacije gradijo od začetka. Takšne aplikacije po meri so možne le s precejšnjimi sredstvi in talentom, zato so izplačila in tveganja tako velika.

Prednosti: Kot vsaka aplikacija, izdelana iz nič, je tudi strojno učenje po meri "najsodobnejše" in temelji na globokem razumevanju obravnavane težave. Prav tako je bolj natančen - če le z majhnimi robovi - kot rešitve za samodejno učenje in samodejno učenje AutoML.
Slabosti: Pridobivanje aplikacije za strojno učenje po meri za doseganje določenih pragov natančnosti je lahko izredno težavno in pogosto zahteva težko dviganje s strani ekip podatkovnih znanstvenikov. Poleg tega so možnosti strojnega učenja po meri najbolj zamudne in najdražje razviti.

Primer ročno valjane rešitve strojnega učenja se začne s praznim zvezkom Jupyter, ročno uvaža podatke in nato ročno izvede vsak korak od analize raziskovalnih podatkov do uglaševanja modelov. To pogosto dosežemo s pisanjem kode po meri z uporabo odprtokodnih okvirov strojnega učenja, kot so Scikit-learn, TensorFlow, PyTorch in mnogi drugi. Ta pristop zahteva visoko stopnjo izkušenj in intuicije, vendar lahko prinese rezultate, ki so pogosto boljši od storitev strojnega učenja na ključ in AutoML.

Orodja, kot je AutoML, bodo v naslednjih 10 letih preusmerila vloge in odgovornosti na področju znanosti o podatkih. AutoML prevzame breme razvoja strojnega učenja od začetka podatkovnih znanstvenikov in namesto tega daje možnosti tehnologije strojnega učenja neposredno v roke drugim reševalcem problemov. Ko se bo čas osvobodil, da se bodo osredotočili na tisto, kar vedo - na podatke in vložke, bodo znanstveniki podatkov čez desetletje postali še dragocenejša vodila za njihove organizacije.

Eric Miller je višji direktor tehnične strategije pri podjetju Rackspace, kjer zagotavlja strateško svetovalno vodstvo z dokazanimi izkušnjami pri vzpostavljanju prakse v ekosistemu partnerske mreže Amazon (APN).Eric je kot vodilni tehnični vodja z 20-letnim dokazanim uspehom v podjetniški informacijski tehnologiji vodil več pobud za arhitekturo AWS in rešitev, vključno s programom za ocenjevanje partnerskih programov AWS Well Architected Framework (WAF), Amazon EC2 za program za izvajanje storitev AWS za Windows Server AWS prepisuje za več milijard dolarjev vredne organizacije.

—

Forum New Tech ponuja prizorišče za raziskovanje in razpravo o nastajajoči podjetniški tehnologiji v globini in širini brez primere. Izbor je subjektiven in temelji na našem izboru tehnologij, za katere menimo, da so pomembne in najbolj zanimajo bralce. ne sprejema tržnih zavarovanj za objavo in si pridržuje pravico do urejanja celotne prispevane vsebine. Vsa vprašanja pošljite na [email protected].

AutoML demokratizira znanost o podatkih

Prilagodljive rešitve s programom AutoML

"Ročno valjane" in domače rešitve strojnega učenja

Morda vam bo všeč tudi