Programiranje

Pregled: Google Cloud AutoML je resnično avtomatizirano strojno učenje

Ko poskušate samodejno usposobiti najboljši model strojnega učenja za svoje podatke, obstaja AutoML ali samodejno strojno učenje, nato pa Google Cloud AutoML. Google Cloud AutoML je zgoraj.

V preteklosti sem pregledal H2O Driverless AI, Amazon SageMaker in Azure Machine Learning AutoML. Driverless AI samodejno izvede inženiring funkcij in uglaševanje hiperparametrov ter trdi, da deluje tako dobro kot Kaggle master. Amazon SageMaker podpira optimizacijo hiperparametrov. Azure Machine Learning AutoML samodejno pregleduje funkcije, algoritme in hiperparametre za osnovne algoritme strojnega učenja; ločena naprava za uglaševanje hiperparametrov Azure Machine Learning vam omogoča pometanje določenih hiperparametrov za obstoječi poskus.

To je dobro, vendar Google Cloud AutoML doseže povsem drugo raven in prilagodi Googlove preizkušene visoko natančne globoke nevronske mreže za vaše označene podatke. Google Cloud AutoML namesto da bi začel z nič pri vadbi modelov iz vaših podatkov, izvaja samodejno učenje globokega prenosa (kar pomeni, da se začne z obstoječo globoko nevronsko mrežo, usposobljeno za druge podatke) in iskanje nevronske arhitekture (kar pomeni, da najde pravo kombinacijo dodatnih omrežni sloji) za prevajanje jezikovnih parov, klasifikacijo naravnega jezika in klasifikacijo slik.

Na vsakem področju ima Google že eno ali več vnaprej usposobljenih storitev, ki temeljijo na globokih nevronskih mrežah in ogromnih naborih označenih podatkov. Ti morda dobro delujejo za vaše podatke nespremenjene in jih preizkusite, da prihranite čas in denar. Če te storitve ne naredijo tistega, kar potrebujete, vam Google Cloud AutoML pomaga ustvariti model, ki to počne, ne da bi morali vedeti, kako izvesti učenje prenosa ali celo ustvariti nevronske mreže.

Prenosno učenje ponuja dve veliki prednosti pred treningom nevronske mreže od začetka. Najprej zahteva veliko manj podatkov za usposabljanje, saj je večina slojev omrežja že dobro usposobljena. Drugič, teče veliko hitreje, saj optimizira samo končne sloje.

Google Cloud AutoML Translation

Tako lahko na primer v eni uri ali dve vadite proti 1.000 dvojezičnim stavnim parom z učenjem prenosa Google Cloud AutoML Translation. Osnovna nevronska mreža, ki je bila prilagojena, NMT, je trajala od sto do tisoč ur, da se je za vsak jezikovni par trenirala iz nič na velikem številu CPU in GPU. Upoštevajte, da je urna cena za usposabljanje modela prevajanja po meri trenutno 76 USD.

Vodič za začetnike AutoML Translation pojasnjuje osnove tega, kar lahko naredi Google Cloud AutoML Translation, in zakaj bi ga uporabljali. V bistvu izboljšuje obstoječi splošni prevajalski model za nišni namen. Za to vam ni treba opraviti nobenega treninga splošno prevod sto jezikov, ki jih Google že podpira, vendar bi morali zagnati učenje prenosa, če želite ustvariti prevajalsko mrežo za specializirano besednjak ali raba. Primer, ki ga omenja Google, je prevajanje časovno občutljivih finančnih dokumentov v realnem času. Splošno prevajanje ne bo vedno uporabljalo pravilnih umetniških izrazov za finance.

Nastavitev usposabljanja za Google Cloud AutoML Translation je pet korakov, kot je prikazano na spodnjih posnetkih zaslona, ​​ko pripravite datoteko s pari stavkov. Za pozive k aplikacijam, ki jih je zagotovil Google v hitrem zagonu AutoML Translation, ki je bil oblikovan kot datoteka z ločenimi vrednostmi, sem uporabil 8720 angleško-španskih parov. Google Cloud AutoML Translation podpira tudi format pomnilniškega pomnilnika eXchange (TMX), ki temelji na XML, za stavčne pare.

Opazili boste, da ni možnosti za nadzor strojne opreme (CPU-ji, GPU-ji, TPU-ji in pomnilnik), ki se uporablja za izvajanje treninga. To je namerno: pri usposabljanju bo uporabljeno tisto, kar potrebuje. Prav tako ni možnosti za nadzor slojev nevronske mreže, ki se dodajo modelu, števila obdobij ali meril za zaustavitev.

Po končanem treningu modela si lahko ogledate izboljšanje (če gre vse v redu) rezultata BLEU glede na osnovni model in poskusite z modelom predvidevati. Ta trening je trajal 0,9 ure (manj od predvidenega) in je stal 68,34 USD.

Google Cloud AutoML Natural Language

Google Natural Language API zajema besedilo in predvideva entitete, sentiment, sintakso in kategorije (z vnaprej določenega seznama). Če težava z razvrstitvijo besedila ne ustreza nobeni od teh, lahko vnesete označen nabor izjav in uporabite Google Cloud AutoML Natural Language za ustvarjanje klasifikatorja po meri.

Če želite za usposabljanje nastaviti naravni jezik AutoML, morate pridobiti podatke, jih označiti, pripraviti kot datoteko CSV in zagnati usposabljanje. Če želite, lahko uporabniški vmesnik za naravni jezik AutoML uporabite tudi za nalaganje in označevanje podatkov.

Ko je trening modela končan, si lahko ogledate matriko natančnosti, odpoklica in zmede modela. Prav tako lahko prilagodite prag rezultata za želeni kompromis natančnosti / odpoklica. Če želite zmanjšati lažne negative, optimizirajte za odpoklic. Če želite zmanjšati lažne pozitivne rezultate, optimizirajte za natančnost.

Ta trening je trajal 3,63 ure (približno tako, kot je bilo napovedano) in je stal 10,88 USD.

Google Cloud AutoML Vision

API Google Cloud Vision razvrsti slike v tisoče vnaprej določenih kategorij, zazna posamezne predmete in obraze znotraj slik ter najde in prebere natisnjene besede, ki jih vsebujejo slike. Google Cloud AutoML Vision vam omogoča, da določite in usposobite svoj seznam kategorij. Nekatere resnične aplikacije vključujejo odkrivanje škode na vetrnih turbinah z fotografij brezpilotnih letal in razvrščanje reciklirnih materialov za ravnanje z odpadki.

Če želite nastaviti nabor podatkov Google Cloud AutoML Vision, morate za vsako kategorijo navesti vsaj 100 slik in jih označiti v datoteki CSV. Vse slike in datoteka CSV morajo biti v vedru Google Cloud Storage.

Ta trening sem nastavil tako, da teče največ eno uro, kar je brezplačno za do 10 modelov na mesec. Bil sem prijetno presenečen, ko sem videl dobre rezultate brezplačnega treninga, in se nisem trudil nadaljevati treninga, da bi izboljšal natančnost in odpoklic.

Google Cloud AutoML ponuja priročne možnosti za izvajanje ciljnih prevodov, klasifikacijo besedila po meri in klasifikacijo slik po meri. Vsak od teh API-jev deluje dobro, če mu date dovolj natančno označenih podatkov in traja veliko manj časa in spretnosti kot gradnja lastnega modela nevronske mreže ali celo lastnega učnega modela prenosa. Z Google Cloud AutoML dejansko ustvarjate modele TensorFlow, ne da bi nujno vedeli kaj o TensorFlowu, Pythonu, arhitekturah nevronskih omrežij ali strojni opremi za usposabljanje.

Obstaja veliko načinov za napačno pripravo podatkov, vendar na srečo vsi trije API-ji preverjajo najpogostejše napake, na primer premalo ali preveč vzorcev za katero koli kategorijo. Diagnostika, prikazana po vadbi, vam daje dobro predstavo o tem, kako dobro deluje vaš model, in modele lahko enostavno prilagodite z dodajanjem več označenih podatkov o vadbi in ponovnim izvajanjem vadbe.

Stroški: Google Cloud AutoML Translation: Izobraževanje stane 76,00 USD na uro, prevod 80 USD na milijon znakov po prvih 500.000. Google Cloud AutoML Natural Language: usposabljanje stane 3,00 USD na uro, klasifikacija 5 USD na tisoč besedilnih zapisov po prvih 30 tisoč. Google Cloud AutoML Vision: usposabljanje po prvi uri stane 20 USD na uro, klasifikacija 3 USD na tisoč slik po prvem tisoču.

Platforma: Google Cloud Platform

$config[zx-auto] not found$config[zx-overlay] not found