Apache Spark 3.0 dodaja podporo Nvidia GPU za strojno učenje

Apache Spark, ogrodje za obdelavo velikih podatkov v pomnilniku, bo v svoji kmalu izdani različici 3.0 postalo popolnoma pospešeno GPU. Najboljše od vsega je, da lahko današnje aplikacije Spark izkoristijo pospešek GPU brez sprememb; obstoječi API-ji Spark delujejo kot so.

Komponente pospeševanja GPU, ki jih ponuja Nvidia, so zasnovane tako, da dopolnjujejo vse faze aplikacij Spark, vključno z operacijami ETL, usposabljanjem za strojno učenje in vročanjem sklepov.

Prispevki podjetja Nvidia Spark temeljijo na zbirki RAPIDS knjižnic za podatkovno znanost, pospešenih z GPU. Številne notranje strukture podatkov RAPIDS-a, na primer podatkovni okviri, dopolnjujejo Sparkove, vendar je priprava Sparka, da bi RAPIDS izvirno uporabljal, zahtevala skoraj štiri leta dela.

Spark 3.0 pospeševanja ne izvirajo samo iz pospeševanja GPU. Spark 3.0 prinaša tudi večjo zmogljivost tako, da zmanjšuje pretok podatkov do grafičnih procesorjev in iz njih. Ko je treba podatke premakniti po gruči, jih okvir Unified Communication X preusmeri neposredno iz enega bloka pomnilnika GPU v drugega z minimalnimi dodatnimi stroški.

Po navedbah Nvidie je predogled izdaje Spark 3.0, ki se izvaja na platformi Databricks, prinesel sedemkratno izboljšanje zmogljivosti pri uporabi GPU pospeševanja, čeprav podrobnosti o obremenitvi in njenem naboru podatkov niso bile na voljo.

Za splošno razpoložljivost Spark 3.0 še ni naveden noben trden datum. Predogled izdaj lahko prenesete s spletnega mesta projekta Apache Spark.

Morda vam bo všeč tudi