AI Yote Chini ya Paa Moja™

Jinsi ya kutumia NVIDIA GPU kwa Mafunzo ya AI

Jinsi ya kutumia NVIDIA GPU kwa Mafunzo ya AI

Jibu fupi: Tumia GPU za NVIDIA kwa mafunzo ya AI kwa kuthibitisha kwanza kwamba kiendeshi na GPU zinaonekana na nvidia-smi , kisha kusakinisha mfumo/CUDA inayooana na kuendesha jaribio dogo la "modeli + kundi kwenye cuda". Ukibonyeza nje ya kumbukumbu, punguza ukubwa wa kundi na utumie usahihi mchanganyiko, huku ukifuatilia matumizi, kumbukumbu, na halijoto.

Mambo muhimu ya kuzingatia:

Ukaguzi wa msingi : Anza na nvidia-smi ; rekebisha mwonekano wa kiendeshi kabla ya kusakinisha mifumo.

Utangamano wa rafu : Weka kiendeshi, muda wa utekelezaji wa CUDA, na matoleo ya mfumo yakiwa yamepangwa ili kuzuia ajali na usakinishaji kuharibika.

Mafanikio madogo : Thibitisha upigaji pasi moja ya mbele kwenye CUDA kabla ya kuongeza majaribio.

Nidhamu ya VRAM : Tegemea usahihi mchanganyiko, mkusanyiko wa gradient, na upimaji ili kutoshea modeli kubwa zaidi.

Tabia ya ufuatiliaji : Fuatilia matumizi, mifumo ya kumbukumbu, nguvu, na halijoto ili uweze kutambua vikwazo mapema.

Makala ambazo unaweza kupenda kusoma baada ya hii:

🔗 Jinsi ya kujenga wakala wa akili bandia (AI)
Buni mtiririko wa kazi wa wakala wako, zana, kumbukumbu, na walinzi wa usalama.

🔗 Jinsi ya kusambaza mifumo ya AI
Weka mazingira, mifumo ya vifurushi, na usafirishe hadi uzalishaji kwa uhakika.

🔗 Jinsi ya kupima utendaji wa AI
Chagua vipimo, endesha tathmini, na ufuatilie utendaji baada ya muda.

🔗 Jinsi ya kufanya kazi kiotomatiki kwa kutumia akili bandia (AI)
Fanya kazi inayojirudia kiotomatiki kwa kutumia vidokezo, mtiririko wa kazi, na ujumuishaji.

1) Picha kubwa - unachofanya unapofanya mazoezi kwenye GPU 🧠⚡

Unapofunza mifumo ya AI, kwa kiasi kikubwa unafanya hesabu nyingi za matrix. GPU zimejengwa kwa ajili ya aina hiyo ya kazi sambamba, kwa hivyo mifumo kama PyTorch, TensorFlow, na JAX inaweza kupakia vifaa vizito vya kuinua hadi kwa GPU. ( PyTorch CUDA docs , TensorFlow install (pip) , JAX Quickstart )

Kwa vitendo, "kutumia GPU za NVIDIA kwa mafunzo" kwa kawaida humaanisha:

Vigezo vya modeli yako vipo (hasa) katika GPU VRAM
Makundi yako huhamishwa kutoka RAM hadi VRAM kila hatua
Pasi yako ya mbele na backprop inaendeshwa kwenye kernels za CUDA ( Mwongozo wa Programu wa CUDA )
Sasisho zako za optimera hutokea kwenye GPU (bora zaidi)
Unafuatilia halijoto, kumbukumbu, matumizi ili usipike chochote 🔥 ( NVIDIA nvidia-smi docs )

Ikiwa hiyo inasikika kama mengi, usijali. Kwa kiasi kikubwa ni orodha ya vitu unavyovifanya na tabia chache unazojenga baada ya muda.

2) Ni nini kinachofanya toleo zuri la usanidi wa mafunzo ya NVIDIA GPU AI 🤌

Hii ni sehemu ya "usijenge nyumba kwa jeli". Mpangilio mzuri wa Jinsi ya kutumia NVIDIA GPU kwa Mafunzo ya AI ni ule ambao ni wa chini sana. Ufupi sana ni thabiti. Uthabiti ni wa haraka. Haraka ni…sawa, haraka 😄

Mpangilio mzuri wa mafunzo kwa kawaida huwa na:

VRAM ya kutosha kwa ukubwa wa kundi lako + modeli + hali za kiboreshaji
- VRAM ni kama nafasi ya sanduku la nguo. Unaweza kufungasha vitu vizuri zaidi, lakini huwezi kufungasha vitu visivyo na kikomo.
Rafu ya programu inayolingana (kiendeshi + muda wa utekelezaji wa CUDA + utangamano wa mfumo) ( PyTorch Anza (kiteuzi cha CUDA) , usakinishaji wa TensorFlow (pip) )
Hifadhi ya haraka (NVMe husaidia sana kwa seti kubwa za data)
CPU nzuri + RAM ili upakiaji wa data usiifanye GPU kuwa na njaa ( Mwongozo wa Urekebishaji wa Utendaji wa PyTorch )
Kifaa cha kupoeza na kuwasha (kilichopunguzwa hadi kitakapokuwa hakijapoa 😬)
Mazingira yanayoweza kuzalishwa tena (venv/conda au vyombo) ili visasisho visigeuke kuwa machafuko ( muhtasari wa NVIDIA Container Toolkit )

Na jambo moja zaidi ambalo watu huliruka:

Tabia ya ufuatiliaji - unaangalia kumbukumbu ya GPU na matumizi yake kama vile unavyoangalia vioo unapoendesha gari. ( NVIDIA nvidia-smi docs )

3) Jedwali la Ulinganisho - njia maarufu za kufanya mazoezi na NVIDIA GPU (zilizo na tabia zisizo za kawaida) 📊

Hapa chini kuna karatasi ya kudanganya ya haraka ya "ipi inafaa?". Bei ni mbaya (kwa sababu ukweli hutofautiana), na ndiyo moja ya seli hizi ni ya kutatanisha kidogo, kwa makusudi.

Zana / Mbinu	Bora zaidi kwa	Bei	Kwa nini inafanya kazi (zaidi)
Tochi ya Py (vanilla) Tochi ya Py	watu wengi, miradi mingi	Bure	Mfumo ikolojia unaonyumbulika, mkubwa, utatuzi rahisi - pia kila mtu ana maoni
Hati za Umeme wa PyTorch	timu, mafunzo yaliyopangwa	Bure	Hupunguza mduara wa boilerplate, vitanzi safi zaidi; wakati mwingine huhisi kama "uchawi", hadi isiwe hivyo
Hati za Transfoma za Uso Zinazokumbatiana + Mkufunzi	Urekebishaji wa NLP + LLM	Bure	Mafunzo yaliyojumuishwa na betri, chaguo-msingi nzuri, ushindi wa haraka 👍
Kuharakisha Kuharakisha hati	GPU nyingi bila maumivu	Bure	Hufanya DDP isikasirishe, nzuri kwa kuongeza kasi bila kuandika upya kila kitu
za DeepSpeed ZeRO	mifano mikubwa, mbinu za kumbukumbu	Bure	ZeRO, kupakua, kuongeza ukubwa - inaweza kuwa ya kuchosha lakini yenye kuridhisha inapobofya
TensorFlow + Keras TF	mabomba yanayohusu uzalishaji	Bure	Vifaa imara, hadithi nzuri ya uwasilishaji; baadhi ya watu wanaipenda, wengine hawaipendi kimya kimya
za JAX + Flax JAX Quickstart / Flax	utafiti + wasomi wa kasi	Bure	Mkusanyiko wa XLA unaweza kuwa wa haraka sana, lakini utatuzi wa matatizo unaweza kuhisiwa…muhtasari
NVIDIA NeMo NeMo	mtiririko wa kazi wa hotuba + LLM	Bure	Mkusanyiko ulioboreshwa na NVIDIA, mapishi mazuri - huhisi kama kupikia na oveni ya kifahari 🍳
Muhtasari wa Zana za Kifaa cha Docker + NVIDIA	mazingira yanayoweza kuzalishwa tena	Bure	"Inafanya kazi kwenye mashine yangu" inakuwa "inafanya kazi kwenye mashine zetu" (mara nyingi, tena)

4) Hatua ya kwanza - thibitisha kuwa GPU yako inaonekana vizuri 🕵️♂️

Kabla ya kusakinisha vitu kadhaa, thibitisha misingi.

Mambo unayotaka kuwa kweli:

Mashine inaona GPU
Kiendeshi cha NVIDIA kimewekwa kwa usahihi
GPU haijakwama kufanya kitu kingine
Unaweza kuiuliza kwa uhakika

Ukaguzi wa kawaida ni:

nvidia-smi ( hati za nvidia-smi za NVIDIA )

Unachotafuta:

Jina la GPU (km, RTX, mfululizo wa A, n.k.)
Toleo la kiendeshi
Matumizi ya kumbukumbu
Kuendesha michakato ( hati za NVIDIA nvidia-smi )

Ikiwa nvidia-smi itashindwa, acha hapo hapo. Usisakinishe mifumo bado. Ni kama kujaribu kuoka mkate wakati oveni yako haijaunganishwa. ( Kiolesura cha Usimamizi wa Mfumo wa NVIDIA (NSVMI) )

Dokezo dogo la kibinadamu: wakati mwingine nvidia-smi hufanya kazi lakini mafunzo yako bado hayafanyi kazi kwa sababu muda wa uendeshaji wa CUDA unaotumiwa na mfumo wako haulingani na matarajio ya dereva. Huo si ujinga. Ndivyo ilivyo… ndivyo ilivyo 😭 ( PyTorch Anza (kiteuzi cha CUDA) , Usakinishaji wa TensorFlow (pip) )

5) Jenga rafu ya programu - viendeshi, CUDA, cuDNN, na "densi ya utangamano" 💃

Hapa ndipo watu wanapopoteza saa zao. Ujanja ni: chagua njia na ushikamane nayo .

Chaguo A: CUDA iliyounganishwa na Mfumo (mara nyingi ni rahisi zaidi)

PyTorch nyingi huundwa na muda wao wa kufanya kazi wa CUDA, kumaanisha huhitaji zana kamili ya CUDA iliyosakinishwa katika mfumo mzima. Unahitaji tu kiendeshi kinachoendana na NVIDIA. ( PyTorch Anza (kiteuzi cha CUDA) , Matoleo ya PyTorch ya Awali (magurudumu ya CUDA) )

Faida:

Sehemu chache zinazosogea
Usakinishaji rahisi zaidi
Inaweza kuzaliana zaidi kwa kila mazingira

Hasara:

Ukichanganya mazingira bila mpangilio, unaweza kuchanganyikiwa

Chaguo B: Zana ya CUDA ya Mfumo (udhibiti zaidi)

Unasakinisha zana ya CUDA kwenye mfumo na kuoanisha kila kitu nayo. ( Hati za zana za CUDA )

Faida:

Udhibiti zaidi kwa ajili ya miundo maalum, vifaa maalum
Inafaa kwa ajili ya kukusanya shughuli fulani

Hasara:

Njia zaidi za kutolingana kwa matoleo na kulia kimya kimya

cuDNN na NCCL, kwa upande wa kibinadamu

cuDNN huharakisha masomo ya msingi ya kujifunza kwa kina (convolutions, RNN bits, nk.) ( NVIDIA cuDNN docs )
NCCL ni maktaba ya haraka ya "mawasiliano ya GPU-hadi-GPU" kwa ajili ya mafunzo ya GPU nyingi ( muhtasari wa NCCL )

Ukifanya mazoezi ya GPU nyingi, NCCL ni rafiki yako mkubwa - na, wakati mwingine, mwenzako mwenza mwenye tabia ya hasira. ( Muhtasari wa NCCL )

6) Mafunzo yako ya kwanza ya GPU (mfano wa mawazo ya PyTorch) ✅🔥

Ili kufuata Jinsi ya kutumia NVIDIA GPU kwa Mafunzo ya AI , huhitaji mradi mkubwa kwanza. Unahitaji mafanikio madogo.

Mawazo ya msingi:

Gundua kifaa
Hamisha modeli hadi GPU
Hamisha vidhibiti vya sauti hadi GPU
Thibitisha upigaji pasi za mbele hapo ( hati za PyTorch CUDA )

Mambo ambayo mimi huangalia akili yangu mapema kila wakati:

torch.cuda.is_available() inarudisha Kweli ( torch.cuda.is_available )
next(model.parameters()).kifaa kinaonyesha cuda ( Jukwaa la PyTorch: angalia kielelezo kwenye CUDA )
Pasi moja ya mbele haina makosa
Kumbukumbu ya GPU huongezeka unapoanza mazoezi (ishara nzuri!) ( NVIDIA nvidia-smi docs )

Kawaida "kwa nini ni polepole?" gotchas

Kipakiaji data chako ni polepole sana (GPU haitumiki) ( Mwongozo wa Urekebishaji wa Utendaji wa PyTorch )
Umesahau kuhamisha data hadi kwenye GPU (oops)
Ukubwa wa kundi ni mdogo (GPU haitumiki kikamilifu)
Unafanya usindikaji mzito wa CPU katika hatua ya mafunzo

Pia, ndiyo, GPU yako mara nyingi itaonekana "sio na shughuli nyingi" ikiwa kikwazo ni data. Ni kama kuajiri dereva wa gari la mbio kisha kumfanya asubiri mafuta kila mzunguko.

7) Mchezo wa VRAM - ukubwa wa kundi, usahihi mchanganyiko, na sio kulipuka 💥🧳

Matatizo mengi ya mafunzo ya vitendo yanatokana na kumbukumbu. Ukijifunza ujuzi mmoja, jifunze usimamizi wa VRAM.

Njia za haraka za kupunguza matumizi ya kumbukumbu

Usahihi mchanganyiko (FP16/BF16)
- Kawaida huongeza kasi kubwa pia. Ushindi-ushinde 😌 ( Nyaraka za PyTorch AMP , mwongozo wa usahihi mchanganyiko wa TensorFlow )
Mkusanyiko wa gradient
- Iga ukubwa mkubwa wa kundi kwa kukusanya gradients katika hatua nyingi ( Hati za mafunzo ya Transformers (gradient accumulation, fp16) )
Urefu mdogo wa mfuatano / saizi ya kupunguzwa
- Kikatili lakini chenye ufanisi
Ukaguzi wa uanzishaji
- Badilisha hesabu kwa kumbukumbu (rejesha uanzishaji wakati wa kurudi nyuma) ( torch.utils.checkpoint )
Tumia kiboreshaji nyepesi
- Baadhi ya viboreshaji huhifadhi hali za ziada zinazotafuna VRAM

Wakati wa "kwa nini VRAM bado imejaa baada ya mimi kuacha?"

Mara nyingi mifumo huhifadhi kumbukumbu kwa ajili ya utendaji. Hii ni kawaida. Inaonekana inatisha lakini si mara zote huvuja. Unajifunza kusoma mifumo. ( Semantiki ya PyTorch CUDA: mgawanyaji wa hifadhidata )

Tabia ya vitendo:

Saa iliyotengwa dhidi ya kumbukumbu iliyohifadhiwa (maalum kwa mfumo) ( Semantiki ya PyTorch CUDA: mgawanyaji wa akiba )
Usiogope kwa nambari ya kwanza ya kutisha 😅

8) Fanya GPU ifanye kazi kweli - urekebishaji wa utendaji unaofaa muda wako 🏎️

Kufanya "mafunzo ya GPU yafanye kazi" ni hatua ya kwanza. Kuifanya haraka ni hatua ya pili.

Uboreshaji wenye athari kubwa

Ongeza ukubwa wa kundi (mpaka liumie, kisha rudi nyuma kidogo)
Tumia kumbukumbu iliyobandikwa katika vipakiaji data (nakala za haraka zaidi kutoka kwa mwenyeji hadi kifaa) ( Mwongozo wa Urekebishaji wa Utendaji wa PyTorch , mafunzo ya PyTorch pin_memory/non_blocking )
Ongeza wafanyakazi wa kupakia data (kuwa mwangalifu, wengi mno wanaweza kurudisha nyuma) ( Mwongozo wa Urekebishaji wa Utendaji wa PyTorch )
Weka mapema makundi ili GPU isifanye kazi
Tumia ops zilizounganishwa / kerneli zilizoboreshwa zinapopatikana
Tumia usahihi mchanganyiko (tena, ni mzuri sana) ( hati za PyTorch AMP )

Kikwazo kinachopuuzwa zaidi

Bomba lako la kuhifadhi na kuchakata awali. Ikiwa seti ya data yako ni kubwa na imehifadhiwa kwenye diski polepole, GPU yako inakuwa hita ya nafasi ya gharama kubwa. Hita ya nafasi ya juu sana na inayong'aa sana.

Pia, kukiri kidogo: "Nimeboresha" mfumo kwa saa moja na kugundua kuwa uandishi ulikuwa kikwazo. Kuchapisha kupita kiasi kunaweza kupunguza mafunzo. Ndiyo, kunaweza.

9) Mafunzo ya GPU nyingi - DDP, NCCL, na kuongeza ukubwa bila machafuko 🧩🤝

Ukitaka mifumo ya kasi zaidi au kubwa zaidi, unachagua GPU nyingi. Hapa ndipo mambo yanapozidi kuwa magumu.

Mbinu za kawaida

Sambamba ya Data (DDP)
- Gawanya makundi katika GPU, sawazisha gradients
- Kawaida chaguo chaguo-msingi la "nzuri" ( PyTorch DDP docs )
Mfano Sambamba / Sambamba ya Tensor
- Gawanya modeli kati ya GPU (kwa modeli kubwa sana)
Sambamba ya Bomba
- Gawanya tabaka za modeli katika hatua (kama mstari wa kusanyiko, lakini kwa tensors)

Kama unaanza, mafunzo ya mtindo wa DDP ndiyo sehemu tamu. ( Mafunzo ya PyTorch DDP )

Vidokezo vya vitendo vya GPU nyingi

Hakikisha GPU zina uwezo sawa (kikwazo cha kuchanganya kopo)
Muunganisho wa saa: NVLink dhidi ya PCIe ni muhimu kwa mzigo mzito wa kazi unaosawazishwa ( muhtasari wa NVIDIA NVLink , hati za NVIDIA NVLink )
Weka ukubwa wa kundi la GPU ukiwa sawa
Usipuuze CPU na hifadhi - GPU nyingi zinaweza kuongeza vikwazo vya data

Na ndiyo, makosa ya NCCL yanaweza kuhisi kama kitendawili kilichofunikwa katika fumbo lililofunikwa katika "kwa nini sasa". Hujalaaniwa. Labda. ( Muhtasari wa NCCL )

10) Ufuatiliaji na uundaji wa wasifu - mambo yasiyo na umaarufu ambayo yanakuokoa saa 📈🧯

Huna haja ya dashibodi za kifahari ili kuanza. Unahitaji kutambua wakati kitu kimezimwa.

Ishara muhimu za kutazama

Matumizi ya GPU : je, ni ya juu kila wakati au yenye miiba?
Matumizi ya kumbukumbu : imara, kupanda, au ya ajabu?
Kuvuta umeme : kiwango cha chini kisicho cha kawaida kinaweza kumaanisha matumizi duni
Halijoto : halijoto ya juu inayoendelea inaweza kupunguza utendaji
Matumizi ya CPU : matatizo ya bomba la data yanaonekana hapa ( Mwongozo wa Urekebishaji wa Utendaji wa PyTorch )

Mtazamo wa kuorodhesha (toleo rahisi)

Ikiwa GPU ina matumizi ya chini - data au kizuizi cha CPU
Ikiwa GPU ni ya juu lakini polepole - ukosefu wa ufanisi wa kernel, usahihi, au usanifu wa modeli
Ikiwa kasi ya mafunzo itapungua bila mpangilio - kuganda kwa joto, michakato ya usuli, vikwazo vya I/O

Najua, ufuatiliaji hauonekani kuwa wa kufurahisha. Lakini ni kama kupiga floss. Inakera, kisha ghafla maisha yako yanaboreka.

11) Kutatua matatizo - washukiwa wa kawaida (na wale wasio wa kawaida sana) 🧰😵💫

Sehemu hii kimsingi ni: "masuala yaleyale matano, milele."

Tatizo: CUDA imepotea kwenye kumbukumbu

Marekebisho:

punguza ukubwa wa kundi
tumia usahihi mchanganyiko ( hati za PyTorch AMP , mwongozo wa usahihi mchanganyiko wa TensorFlow )
mkusanyiko wa gradient ( Hati za mafunzo ya transfoma (mkusanyiko wa gradient, fp16) )
uanzishaji wa sehemu ya ukaguzi ( torch.utils.checkpoint )
funga michakato mingine ya GPU

Tatizo: Mafunzo yanaendeshwa kwa bahati mbaya kwenye CPU

Marekebisho:

hakikisha modeli imehamishwa hadi Cuda
hakikisha tensors zimehamishwa hadi cuda
angalia usanidi wa kifaa cha mfumo ( hati za PyTorch CUDA )

Tatizo: Ajali za ajabu au ufikiaji haramu wa kumbukumbu

Marekebisho:

thibitisha utangamano wa kiendeshi + wakati wa utekelezaji ( PyTorch Anza (kiteuzi cha CUDA) , usakinishaji wa TensorFlow (pip) )
jaribu mazingira safi
punguza operesheni maalum
fanya upya kwa mipangilio ya deterministic-ish ili kuzaliana tena

Tatizo: Polepole kuliko ilivyotarajiwa

Marekebisho:

angalia upitishaji wa kipakiaji data ( Mwongozo wa Urekebishaji wa Utendaji wa PyTorch )
ongeza ukubwa wa kundi
punguza kumbukumbu
Wezesha usahihi mchanganyiko ( hati za PyTorch AMP )
uchanganuzi wa muda wa hatua ya wasifu

Tatizo: GPU nyingi hutegemea

Marekebisho:

thibitisha mipangilio sahihi ya sehemu ya nyuma ( hati zilizosambazwa za PyTorch )
angalia usanidi wa mazingira ya NCCL (kuwa mwangalifu) ( muhtasari wa NCCL )
jaribu GPU moja kwanza
hakikisha mtandao/muunganisho ni mzuri

Dokezo dogo la kurudi nyuma: wakati mwingine marekebisho ni kuwasha upya. Inahisi kama ujinga. Inafanya kazi. Kompyuta ziko hivyo.

12) Gharama na utendakazi - kuchagua GPU sahihi ya NVIDIA na usanidi bila kufikiria kupita kiasi 💸🧠

Sio kila mradi unahitaji GPU kubwa zaidi. Wakati mwingine unahitaji ya kutosha .

Kama unarekebisha mifumo ya kati

Weka kipaumbele kwa VRAM na uthabiti
Usahihi mchanganyiko husaidia sana ( hati za PyTorch AMP , mwongozo wa usahihi mchanganyiko wa TensorFlow )
Mara nyingi unaweza kuepuka kutumia GPU moja yenye nguvu

Kama unawafunza wanamitindo wakubwa kuanzia mwanzo

Utahitaji GPU nyingi au VRAM kubwa sana
Utajali kuhusu NVLink na kasi ya mawasiliano ( muhtasari wa NVIDIA NVLink , muhtasari wa NCCL )
Huenda utatumia viboreshaji kumbukumbu (ZeRO, offload, n.k.) ( DeepSpeed ZeRO docs , Microsoft Research: ZeRO/DeepSpeed )

Kama unafanya majaribio

Unataka urejeshaji wa haraka
Usitumie pesa zako zote kwenye GPU kisha ukate hifadhi na RAM
Mfumo uliosawazishwa hushinda mfumo uliopotoka (siku nyingi)

Na kwa kweli, unaweza kupoteza wiki nyingi ukifuatilia chaguo "kamili" za vifaa. Jenga kitu kinachoweza kutekelezeka, pima, kisha urekebishe. Adui halisi si kuwa na mzunguko wa maoni.

Maelezo ya Kufunga - Jinsi ya kutumia NVIDIA GPU kwa Mafunzo ya AI bila kupoteza akili 😌✅

Usipochukua chochote kingine kutoka kwa mwongozo huu kuhusu Jinsi ya kutumia NVIDIA GPU kwa Mafunzo ya AI , chukua hii:

Hakikisha nvidia-smi inafanya kazi kwanza ( NVIDIA nvidia-smi docs )
Chagua njia safi ya programu (CUDA iliyounganishwa na mfumo mara nyingi ni rahisi zaidi) ( PyTorch Get Started (kiteuzi cha CUDA) )
Thibitisha mafunzo madogo ya GPU kabla ya kuongeza ( torch.cuda.is_available )
Dhibiti VRAM kana kwamba ni rafu ndogo ya kuhifadhi vitu vya kuhifadhia chakula
Tumia usahihi mchanganyiko mapema - sio "vitu vya hali ya juu" tu ( hati za PyTorch AMP , mwongozo wa usahihi mchanganyiko wa TensorFlow )
Ikiwa ni polepole, shuku kipakiaji data na I/O kabla ya kulaumu GPU ( Mwongozo wa Urekebishaji wa Utendaji wa PyTorch )
GPU nyingi zina nguvu lakini huongeza ugumu - punguza polepole ( hati za PyTorch DDP , muhtasari wa NCCL )
Fuatilia matumizi na halijoto ili matatizo yaonekane mapema ( hati za NVIDIA nvidia-smi )

Mafunzo kuhusu NVIDIA GPU ni mojawapo ya ujuzi unaotisha, kisha ghafla inakuwa kawaida tu. Kama kujifunza kuendesha gari. Mwanzoni kila kitu kinakuwa kikubwa na kinachanganya na unashika gurudumu kwa nguvu sana. Kisha siku moja unasafiri kwa kasi, unakunywa kahawa, na unatatua tatizo la ukubwa wa kundi kama si jambo kubwa ☕😄

Maswali Yanayoulizwa Mara kwa Mara

Inamaanisha nini kufunza modeli ya AI kwenye NVIDIA GPU

Mafunzo kwenye NVIDIA GPU yanamaanisha vigezo vyako vya modeli na makundi ya mafunzo yanaishi katika GPU VRAM, na hesabu nzito (forward pass, backprop, optimizer stairs) hutekelezwa kupitia kernels za CUDA. Kwa vitendo, hii mara nyingi inategemea kuhakikisha modeli na tensors ziko kwenye cuda , kisha kufuatilia kumbukumbu, matumizi, na halijoto ili matokeo yabaki sawa.

Jinsi ya kuthibitisha kuwa GPU ya NVIDIA inafanya kazi kabla ya kusakinisha kitu kingine chochote

Anza na nvidia-smi . Inapaswa kuonyesha jina la GPU, toleo la kiendeshi, matumizi ya kumbukumbu ya sasa, na michakato yoyote inayoendeshwa. Ikiwa nvidia-smi itashindwa, subiri PyTorch/TensorFlow/JAX - rekebisha mwonekano wa kiendeshi kwanza. Ni msingi wa kuangalia "ni oveni imeunganishwa" kwa mafunzo ya GPU.

Kuchagua kati ya mfumo wa CUDA na CUDA iliyounganishwa na PyTorch

Mbinu ya kawaida ni kutumia CUDA iliyounganishwa na mfumo (kama magurudumu mengi ya PyTorch) kwa sababu hupunguza sehemu zinazosogea - unahitaji kiendeshi cha NVIDIA kinachoendana nacho. Kusakinisha zana kamili ya CUDA ya mfumo hutoa udhibiti zaidi (ujenzi maalum, uundaji wa programu), lakini pia huanzisha fursa zaidi za kutolingana kwa matoleo na hitilafu za wakati wa utekelezaji zinazochanganya.

Kwa nini mafunzo bado yanaweza kuwa polepole hata na GPU ya NVIDIA

Mara nyingi, GPU hushindwa na bomba la kuingiza data. Vipakiaji data vinavyochelewa, usindikaji mzito wa CPU ndani ya hatua ya mafunzo, ukubwa mdogo wa kundi, au uhifadhi wa polepole vyote vinaweza kufanya GPU yenye nguvu ifanye kama hita ya nafasi isiyofanya kazi. Kuongeza wafanyakazi wa vipakiaji data, kuwezesha kumbukumbu iliyobanwa, kuongeza uwekaji data mapema, na kupunguza kumbukumbu ni hatua za kawaida za kwanza kabla ya kulaumu modeli.

Jinsi ya kuzuia makosa ya "CUDA kutoka kwenye kumbukumbu" wakati wa mafunzo ya NVIDIA GPU

Marekebisho mengi ni mbinu za VRAM: kupunguza ukubwa wa kundi, kuwezesha usahihi mchanganyiko (FP16/BF16), tumia mkusanyiko wa gradient, fupisha urefu wa mfuatano/ukubwa wa kupunguza, au tumia uangalizi wa uanzishaji. Pia angalia michakato mingine ya GPU inayotumia kumbukumbu. Baadhi ya majaribio na hitilafu ni ya kawaida - Upangaji bajeti wa VRAM unakuwa tabia kuu katika mafunzo ya vitendo ya GPU.

Kwa nini VRAM bado inaweza kuonekana imejaa baada ya hati ya mafunzo kuisha

Mara nyingi mifumo huhifadhi kumbukumbu ya GPU kwa ajili ya kasi, kwa hivyo kumbukumbu iliyohifadhiwa inaweza kubaki juu hata wakati kumbukumbu iliyotengwa inapungua. Inaweza kufanana na uvujaji, lakini mara nyingi ni mgawanyaji wa hifadhidata anayefanya kazi kama ilivyoundwa. Tabia ya vitendo ni kufuatilia muundo baada ya muda na kulinganisha "uliotengwa dhidi ya uliohifadhiwa" badala ya kuzingatia picha moja ya kutisha.

Jinsi ya kuthibitisha modeli si mafunzo ya kimya kimya kwenye CPU

Angalia kwa makini mapema: thibitisha torch.cuda.is_available() inarudisha True , thibitisha next(model.parameters()). kifaa kinaonyesha cuda , na utumie pasi moja ya mbele bila hitilafu. Ikiwa utendaji unahisi polepole sana, pia thibitisha kuwa makundi yako yanahamishwa hadi kwenye GPU. Ni kawaida kuhamisha modeli na kuacha data kwa bahati mbaya.

Njia rahisi zaidi ya mafunzo ya GPU nyingi

Data Parallel (mafunzo ya mtindo wa DDP) mara nyingi ndiyo hatua bora ya kwanza: gawanya makundi katika GPU na ulandanishi wa gradient. Zana kama vile Accelerate zinaweza kufanya GPU nyingi zisiwe na uchungu bila kuandika upya kamili. Tarajia vigeu vya ziada - mawasiliano ya NCCL, tofauti za muunganisho (NVLink dhidi ya PCIe), na vikwazo vya data vilivyoimarishwa - kwa hivyo kuongeza kasi polepole baada ya uendeshaji thabiti wa GPU moja huwa bora zaidi.

Mambo ya kufuatilia wakati wa mafunzo ya NVIDIA GPU ili kubaini matatizo mapema

Tazama matumizi ya GPU, matumizi ya kumbukumbu (thabiti dhidi ya kupanda), mvuto wa nguvu, na halijoto - kuzungusha kunaweza kupunguza kasi kimya kimya. Pia angalia matumizi ya CPU, kwani shida ya bomba la data mara nyingi huonekana hapo kwanza. Ikiwa matumizi ni ya miiba au ya chini, shuku I/O au vipakiaji data; ikiwa ni ya juu lakini muda wa hatua bado ni wa polepole, viini vya wasifu, hali ya usahihi, na uchanganuzi wa muda wa hatua.

Marejeleo

Hati za NVIDIA - NVIDIA nvidia-smi - docs.nvidia.com
NVIDIA - Kiolesura cha Usimamizi wa Mfumo wa NVIDIA (NSVMI) - developer.nvidia.com
NVIDIA - NVIDIA NVLink - nvidia.com
PyTorch - Anza na PyTorch (kiteuzi cha CUDA) - pytorch.org
PyTorch - PyTorch Hati za CUDA - docs.pytorch.org
TensorFlow - Usakinishaji wa TensorFlow (bomba) - tensorflow.org
JAX - JAX Quickstart - docs.jax.dev
Uso Unaokumbatiana - Hati za Mkufunzi - huggingface.co
AI ya Umeme - Hati za Umeme - lightning.ai
DeepSpeed - Hati za ZeRO - deepspeed.readthedocs.io
Utafiti wa Microsoft - Utafiti wa Microsoft: ZeRO/DeepSpeed - microsoft.com
Majukwaa ya PyTorch - Jukwaa la PyTorch: angalia mfano kwenye CUDA - discuss.pytorch.org

Pata Akili ya Kielektroniki ya Hivi Punde katika Duka Rasmi la Msaidizi wa Akili ya Kielektroniki

Kuhusu Sisi

Rudi kwenye blogu