Jinsi ya kutengeneza Mfano wa AI. Hatua Kamili Zimeelezwa.

Kutengeneza mfumo wa AI kunasikika kama jambo la kushangaza - kama mwanasayansi katika filamu anayenung'unika kuhusu mambo ya kipekee - hadi utakapofanya mara moja. Kisha unagundua kuwa ni nusu ya kazi ya usafi wa data, nusu ya mabomba ya kuchezea, na ni jambo la ajabu la kushawishi. Mwongozo huu unaelezea Jinsi ya kutengeneza mfumo wa AI mwisho hadi mwisho: maandalizi ya data, mafunzo, majaribio, uwasilishaji, na ndiyo - ukaguzi wa usalama unaochosha lakini muhimu. Tutazungumza kwa sauti ya kawaida, kwa undani, na kuweka emojis katika mchanganyiko, kwa sababu kwa kweli, kwa nini uandishi wa kiufundi uhisi kama kuwasilisha kodi?

Makala ambazo unaweza kupenda kusoma baada ya hii:

🔗 Arbitrage ya AI ni nini: Ukweli ulio nyuma ya neno gumzo
Inaelezea usuluhishi wa AI, hatari zake, fursa, na athari zake katika ulimwengu halisi.

🔗 Mkufunzi wa akili bandia ni nini?
Hushughulikia jukumu, ujuzi, na majukumu ya mkufunzi wa AI.

🔗 Akili bandia ya mfano ni nini: Yote unayohitaji kujua
Huchambua dhana za AI za mfano, historia, na matumizi ya vitendo.

Kinachounda Mfano wa AI - Mambo ya Msingi ✅

Mfano "mzuri" si ule unaofikia usahihi wa 99% tu kwenye daftari lako la wasanidi programu na kisha kukuaibisha katika uzalishaji. Ni ule unao:

Imeandaliwa vizuri → tatizo ni zuri, ingizo/matokeo ni dhahiri, kipimo kinakubaliwa.
Data-ya kweli → seti ya data kwa kweli inaakisi ulimwengu halisi wenye fujo, si toleo la ndoto lililochujwa. Usambazaji unajulikana, uvujaji umefungwa, lebo zinaweza kufuatiliwa.
imara → hauanguki ikiwa mpangilio wa safu wima unabadilika au kuingiza huteleza kidogo.
Imetathminiwa kwa kutumia vipimo vya mantiki → vinavyoendana na uhalisia, si ubatili wa ubao wa wanaoongoza. ROC AUC inaonekana nzuri lakini wakati mwingine F1 au urekebishaji ndio jambo ambalo biashara inajali.
Inaweza kutekelezwa → muda wa makadirio unaotabirika, rasilimali nzuri, ufuatiliaji wa baada ya kutekelezwa umejumuishwa.
Uwajibikaji → vipimo vya haki, utafsiri, ulinzi dhidi ya matumizi mabaya [1].

Ukizipata hizi tayari umefika mwisho. Kilichobaki ni kurudia tu… na "hisia ya utumbo." 🙂

Hadithi ndogo ya vita: kwenye mfumo wa ulaghai, kwa ujumla F1 ilionekana nzuri sana. Kisha tukagawanyika kwa jiografia + "zawadi ya kadi dhidi ya sivyo." Mshangao: hasi zisizo sahihi ziliongezeka katika kipande kimoja. Somo lilichoma - kata mapema, kata mara kwa mara.

Anza Haraka: njia fupi zaidi ya kutengeneza Mfano wa AI ⏱️

Fafanua kazi : uainishaji, urejelezaji, cheo, uwekaji lebo wa mfuatano, kizazi, pendekezo.
Kusanya data : kukusanya, kuchambua, kugawanya ipasavyo (muda/kitu), iandike [1].
Msingi : anza kidogo kila wakati - urejeshaji wa vifaa, mti mdogo [3].
Chagua familia ya modeli : jedwali → kuongeza mteremko; maandishi → kibadilishaji kidogo; maono → CNN iliyofunzwa tayari au uti wa mgongo [3][5].
Kitanzi cha mafunzo : kiboreshaji + kusimamishwa mapema; fuatilia hasara na uthibitishaji [4].
Tathmini : thibitisha kwa njia tofauti, chambua makosa, jaribu chini ya mabadiliko.
Kifurushi : vizito vya kuhifadhi, vichakataji awali, kifungashio cha API [2].
Kifuatiliaji : kuteleza kwa saa, kuchelewa, kuoza kwa usahihi [2].

Inaonekana nadhifu kwenye karatasi. Kwa vitendo, ni chafu. Na hiyo ni sawa.

Jedwali la Ulinganisho: zana za Jinsi ya kutengeneza Mfano wa AI 🛠️

Zana / Maktaba	Bora Kwa	Bei	Kwa Nini Inafanya Kazi (maelezo)
kujifunza-scikit	Jedwali, misingi	Bure - OSS	API Safi, majaribio ya haraka; bado inashinda vitabu vya zamani [3].
PyTorch	Kujifunza kwa kina	Bure - OSS	Jumuiya kubwa, inayosomeka, na yenye nguvu [4].
TensorFlow + Keras	Uzalishaji DL	Bure - OSS	Rafiki kwa Keras; Huduma ya TF hulainisha uwekaji.
JAX + Kitani	Utafiti + kasi	Bure - OSS	Autodiff + XLA = ongezeko la utendaji.
Vibadilishaji vya Uso Vinavyokumbatiana	NLP, CV, sauti	Bure - OSS	Mifano iliyoandaliwa tayari + mabomba... busu la mpishi [5].
XGBoost/LightGBM	Utawala wa jedwali	Bure - OSS	Mara nyingi hushinda DL kwenye seti za data za kawaida.
FastAI	DL rafiki	Bure - OSS	Viwango vya juu vya kusamehe, chaguo-msingi.
Wingu AutoML (mbalimbali)	Hakuna/msimbo wa chini	$ Kulingana na matumizi	Buruta, dondosha, sambaza; imara kwa kushangaza.
Muda wa Kuendesha wa ONNX	Kasi ya makadirio	Bure - OSS	Huduma bora, rafiki kwa mazingira.

Hati ambazo utaendelea kuzifungua tena: scikit-learn [3], PyTorch [4], Kukumbatiana kwa Uso [5].

Hatua ya 1 - Eleza tatizo kama mwanasayansi, si shujaa 🎯

Kabla ya kuandika msimbo, sema hivi kwa sauti: Je, mfumo huu utaleta uamuzi gani? Ikiwa hilo ni jambo lisiloeleweka, seti ya data itakuwa mbaya zaidi.

Lengo la utabiri → safu wima moja, ufafanuzi mmoja. Mfano: kuzungusha ndani ya siku 30?
Uzito → kwa kila mtumiaji, kwa kila kipindi, kwa kila kipengee - usichanganye. Hatari ya uvujaji inaongezeka.
Vikwazo → ucheleweshaji, kumbukumbu, faragha, ukingo dhidi ya seva.
Kipimo cha mafanikio → msingi mmoja + walinzi kadhaa. Madarasa yasiyo na usawa? Tumia AUPRC + F1. Urejeshaji? MAE inaweza kushinda RMSE wakati wa wastani ni muhimu.

Ushauri kutoka vitani: Andika vikwazo hivi + kipimo kwenye ukurasa wa kwanza wa README. Huhifadhi hoja za baadaye wakati utendaji dhidi ya ucheleweshaji unapogongana.

Hatua ya 2 - Ukusanyaji wa data, usafi, na mgawanyiko ambao kwa kweli huendelea 🧹📦

Data ndiyo mfumo. Unajua hilo. Hata hivyo, mitego:

Asili → ilitoka wapi, ni nani anayeimiliki, chini ya sera gani [1].
Lebo → miongozo thabiti, ukaguzi wa watoa maelezo, ukaguzi.
Kuondoa nakala rudufu → Vipimo vya ujazo wa siri hupandisha.
Mgawanyiko → nasibu si sahihi kila wakati. Tumia kulingana na wakati kwa utabiri, kulingana na chombo ili kuepuka uvujaji wa mtumiaji.
Kuvuja → hakuna kuchungulia mustakabali wakati wa mazoezi.
Hati → andika kadi ya data yenye mpangilio, mkusanyiko, na upendeleo [1].

Tambiko: taswira usambazaji lengwa + vipengele vya juu. Pia zuia lisiloguswa kamwe hadi mwisho.

Hatua ya 3 - Misingi ya kwanza: mfumo mnyenyekevu unaookoa miezi 🧪

Misingi si ya kuvutia, lakini inaweka msingi wa matarajio.

Jedwali → scikit-learn LogisticRegression au RandomForest, kisha XGBoost/LightGBM [3].
Maandishi → TF-IDF + kiainishaji cha mstari. Uhakiki wa usawa kabla ya Transfoma.
Maono → CNN ndogo au uti wa mgongo uliofunzwa tayari, tabaka zilizogandishwa.

Ikiwa wavu wako wa kina haufikii msingi, pumua. Wakati mwingine ishara si imara.

Hatua ya 4 - Chagua mbinu ya uundaji wa modeli inayolingana na data 🍱

Jedwali

Kuongeza gradient kwanza - kuna ufanisi mkubwa. Uhandisi wa vipengele (mwingiliano, usimbaji) bado ni muhimu.

Maandishi

Transfoma zilizoandaliwa tayari zenye urekebishaji mwepesi. Mfano uliosafishwa ikiwa muda wa kuchelewa ni muhimu [5]. Tokenizers pia ni muhimu. Kwa mafanikio ya haraka: mabomba ya HF.

Picha

Anza na uti wa mgongo uliofunzwa tayari + rekebisha kichwa vizuri. Ongeza kwa uhalisia (kugeuza, kupunguza, kutikisa). Kwa data ndogo, vipimo vya risasi chache au vya mstari.

Mfululizo wa wakati

Misingi: vipengele vya kuchelewa, wastani unaosonga. Miti ya zamani ya ARIMA dhidi ya miti ya kisasa iliyoimarishwa. Daima heshimu mpangilio wa muda katika uthibitishaji.

Kanuni ya kidole gumba: modeli ndogo, thabiti > mnyama anayefaa kupita kiasi.

Hatua ya 5 - Kitanzi cha mafunzo, lakini usifanye mambo kuwa magumu kupita kiasi 🔁

Unachohitaji: kipakiaji data, modeli, upotevu, kiboreshaji, kipanga ratiba, kumbukumbu. Imekamilika.

Viboreshaji : Adam au SGD wenye kasi. Usibadilishe kupita kiasi.
Ukubwa wa kundi : ongeza kumbukumbu ya kifaa bila kuiharibu.
Urekebishaji : kuacha shule, kupungua uzito, kuacha mapema.
Usahihi mchanganyiko : ongezeko kubwa la kasi; mifumo ya kisasa hurahisisha [4].
Uzazi tena : mbegu zilizowekwa. Bado zitatetemeka. Hiyo ni kawaida.

Tazama mafunzo ya PyTorch kwa ruwaza za kisheria [4].

Hatua ya 6 - Tathmini inayoakisi uhalisia, si pointi za ubao wa wanaoongoza 🧭

Angalia vipande, si wastani tu:

Urekebishaji → uwezekano unapaswa kumaanisha kitu. Michoro ya kutegemewa husaidia.
Ufahamu wa kuchanganyikiwa → mikondo ya kizingiti, maelewano yanaonekana.
Ndoo za hitilafu → zimegawanywa kwa eneo, kifaa, lugha, wakati. Doa udhaifu.
Uimara → mtihani chini ya zamu, pembejeo za usumbufu.
Kifaa cha ndani ya binadamu → ikiwa watu watakitumia, jaribu urahisi wa matumizi.

Hadithi ya haraka: kushuka mara moja kwa urejeshaji kulitokana na kutolingana kwa urekebishaji wa Unicode kati ya mafunzo dhidi ya uzalishaji. Gharama? Pointi 4 kamili.

Hatua ya 7 - Ufungashaji, huduma, na MLOps bila michubuko 🚚

Hapa ndipo miradi mara nyingi hukwama.

Vipengee : uzani wa modeli, vichakataji awali, hashi ya commit.
Env : matoleo ya pini, punguza konda kwenye kontena.
Kiolesura : REST/gRPC na /health + /predict .
Muda wa kusubiri/kupitisha : maombi ya kundi, modeli za kupasha joto.
Vifaa : CPU nzuri kwa ajili ya vifaa vya zamani; GPU kwa ajili ya DL. Muda wa uendeshaji wa ONNX huongeza kasi/uwezo wa kubebeka.

Kwa bomba kamili (CI/CD/CT, ufuatiliaji, kurudi nyuma), hati za MLOps za Google ni thabiti [2].

Hatua ya 8 - Ufuatiliaji, kuteleza, na mazoezi upya bila hofu 📈🧭

Mifumo huharibika. Watumiaji hubadilika. Mifumo ya data haifanyi kazi vizuri.

Ukaguzi wa data : schema, masafa, nulls.
Utabiri : usambazaji, vipimo vya kuteleza, mambo yasiyo ya kawaida.
Utendaji : mara tu lebo zitakapofika, hesabu vipimo.
Tahadhari : ucheleweshaji, makosa, kuteleza.
Zuia tena kasi : kulingana na kichocheo > kulingana na kalenda.

Andika mfuatano. Wiki inashinda "kumbukumbu ya kikabila." Tazama vitabu vya michezo vya Google CT [2].

Akili bandia inayowajibika: usawa, faragha, utafsiri 🧩🧠

Ikiwa watu wataathiriwa, uwajibikaji si jambo la hiari.

Vipimo vya haki → tathmini katika makundi nyeti, punguza mapengo [1].
Ufafanuzi → SHAP kwa jedwali, sifa kwa kina. Shikilia kwa uangalifu.
Faragha/usalama → punguza PII, ficha utambulisho, funga vipengele.
Sera → andika matumizi yaliyokusudiwa dhidi ya yaliyokatazwa. Huokoa maumivu baadaye [1].

Muhtasari mfupi mfupi 🧑🍳

Tuseme tunaainisha mapitio: chanya dhidi ya hasi.

Data → hukusanya mapitio, huamua, hugawanya kwa wakati [1].
Msingi → TF-IDF + urejelezaji wa vifaa (scikit-learn) [3].
Boresha → transfoma ndogo iliyoandaliwa tayari yenye Uso Unaokumbatiana [5].
Treni → vipindi vichache, kituo cha mapema, njia F1 [4].
Eval → matrix ya mkanganyiko, usahihi @ ukumbusho, urekebishaji.
Kifurushi → tokenizer + modeli, kifungashio cha FastAPI [2].
Kifuatiliaji → mkondo wa kutazama katika kategoria mbalimbali [2].
Marekebisho yanayowajibika → chuja PII, heshimu data nyeti [1].

Ucheleweshaji mdogo? Tenganisha modeli au tuma kwa ONNX.

Makosa ya kawaida yanayowafanya wanamitindo waonekane werevu lakini wanafanya ujinga 🙃

Vipengele vinavyovuja (data ya baada ya tukio kwenye treni).
Kipimo kibaya (AUC wakati timu inajali kuhusu urejeshaji).
Seti ndogo ya val ("mafanikio makubwa" yenye kelele).
Usawa wa tabaka umepuuzwa.
Usindikaji wa awali haulingani (usafirishaji dhidi ya huduma).
Kubinafsisha kupita kiasi mapema sana.
Kusahau vikwazo (mfano mkubwa katika programu ya simu).

Mbinu za uboreshaji 🔧

Ongeza nadhifu : hasi kali, uboreshaji halisi.
Rekebisha kwa bidii zaidi: kuacha shule, mifumo midogo.
Ratiba za viwango vya kujifunza (cosine/hatua).
Kufagia kwa wingi - kubwa si mara zote huwa bora zaidi.
Usahihi mchanganyiko + uundaji wa vekta kwa kasi [4].
Upimaji, kupogoa hadi mifano nyembamba.
Upachikaji wa akiba/uendeshaji mzito wa kompyuta kabla.

Uwekaji lebo wa data ambao haujaharibika 🏷️

Miongozo: ya kina, yenye visanduku vya pembeni.
Vitambulisho vya treni: kazi za urekebishaji, ukaguzi wa makubaliano.
Ubora: seti za dhahabu, ukaguzi wa moja kwa moja.
Zana: seti za data zilizobadilishwa, michoro inayoweza kuhamishwa.
Maadili: malipo ya haki, kutafuta bidhaa kwa uwajibikaji. Kituo kamili [1].

Mifumo ya upelekaji 🚀

Ufungaji wa kundi → kazi za usiku, ghala.
Huduma ndogo ya muda halisi → API ya kusawazisha, ongeza akiba.
Kutiririsha → kunaendeshwa na matukio, k.m., ulaghai.
Edge → compress, vifaa vya majaribio, ONNX/TensorRT.

Weka kitabu cha kusubiri: hatua za kurudi nyuma, kurejesha vipengee vya kale [2].

Rasilimali zinazofaa muda wako 📚

Misingi: scikit-learn Mwongozo wa Mtumiaji [3]
Mifumo ya DL: Mafunzo ya PyTorch [4]
Kujifunza kwa Uhamisho: Kuanza Haraka kwa Uso wa Kukumbatiana [5]
Utawala/hatari: NIST AI RMF [1]
MLOps: Vitabu vya kucheza vya Google Cloud [2]

Maswali Yanayoulizwa Mara kwa Mara 💡

Unahitaji GPU? Sio kwa ajili ya jedwali. Kwa DL, ndiyo (kukodisha kwa wingu kunafanya kazi).
Data ya kutosha? Zaidi ni nzuri hadi lebo zitakapokuwa na kelele. Anza ndogo, rudia.
Chaguo la kipimo? Gharama ya uamuzi mmoja unaolingana. Andika matrix.
Kuruka msingi? Unaweza… vile vile unavyoweza kuruka kifungua kinywa na kujuta.
AutoML? Nzuri kwa ajili ya kuweka mipangilio ya awali. Bado fanya ukaguzi wako mwenyewe [2].

Ukweli mchafu kidogo 🎬

Jinsi ya kutengeneza Mfano wa AI haihusishi sana hesabu za kigeni bali ufundi: uundaji mkali, data safi, ukaguzi wa msingi wa akili timamu, upimaji thabiti, urudiaji unaoweza kurudiwa. Ongeza uwajibikaji ili wakati ujao-husafishi fujo zinazoweza kuzuilika [1][2].

Ukweli ni kwamba, toleo "lenye kuchosha" - lenye ukali na utaratibu - mara nyingi hushinda modeli ya kuvutia iliyoendeshwa saa 8 asubuhi Ijumaa. Na kama jaribio lako la kwanza linahisi kuwa gumu? Hiyo ni kawaida. Mifano ni kama vianzishaji vya chachu: lisha, angalia, anzisha upya wakati mwingine. 🥖🤷

TL;DR

Tatizo la fremu + kipimo; ondoa uvujaji.
Msingi kwanza; zana rahisi ni muhimu.
Mifano iliyoandaliwa tayari husaidia - usiwaabudu.
Pindua vipande vipande; rekebisha.
Misingi ya MLOps: uundaji wa matoleo, ufuatiliaji, urejeshaji wa data.
AI inayowajibika imechomwa ndani, haijafungwa kwa bolti.
Rudia, tabasamu - umeunda modeli ya AI. 😄

Marejeleo

NIST — Mfumo wa Usimamizi wa Hatari wa Akili Bandia (AI RMF 1.0) . Kiungo
Google Cloud — MLOps: Uwasilishaji endelevu na mabomba ya kiotomatiki katika kujifunza kwa mashine . Kiungo
scikit-learn — Mwongozo wa Mtumiaji . Kiungo
PyTorch — Mafunzo Rasmi . Kiungo
Uso Unaokumbatiana — Transformers Quickstart . Kiungo

Pata Akili ya Kielektroniki ya Hivi Punde katika Duka Rasmi la Msaidizi wa Akili ya Kielektroniki

Kuhusu Sisi

Rudi kwenye blogu

Nchi/eneo