Jibu fupi: Ili kutathmini vyema mifumo ya AI, anza kwa kufafanua jinsi "nzuri" inavyoonekana kwa mtumiaji halisi na uamuzi uliopo. Kisha jenga tathmini zinazoweza kurudiwa kwa kutumia data wakilishi, vidhibiti vikali vya uvujaji, na vipimo vingi. Ongeza msongo wa mawazo, upendeleo, na ukaguzi wa usalama, na wakati wowote kitu chochote kinapobadilika (data, vidokezo, sera), endesha upya kifaa na uendelee kufuatilia baada ya uzinduzi.
Mambo muhimu ya kuzingatia:
Vigezo vya mafanikio : Bainisha watumiaji, maamuzi, vikwazo, na kushindwa kwa hali mbaya zaidi kabla ya kuchagua vipimo.
Kurudia : Jenga kifaa cha eval kinachofanya majaribio yanayofanana na kila mabadiliko.
Usafi wa data : Weka mgawanyiko thabiti, zuia kurudia, na zuia uvujaji wa vipengele mapema.
Ukaguzi wa uaminifu : Uthabiti wa majaribio ya msongo wa mawazo, vipande vya haki, na tabia za usalama za LLM zenye kanuni zilizo wazi.
Nidhamu ya mzunguko wa maisha : Ieneze hatua kwa hatua, fuatilia mkondo na matukio, na uandike mapengo yanayojulikana.
Makala ambazo unaweza kupenda kusoma baada ya hii:
🔗 Maadili ya AI ni nini
Chunguza kanuni zinazoongoza muundo, matumizi, na utawala wa akili bandia unaowajibika.
🔗 Upendeleo wa AI ni nini?
Jifunze jinsi data yenye upendeleo inavyopotosha maamuzi na matokeo ya AI.
🔗 AI scalability ni nini
Elewa kuongeza mifumo ya AI kwa utendaji, gharama, na uaminifu.
🔗 AI ni nini
Muhtasari wazi wa akili bandia, aina, na matumizi halisi.
1) Anza na ufafanuzi usio na sifa wa "nzuri"
Kabla ya vipimo, kabla ya dashibodi, kabla ya mabadiliko yoyote ya kipimo - amua jinsi mafanikio yanavyoonekana.
Fafanua:
-
Mtumiaji: mchambuzi wa ndani, mteja, daktari, dereva, wakala wa usaidizi aliyechoka saa 4 jioni…
-
Uamuzi: kuidhinisha mkopo, kuashiria ulaghai, kupendekeza maudhui, muhtasari wa maelezo
-
Kushindwa kuliko muhimu zaidi:
-
Chanya za uongo (zinazokera) dhidi ya hasi za uongo (hatari)
-
-
Vikwazo: ucheleweshaji, gharama kwa kila ombi, sheria za faragha, mahitaji ya uelezeo, ufikiaji
Hii ndiyo sehemu ambayo timu hujiingiza katika kuboresha kwa ajili ya "kipimo kizuri" badala ya "matokeo yenye maana." Hutokea sana. Kama... sana.
Njia thabiti ya kuweka ufahamu huu wa hatari (na sio kwa kuzingatia hisia) ni kuainisha upimaji kuhusu uaminifu na usimamizi wa hatari wa mzunguko wa maisha, jinsi NIST inavyofanya katika Mfumo wa Usimamizi wa Hatari wa AI (AI RMF 1.0) [1].

2) Ni nini kinachofanya toleo zuri la "jinsi ya kujaribu mifumo ya akili bandia" ✅
Mbinu thabiti ya upimaji ina mambo machache yasiyoweza kujadiliwa:
-
Data wakilishi (sio data safi ya maabara pekee)
-
Futa mgawanyiko kwa kuzuia uvujaji (zaidi kuhusu hilo baada ya sekunde moja)
-
Misingi (mifumo rahisi unayopaswa kushinda - makadirio ya bandia yapo kwa sababu [4])
-
Vipimo vingi (kwa sababu nambari moja inakuhusu, kwa heshima, usoni mwako)
-
Vipimo vya msongo wa mawazo (kesi za makali, michango isiyo ya kawaida, matukio yanayofanana na yale ya wapinzani)
-
Mizunguko ya mapitio ya kibinadamu (hasa kwa mifumo ya uzalishaji)
-
Ufuatiliaji baada ya uzinduzi (kwa sababu dunia hubadilika, mabomba huvunjika, na watumiaji ni wabunifu… [1])
Pia: mbinu nzuri inajumuisha kuandika kile ulichojaribu, kile ambacho hukufanya, na kile unachoogopa. Sehemu hiyo ya "kile ninachoogopa" inaonekana kuwa ngumu - na pia ndipo uaminifu unapoanza kuongezeka.
Mifumo miwili ya uandishi wa nyaraka ambayo husaidia timu kubaki wazi kila mara:
-
Kadi za Mfano (modeli ni ya nini, jinsi ilivyotathminiwa, inaposhindwa wapi) [2]
-
Karatasi za data za Seti za Data (data ni nini, jinsi ilivyokusanywa, inapaswa/haipaswi kutumika kwa nini) [3]
3) Ukweli wa zana: kile ambacho watu hutumia katika vitendo 🧰
Zana ni za hiari. Tabia nzuri za tathmini si za hiari.
Ukitaka mpangilio wa vitendo, timu nyingi huishia na ndoo tatu:
-
Ufuatiliaji wa majaribio (kuendesha, kusanidi, mabaki)
-
Tathmini ya kifaa (majaribio yanayorudiwa nje ya mtandao + vyumba vya urejeshaji)
-
Ufuatiliaji (ishara zinazoteleza, proksi za utendaji, arifa za matukio)
Mifano utaona mengi porini (sio uidhinishaji, na ndiyo - vipengele/mabadiliko ya bei): MLflow, Uzito na Upendeleo, Matarajio Makubwa, Ni wazi, Deepchecks, OpenAI Evals, TruLens, LangSmith.
Ukichagua wazo kutoka sehemu hii: jenga kifaa cha eval kinachoweza kurudiwa . Unataka "bonyeza kitufe → pata matokeo yanayofanana," si "endesha tena daftari na uombe."
4) Jenga seti sahihi ya majaribio (na uache kuvuja kwa data) 🚧
Idadi ya kushangaza ya wanamitindo "wa kushangaza" wanadanganya kwa bahati mbaya.
Kwa ML ya kawaida
Sheria chache zisizo za kimapenzi zinazookoa kazi:
-
Weka wa treni/uthibitishaji/jaribio thabiti (na uandike mantiki ya mgawanyiko)
-
Zuia marudio katika mgawanyiko (mtumiaji yule yule, hati ile ile, bidhaa ile ile, nakala zilizo karibu)
-
Jihadhari na uvujaji wa vipengele (taarifa za siku zijazo zikiingia kwenye vipengele vya "sasa")
-
Tumia misingi (makadirio ya kipuuzi) ili usisherehekee kupigwa… hakuna kitu [4]
Ufafanuzi wa uvujaji (toleo la haraka): kitu chochote katika mafunzo/uhakiki kinachompa modeli ufikiaji wa taarifa ambayo isingekuwa nayo wakati wa uamuzi. Inaweza kuwa dhahiri ("lebo ya baadaye") au hila ("ndoo ya muhuri wa muda baada ya tukio").
Kwa LLM na mifumo ya uzalishaji
Unajenga mfumo wa haraka na sera , si "mfano" tu.
-
Unda seti ya dhahabu ya vidokezo (vidogo, vya ubora wa juu, thabiti)
-
Ongeza sampuli halisi za hivi karibuni (zisizojulikana + salama kwa faragha)
-
Weka kifurushi cha kificho cha pembeni : makosa ya kuandika, misimu, umbizo lisilo la kawaida, ingizo tupu, mshangao wa lugha nyingi 🌍
Jambo la vitendo ambalo nimeona likitokea zaidi ya mara moja: timu husafirishwa ikiwa na alama "kali" nje ya mtandao, kisha huduma kwa wateja husema, "Sawa. Inakosa kwa ujasiri sentensi moja muhimu." Marekebisho hayakuwa "mfumo mkubwa zaidi." Ilikuwa vidokezo bora vya majaribio , rubriki zilizo wazi, na seti ya urejeshaji iliyoadhibu hali hiyo halisi ya kushindwa. Ni wazi. Inafaa.
5) Tathmini ya nje ya mtandao: vipimo vinavyomaanisha kitu 📏
Vipimo ni sawa. Kilimo kimoja cha kipimo si sawa.
Uainishaji (barua taka, ulaghai, nia, utatuzi wa makosa)
Tumia zaidi ya usahihi.
-
Usahihi, urejeshaji, F1
-
Urekebishaji wa kizingiti (kizingiti chako chaguo-msingi mara chache huwa "sahihi" kwa gharama zako) [4]
-
Matriki ya mkanganyiko kwa kila sehemu (eneo, aina ya kifaa, kundi la watumiaji)
Urejeshaji (utabiri, bei, alama)
-
MAE / RMSE (chagua kulingana na jinsi unavyotaka kuadhibu makosa)
-
Ukaguzi wa urekebishaji huangalia wakati matokeo yanatumika kama "alama" (je, alama zinaendana na uhalisia?)
Mifumo ya cheo/mpendekezaji
-
NDCG, RAMANI, MRR
-
Kata kwa aina ya hoja (kichwa dhidi ya mkia)
Maono ya kompyuta
-
mAP, IoU
-
Utendaji kwa kila darasa (madarasa adimu ni mahali ambapo mifano hukuaibisha)
Mifumo ya kuzalisha (LLM)
Hapa ndipo watu wanapopata… falsafa 😵💫
Chaguzi za vitendo zinazofanya kazi katika timu halisi:
-
Tathmini ya kibinadamu (ishara bora, mzunguko wa polepole zaidi)
-
Upendeleo wa pande mbili / kiwango cha ushindi (A dhidi ya B ni rahisi kuliko kupata alama kamili)
-
Vipimo vya maandishi otomatiki (vinafaa kwa baadhi ya kazi, na kupotosha kwa zingine)
-
Ukaguzi unaotegemea kazi: “Je, ilitoa sehemu sahihi?” “Je, ilifuata sera?” “Je, ilitaja vyanzo ilipohitajika?”
Ukitaka sehemu ya marejeleo ya "vipimo vingi, matukio mengi" yenye muundo, HELM ni nanga nzuri: inasukuma tathmini zaidi ya usahihi katika mambo kama vile urekebishaji, uthabiti, upendeleo/sumu, na mabadiliko ya ufanisi [5].
Uchepuko mdogo: vipimo otomatiki vya ubora wa uandishi wakati mwingine huhisi kama kuhukumu sandwichi kwa kuipima. Sio kitu, lakini… njoo 🥪
6) Kipimo cha uimara: fanya itoe jasho kidogo 🥵🧪
Ikiwa modeli yako inafanya kazi tu kwenye pembejeo safi, kimsingi ni chombo cha glasi. Nzuri, dhaifu, na ghali.
Mtihani:
-
Kelele: makosa ya kuandika, thamani zinazokosekana, msimbo usio wa kawaida, hitilafu za umbizo
-
Mabadiliko ya usambazaji: kategoria mpya za bidhaa, lugha mpya ya mtaani, vitambuzi vipya
-
Thamani zilizokithiri: nambari zilizo nje ya kiwango, mizigo mikubwa ya malipo, mifuatano tupu
-
Ingizo la "upinzani" ambalo halionekani kama seti yako ya mafunzo lakini linaonekana kama watumiaji
Kwa LLM, jumuisha:
-
Majaribio ya kuingiza data haraka (maelekezo yamefichwa ndani ya maudhui ya mtumiaji)
-
Mifumo ya "Puuza maagizo ya awali"
-
Kesi za matumizi ya zana (URL mbaya, muda wa kuisha, matokeo yasiyo kamili)
Uimara ni mojawapo ya sifa za uaminifu zinazosikika kuwa za kufikirika hadi pale unapopata matukio. Kisha inakuwa ... inayoonekana sana [1].
7) Upendeleo, haki, na anayefanya kazi kwa ajili ya nani ⚖️
Mfano unaweza kuwa "sahihi" kwa ujumla huku ukizidi kuwa mbaya kwa makundi maalum. Hilo si tatizo dogo. Hilo ni tatizo la bidhaa na uaminifu.
Hatua za vitendo:
-
Tathmini utendaji kwa sehemu zenye maana (zinazofaa kisheria/kimaadili kupimia)
-
Linganisha viwango vya makosa na urekebishaji katika vikundi vyote
-
Jaribu vipengele vya proksi (msimbo wa posta, aina ya kifaa, lugha) vinavyoweza kusimba sifa nyeti
Kama huandiki hili mahali fulani, kimsingi unakuomba wakati ujao utatue tatizo la uaminifu bila ramani. Kadi za Mfano ni mahali pazuri pa kuliweka [2], na uundaji wa uaminifu wa NIST hukupa orodha kamilifu ya kile "kizuri" kinapaswa kujumuisha hata [1].
8) Upimaji wa usalama (hasa kwa LLM) 🛡️
Ikiwa mfumo wako unaweza kutoa maudhui, unajaribu zaidi ya usahihi. Unajaribu tabia.
Jumuisha majaribio ya:
-
Uzalishaji wa maudhui hauruhusiwi (ukiukwaji wa sera)
-
Uvujaji wa faragha (je, unarudia siri?)
-
Ndoto za ajabu katika maeneo yenye hatari kubwa
-
Kukataa kupita kiasi (mfano unakataa maombi ya kawaida)
-
Matokeo ya sumu na unyanyasaji
-
Majaribio ya kuchuja data kupitia sindano ya papo hapo
Mbinu iliyo na msingi ni: kufafanua sheria za sera → kujenga vidokezo vya majaribio → kupata alama kwa matokeo kwa kutumia hundi za kibinadamu + kiotomatiki → kuendesha kila wakati jambo lolote linapobadilika. Sehemu hiyo ya "kila wakati" ni kodi.
Hii inaendana vyema na mtazamo wa hatari wa mzunguko wa maisha: tawala, ramani ya muktadha, pima, dhibiti, rudia [1].
9) Majaribio ya mtandaoni: uwasilishaji wa hatua kwa hatua (ambapo ukweli unaishi) 🚀
Vipimo vya nje ya mtandao ni muhimu. Kuonekana mtandaoni ndipo ukweli unapoonekana unapovaa viatu vyenye matope.
Huna haja ya kuwa na mawazo ya kuvutia. Unahitaji tu kuwa na nidhamu:
-
Endesha katika hali ya kivuli (modeli inaendeshwa, haiathiri watumiaji)
-
Usambazaji wa polepole (msongamano mdogo kwanza, panua ikiwa ni mzuri)
-
Fuatilia matokeo na matukio (malalamiko, ongezeko la matukio, kushindwa kwa sera)
Hata kama huwezi kupata lebo za papo hapo, unaweza kufuatilia ishara za proksi na afya ya uendeshaji (ucheleweshaji, viwango vya kushindwa, gharama). Jambo kuu: unataka njia iliyodhibitiwa ya kugundua kushindwa kabla ya watumiaji wako wote kufanya [1].
10) Ufuatiliaji baada ya kupelekwa: kuteleza, kuoza, na kushindwa kimya kimya 📉👀
Mfano ulioujaribu sio mfano unaoishi nao. Data hubadilika. Watumiaji hubadilika. Dunia hubadilika. Bomba huvunjika saa nane asubuhi. Unajua jinsi ilivyo…
Kifuatiliaji:
-
Kuteleza kwa data ya kuingiza (mabadiliko ya schema, ukosefu, mabadiliko ya usambazaji)
-
Mtiririko wa matokeo (mabadiliko ya usawa wa darasa, mabadiliko ya alama)
-
Proksi za utendaji (kwa sababu ucheleweshaji wa lebo ni halisi)
-
Ishara za maoni (kidole gumba chini, marekebisho upya, upandishaji)
-
Kurudi nyuma kwa kiwango cha sehemu (wauaji kimya)
Na weka vizingiti vya tahadhari ambavyo havitetemeki sana. Kifuatiliaji kinachopiga kelele kila mara hupuuzwa - kama kengele ya gari mjini.
Kitanzi hiki cha "kufuatilia + kuboresha baada ya muda" si cha hiari ikiwa unajali kuhusu uaminifu [1].
11) Mtiririko wa kazi unaoweza kunakili 🧩
Hapa kuna kitanzi rahisi kinachopima:
-
Fafanua njia za mafanikio + kushindwa (pamoja na gharama/ucheleweshaji/usalama) [1]
-
Unda seti za data:
-
seti ya dhahabu
-
kifurushi cha kesi ya pembeni
-
Sampuli halisi za hivi karibuni (salama ya faragha)
-
-
Chagua vipimo:
-
vipimo vya kazi (F1, MAE, kiwango cha ushindi) [4][5]
-
vipimo vya usalama (kiwango cha kufaulu sera) [1][5]
-
Vipimo vya uendeshaji (ucheleweshaji, gharama)
-
-
Jenga mfumo wa tathmini (huendeshwa kwa kila modeli/badiliko la haraka) [4][5]
-
Ongeza vipimo vya msongo wa mawazo + vipimo vya upinzani [1][5]
-
Mapitio ya kibinadamu kwa sampuli (hasa kwa matokeo ya LLM) [5]
-
Usafirishaji kupitia kivuli + utoaji wa hatua kwa hatua [1]
-
Fuatilia + tahadhari + jifunze upya kwa nidhamu [1]
-
Matokeo ya hati katika uandishi wa mtindo wa kadi ya mfano [2][3]
Mafunzo ni ya kupendeza. Kupima ni kulipa kodi.
12) Maelezo ya kumalizia + muhtasari mfupi 🧠✨
Ukikumbuka mambo machache tu kuhusu jinsi ya kujaribu mifumo ya AI :
-
Tumia data wakilishi ya majaribio na epuka kuvuja [4]
-
Chagua vipimo vingi vinavyohusiana na matokeo halisi [4][5]
-
Kwa LLM, tegemea mapitio ya kibinadamu + ulinganisho wa mitindo ya kiwango cha ushindi [5]
-
Uthabiti wa jaribio - pembejeo zisizo za kawaida ni pembejeo za kawaida zilizofichwa [1]
-
Toa huduma kwa usalama na uangalie, kwa sababu mifumo huteleza na mabomba huvunjika [1]
-
Andika kile ulichofanya na kile ambacho hukujaribu (kisichofurahisha lakini chenye nguvu) [2][3]
Kujaribu si tu "kuthibitisha kuwa inafanya kazi." Ni "kugundua jinsi inavyoshindwa kabla ya watumiaji wako kufanya hivyo." Na ndio, hiyo si ya kuvutia sana - lakini ni sehemu inayoweka mfumo wako ukiwa umesimama wakati mambo yanapoyumba… 🧱🙂
Maswali Yanayoulizwa Mara kwa Mara
Njia bora ya kujaribu mifumo ya akili bandia ili iendane na mahitaji halisi ya mtumiaji
Anza kwa kufafanua "nzuri" kwa upande wa mtumiaji halisi na uamuzi ambao modeli inaunga mkono, si kipimo cha ubao wa wanaoongoza pekee. Tambua hali za kushindwa kwa gharama kubwa zaidi (chanya za uongo dhidi ya hasi za uongo) na ueleze vikwazo vikali kama vile kuchelewa, gharama, faragha, na uelezevu. Kisha chagua vipimo na mifano ya majaribio inayoakisi matokeo hayo. Hii inakuzuia kuboresha "kipimo kizuri" ambacho hakijawahi kubadilika kuwa bidhaa bora.
Kufafanua vigezo vya mafanikio kabla ya kuchagua vipimo vya tathmini
Andika mtumiaji ni nani, ni uamuzi gani modeli hiyo imekusudiwa kuunga mkono, na "kushindwa kwa hali mbaya zaidi" kunaonekanaje katika uzalishaji. Ongeza vikwazo vya uendeshaji kama vile kuchelewa kukubalika na gharama kwa kila ombi, pamoja na mahitaji ya utawala kama vile sheria za faragha na sera za usalama. Mara tu hizo zinapokuwa wazi, vipimo huwa njia ya kupima jambo sahihi. Bila uundaji huo, timu huwa zinaelekea kuboresha chochote kilicho rahisi kupima.
Kuzuia uvujaji wa data na udanganyifu wa bahati mbaya katika tathmini ya modeli
Weka mgawanyiko wa treni/uthibitishaji/majaribio thabiti na uweke kumbukumbu ya mantiki ya mgawanyiko ili matokeo yabaki yanarudiwa. Zuia kikamilifu nakala rudufu na nakala karibu katika mgawanyiko (mtumiaji yule yule, hati, bidhaa, au mifumo inayorudiwa). Angalia uvujaji wa vipengele ambapo taarifa za "siku zijazo" huingia kwenye ingizo kupitia mihuri ya muda au sehemu za baada ya tukio. Msingi thabiti (hata makadirio ya bandia) hukusaidia kugundua unaposherehekea kelele.
Kile ambacho mfumo wa tathmini unapaswa kujumuisha ili majaribio yaendelee kurudiwa katika mabadiliko
Kifaa cha kuunganisha data kinachofanya kazi kwa vitendo huendesha majaribio yanayofanana kwa kila modeli, kidokezo, au mabadiliko ya sera kwa kutumia seti sawa za data na sheria za alama. Kwa kawaida hujumuisha seti ya urejeshaji, dashibodi za vipimo vilivyo wazi, na usanidi na mabaki yaliyohifadhiwa kwa ajili ya ufuatiliaji. Kwa mifumo ya LLM, pia inahitaji "seti ya dhahabu" thabiti ya vidokezo pamoja na kifurushi cha kizingiti. Lengo ni "bonyeza kitufe → matokeo yanayofanana," si "endesha tena daftari na uombe."
Vipimo vya kupima mifumo ya akili bandia kupita usahihi
Tumia vipimo vingi, kwa sababu nambari moja inaweza kuficha mabadiliko muhimu. Kwa uainishaji, unganisha usahihi/kumbukumbu/F1 na urekebishaji wa kizingiti na matrices ya mkanganyiko kwa sehemu. Kwa urejeshaji, chagua MAE au RMSE kulingana na jinsi unavyotaka kuadhibu makosa, na ongeza ukaguzi wa mtindo wa urekebishaji wakati matokeo yanafanya kazi kama alama. Kwa upangaji, tumia NDCG/MAP/MRR na ukate kwa kichwa dhidi ya maswali ya mkia ili kupata utendaji usio sawa.
Kutathmini matokeo ya LLM wakati vipimo vya kiotomatiki vinapopungua
Ichukulie kama mfumo wa haraka na sera na tabia ya alama, si tu kufanana kwa maandishi. Timu nyingi huchanganya tathmini ya kibinadamu na upendeleo wa pande mbili (kiwango cha ushindi cha A/B), pamoja na ukaguzi unaotegemea kazi kama "je, ilitoa sehemu sahihi" au "je, ilifuata sera." Vipimo vya maandishi otomatiki vinaweza kusaidia katika hali finyu, lakini mara nyingi hukosa kile ambacho watumiaji wanajali. Rubriki zilizo wazi na seti ya urejeshaji kwa kawaida huwa na maana zaidi ya alama moja.
Vipimo vya uimara vifanyike ili modeli isivunjike kwenye pembejeo zenye kelele
Jaribu mfumo kwa kutumia makosa ya kuandika, thamani zinazokosekana, umbizo la ajabu, na msimbo usio wa kawaida, kwa sababu watumiaji halisi mara chache huwa nadhifu. Ongeza visa vya mabadiliko ya usambazaji kama kategoria mpya, misimu, vitambuzi, au mifumo ya lugha. Jumuisha thamani zilizokithiri (mifuatano tupu, mizigo mikubwa, nambari zilizo nje ya masafa) ili kuonyesha tabia ya kuharibika. Kwa LLM, pia jaribu mifumo ya kuingiza haraka na hitilafu za matumizi ya zana kama vile muda wa kuisha au matokeo yasiyo kamili.
Kuangalia masuala ya upendeleo na usawa bila kupotea katika nadharia
Tathmini utendaji kwenye vipande vyenye maana na ulinganishe viwango vya hitilafu na urekebishaji katika vikundi ambapo inafaa kisheria na kimaadili kupima. Tafuta vipengele vya proksi (kama vile msimbo wa posta, aina ya kifaa, au lugha) ambavyo vinaweza kusimba sifa nyeti kwa njia isiyo ya moja kwa moja. Mfano unaweza kuonekana "sahihi kwa ujumla" huku ukishindwa mara kwa mara kwa vikundi maalum. Andika kile ulichopima na kile ambacho hukufanya, ili mabadiliko ya siku zijazo yasirudishe marejesho kimya kimya.
Vipimo vya usalama na usalama vijumuishwe kwa mifumo ya kuzalisha AI na LLM
Jaribu uzalishaji wa maudhui yasiyoruhusiwa, uvujaji wa faragha, ndoto katika vikoa vyenye hatari kubwa, na kukataa kupita kiasi ambapo modeli huzuia maombi ya kawaida. Jumuisha majaribio ya kuingiza data haraka na kuchuja data, haswa wakati mfumo unatumia zana au unapopata maudhui. Mtiririko wa kazi uliowekwa ni: kufafanua sheria za sera, kujenga seti ya kidokezo cha jaribio, kupata alama kwa human plus automatiska checks, na kuiendesha tena wakati wowote vidokezo, data, au sera zinapobadilika. Uthabiti ni kodi unayolipa.
Kuanzisha na kufuatilia mifumo ya akili bandia (AI) baada ya uzinduzi ili kukamata matukio na matukio yanayotokea
Tumia mifumo ya utoaji kwa hatua kama vile hali ya kivuli na njia za trafiki taratibu ili kupata hitilafu kabla ya watumiaji wako wote kufanya hivyo. Fuatilia mabadiliko ya ingizo (mabadiliko ya schema, ukosefu, mabadiliko ya usambazaji) na mabadiliko ya matokeo (mabadiliko ya alama, mabadiliko ya usawa wa darasa), pamoja na afya ya uendeshaji kama vile ucheleweshaji na gharama. Fuatilia ishara za maoni kama vile marekebisho, ongezeko, na malalamiko, na uangalie marejesho ya kiwango cha sehemu. Kitu chochote kinapobadilika, endesha upya mfumo uleule na uendelee kufuatilia mfululizo.
Marejeleo
[1] NIST - Mfumo wa Usimamizi wa Hatari wa Akili Bandia (AI RMF 1.0) (PDF)
[2] Mitchell et al. - “Kadi za Mfano kwa ajili ya Kuripoti Mifano” (arXiv:1810.03993)
[3] Gebru et al. - “Shehena za Data kwa Seti za Data” (arXiv:1803.09010)
[4] scikit-learn - Nyaraka za “Uteuzi na tathmini ya Mifano”
[5] Liang et al. - “Tathmini Kamili ya Mifano ya Lugha” (arXiv:2211.09110)