jinsi ya kupima utendaji wa AI

Jinsi ya Kupima Utendaji wa AI?

Kama umewahi kusafirisha modeli iliyovutia sana kwenye daftari lakini ikakwama katika uzalishaji, tayari unajua siri: jinsi ya kupima utendaji wa AI si kipimo kimoja cha kichawi. Ni mfumo wa ukaguzi unaofungamana na malengo halisi. Usahihi ni mzuri. Uaminifu, usalama, na athari za biashara ni bora zaidi. 

Makala ambazo unaweza kupenda kusoma baada ya hii:

🔗 Jinsi ya kuzungumza na AI
Mwongozo wa kuwasiliana kwa ufanisi na AI kwa matokeo bora mara kwa mara.

🔗 AI inaongoza nini
Inafafanua jinsi vishawishi vinavyounda majibu ya AI na ubora wa matokeo.

🔗 Uwekaji lebo wa data ya AI ni nini
Muhtasari wa kukabidhi lebo sahihi kwa data ya miundo ya mafunzo.

🔗 Maadili ya AI ni nini
Utangulizi wa kanuni za maadili zinazoongoza ukuzaji na usambazaji wa AI.


Ni nini hufanya utendaji mzuri wa akili bandia (AI) kuwa mzuri? ✅

Toleo fupi: utendaji mzuri wa AI unamaanisha kuwa mfumo wako ni muhimu, unaaminika, na unaweza kurudiwa chini ya hali mbaya, inayobadilika. Kwa kweli:

  • Ubora wa kazi - hupata majibu sahihi kwa sababu zinazofaa.

  • Urekebishaji - alama za kujiamini zinalingana na hali halisi, ili uweze kuchukua hatua mahiri.

  • Uimara - hustahimili chini ya hali ya kuteleza, mikeka ya makali, na fuzz ya pinzani.

  • Usalama na haki - huepuka tabia zenye madhara, zenye upendeleo, au zisizozingatia sheria.

  • Ufanisi - ni wa kasi ya kutosha, wa bei nafuu ya kutosha, na imara ya kutosha kufanya kazi kwa kiwango kikubwa.

  • Athari za biashara - hakika husogeza KPI unayojali.

Ikiwa unataka marejeleo rasmi ya kupanga vipimo na hatari, Mfumo wa Usimamizi wa Hatari wa NIST AI ni nyota thabiti ya kaskazini kwa tathmini ya kuaminika ya mfumo. [1]

 

Kupima Utendaji wa AI

Kichocheo cha hali ya juu cha jinsi ya kupima utendakazi wa AI 🍳

Fikiria katika tabaka tatu:

  1. Vipimo vya kazi - usahihi wa aina ya kazi: uainishaji, urekebishaji, kiwango, kizazi, udhibiti, nk.

  2. Vipimo vya mfumo - latency, throughput, gharama kwa kila simu, viwango vya kushindwa, kengele za drift, SLA za uptime.

  3. Vipimo vya matokeo - biashara na matokeo ya mtumiaji unayotaka haswa: ubadilishaji, uhifadhi, matukio ya usalama, mzigo wa ukaguzi wa mikono, kiasi cha tikiti.

Mpango mzuri wa kipimo unachanganya zote tatu kwa makusudi. Vinginevyo unapata roketi ambayo haiachi kamwe kwenye uzinduzi.


Vipimo vya msingi kulingana na aina ya tatizo - na wakati wa kutumia 🎯

1) Uainishaji

  • Usahihi, Kumbuka, F1 - watatu wa siku moja. F1 ni maana ya harmonic ya usahihi na kukumbuka; muhimu wakati madarasa hayana usawa au gharama ni za ulinganifu. [2]

  • ROC-AUC - kiwango cha kizingiti-agnostic cha waainishaji; wakati chanya ni chache, pia kagua PR-AUC. [2]

  • Usahihi wa usawa - wastani wa kukumbuka katika madarasa; inafaa kwa lebo zilizopindishwa. [2]

Saa ya shimo: usahihi pekee unaweza kupotosha sana na usawa. Ikiwa 99% ya watumiaji ni halali, mfano bubu unaokubalika kila wakati hupata 99% na huishinda timu yako ya ulaghai kabla ya chakula cha mchana.

2) Kurudi nyuma

  • MAE kwa makosa yanayosomeka kwa binadamu; RMSE unapotaka kuadhibu makosa makubwa; kwa tofauti imeelezwa. Kisha angalia usawa wa akili na viwanja vilivyobaki. [2]
    (Tumia vitengo vinavyofaa kikoa ili wadau waweze kuhisi kosa hilo.)

3) Cheo, urejeshaji, mapendekezo

  • nDCG - inajali kuhusu nafasi na umuhimu wa daraja; kiwango cha ubora wa utafutaji.

  • MRR - inalenga jinsi kipengee cha kwanza kinachofaa kinavyoonekana haraka (kizuri kwa kazi za "kupata jibu moja zuri").
    (Marejeleo ya utekelezaji na mifano iliyofanyiwa kazi iko katika maktaba kuu za kipimo.) [2]

4) Uzalishaji wa maandishi na muhtasari

  • BLEU na ROUGE - metrics ya kawaida ya kuingiliana; muhimu kama msingi.

  • Vipimo vinavyotokana na upachikaji (km, BERTScore) mara nyingi huhusiana vyema na uamuzi wa binadamu; daima unganisha na ukadiriaji wa kibinadamu wa mtindo, uaminifu na usalama. [4]

5) Kujibu swali

  • Mechi Halisi na kiwango cha ishara F1 ni kawaida kwa QA ya uziduaji; ikiwa majibu lazima yataje vyanzo, pia pima msingi (hundi za usaidizi wa jibu).


Urekebishaji, kujiamini, na lenzi ya Brier 🎚️

Alama za kujiamini ni pale mifumo mingi inapolala kimya kimya. Unataka uwezekano unaoakisi uhalisia ili ops iweze kuweka vizingiti, njia ya kuelekea kwa wanadamu, au hatari ya bei.

  • Mikondo ya urekebishaji - taswira uwezekano uliotabiriwa dhidi ya masafa ya majaribio.

  • Alama ya Brier - kanuni sahihi ya alama kwa usahihi wa uwezekano; chini ni bora zaidi. Ni muhimu hasa unapojali ubora wa uwezekano, si tu cheo. [3]

Dokezo la uwanjani: urekebishaji wa F1 "mbaya zaidi" kidogo lakini bora zaidi unaweza sana triage - kwa sababu watu wanaweza hatimaye kuamini alama.


Usalama, upendeleo, na haki - pima mambo muhimu 🛡️⚖️

Mfumo unaweza kuwa sahihi kwa jumla na bado unaweza kudhuru vikundi maalum. Fuatilia vilivyowekwa katika vikundi na vigezo vya usawa:

  • Usawa wa idadi ya watu - viwango sawa vyema katika vikundi.

  • Odds zilizosawazishwa / Fursa sawa - viwango sawa vya makosa au viwango vya kweli-chanya katika vikundi; tumia hizi kugundua na kudhibiti maelewano, si kama stempu za pasi-kushindwa kwa risasi moja. [5]

Kidokezo cha vitendo: anza na dashibodi zinazogawanya vipimo vya msingi kulingana na sifa kuu, kisha uongeze vipimo mahususi vya usawa kama sera zako zinavyohitaji. Inaonekana fussy, lakini ni nafuu kuliko tukio.


LLM na RAG - kitabu cha kucheza cha vipimo ambacho kinafanya kazi 📚🔍

Kupima mifumo ya uzalishaji ni… squirmy. Fanya hivi:

  1. Bainisha matokeo kwa kila hali ya utumiaji: usahihi, usaidizi, kutokuwa na madhara, kufuata mtindo, toni ya chapa, msingi wa kunukuu, ubora wa kukataa.

  2. Weka otomatiki tathmini za kimsingi kwa mifumo thabiti (kwa mfano, zana za tathmini katika mrundikano wako) na uziweke zikiwa na matoleo pamoja na seti zako za data.

  3. Ongeza vipimo vya kisemantiki (kulingana na upachikaji) pamoja na vipimo vinavyoingiliana (BLEU/ROUGE) ili kupata akili timamu. [4]

  4. Kuweka ala katika RAG: kasi ya urejeshaji, usahihi wa muktadha/kumbuka, mwingiliano wa usaidizi wa jibu.

  5. Mapitio ya kibinadamu yenye makubaliano - pima uthabiti wa mkadiriaji (km, κ ya Cohen au κ ya Fleiss) ili lebo zako zisiwe na msisimko.

Bonasi: rekodi asilimia za kusubiri na tokeni au hesabu gharama kwa kila kazi. Hakuna anayependa jibu la kishairi linalofika Jumanne ijayo.


Jedwali la kulinganisha - zana zinazokusaidia kupima utendaji wa AI 🛠️📊

(Ndio ni fujo kidogo kwa makusudi - noti halisi ni mbaya.)

Zana Hadhira bora Bei Kwa nini inafanya kazi - chukua haraka
vipimo vya kujifunza scikit Wataalamu wa ML Bure Utekelezaji wa kanuni za uainishaji, urejeshaji, cheo; rahisi kuoka katika vipimo. [2]
Tathmini ya MLflow / GenAI Wanasayansi wa data, MLOps Bure + kulipwa Ukimbiaji wa kati, vipimo otomatiki, waamuzi wa LLM, wafungaji alama maalum; weka mabaki kwa usafi.
Ni dhahiri Timu zinazotaka dashibodi haraka OSS + wingu 100+ metrics, drift na ubora ripoti, ufuatiliaji ndoano - picha nzuri katika Bana.
Uzito na Upendeleo Majaribio mazito Daraja la bure Ulinganisho wa kando, hifadhidata za eval, waamuzi; meza na athari ni nadhifu.
LangSmith Wajenzi wa programu za LLM Imelipwa Fuatilia kila hatua, changanya ukaguzi wa kibinadamu na wakaguzi wa sheria au LLM; nzuri kwa RAG.
TruLens Wapenzi wa eval wa LLM wa chanzo huria OSS Maoni hufanya kazi kupata alama za sumu, msingi, umuhimu; kuunganisha popote.
Matarajio Makubwa Ubora wa data-ya kwanza mashirika OSS Rahisisha matarajio kwenye data - kwa sababu data mbaya huharibu kila kipimo hata hivyo.
Uchunguzi wa kina Upimaji na CI/CD ya ML OSS + wingu Jaribio linalojumuisha betri kwa utelezi wa data, masuala ya muundo na ufuatiliaji; ulinzi mzuri.

Bei zinabadilika - angalia hati. Na ndio, unaweza kuchanganya hizi bila polisi wa zana kujitokeza.


Vizingiti, gharama na mikondo ya uamuzi - mchuzi wa siri 🧪

Jambo la ajabu lakini la kweli: miundo miwili iliyo na ROC-AUC sawa inaweza kuwa na thamani tofauti sana ya biashara kulingana na kiwango chako cha juu na uwiano wa gharama.

Karatasi ya haraka ya kuunda:

  • Weka gharama ya chanya ya uwongo dhidi ya hasi ya uwongo katika pesa au wakati.

  • Fagia viwango vya juu na ukokote gharama inayotarajiwa kwa kila uamuzi wa 1k.

  • Chagua cha chini zaidi cha gharama kinachotarajiwa , kisha ukifunge kwa ufuatiliaji.

Tumia curve za PR wakati chanya ni chache, mikunjo ya ROC kwa umbo la jumla, na mikunjo ya urekebishaji wakati maamuzi yanategemea uwezekano. [2][3]

Kisanduku kidogo: modeli ya triage ya tiketi ya usaidizi yenye F1 ya kawaida lakini njia bora za kurekebisha urekebishaji kwa mikono baada ya operesheni kubadilishwa kutoka kizingiti kigumu hadi uelekezaji wa ngazi (km, "suluhisho otomatiki," "mapitio ya kibinadamu," "kuongezeka") iliyounganishwa na bendi za alama zilizorekebishwa.


Ufuatiliaji mtandaoni, kuteleza, na kuonya 🚨

Marekebisho ya nje ya mtandao ni mwanzo, sio mwisho. Katika uzalishaji:

  • Fuatilia mteremko wa pembejeo, upeperushaji wa pato, na ubovu wa utendakazi kwa sehemu.

  • Weka hundi za ulinzi - kiwango cha juu cha kuona, vizingiti vya sumu, usawa wa delta.

  • Ongeza dashibodi za canary kwa muda wa kusubiri wa p95, kuisha kwa muda na gharama kwa kila ombi.

  • Tumia maktaba zilizoundwa kwa makusudi ili kuharakisha hili; wao kutoa drift, ubora, na ufuatiliaji primitives nje ya boksi.

Mfano mdogo wenye dosari: fikiria modeli yako kama kichocheo cha chachu - huoki mara moja tu na kuondoka; unalisha, unalitazama, unalinusa, na wakati mwingine unaanzisha upya.


Tathmini ya kibinadamu ambayo haiporomoki 🍪

Wakati watu wanapanga matokeo, mchakato ni muhimu zaidi kuliko unavyofikiria.

  • Andika rubri kali zenye mifano ya kupita dhidi ya mstari wa mpaka na kutofaulu.

  • Randomize na sampuli pofu wakati unaweza.

  • Pima makubaliano ya wapimaji kati ya watu (km, κ ya Cohen kwa wapimaji wawili, κ ya Fleiss kwa wengi) na uonyeshe upya rubriki ikiwa makubaliano yatapungua.

Hii huzuia lebo zako za kibinadamu zisiathiriwe na hali au usambazaji wa kahawa.


Kuzama kwa kina: jinsi ya kupima utendaji wa akili bandia (AI) kwa LLM katika RAG 🧩

  • Ubora wa kurejesha - recall@k, precision@k, nDCG; chanjo ya ukweli wa dhahabu. [2]

  • Jibu uaminifu - taja-na-thibitisha hundi, alama za msingi, uchunguzi wa wapinzani.

  • Kutosheka kwa mtumiaji - vidole gumba, kukamilika kwa kazi, hariri umbali kutoka kwa rasimu zilizopendekezwa.

  • Usalama - sumu, uvujaji wa PII, kufuata sera.

  • Gharama na ucheleweshaji - tokeni, mipigo ya akiba, ucheleweshaji wa p95 na p99.

Unganisha hizi na vitendo vya biashara: ikiwa msingi utapungua chini ya mstari, pitia njia ya kiotomatiki kwa hali kali au ukaguzi wa kibinadamu.


Kitabu rahisi cha kucheza cha kuanza leo 🪄

  1. Fafanua kazi - andika sentensi moja: AI inapaswa kufanya nini na kwa nani.

  2. Chagua vipimo 2–3 vya kazi - pamoja na urekebishaji na angalau kipande kimoja cha usawa. [2][3][5]

  3. Amua vizingiti kwa kutumia gharama - usidhani.

  4. Unda seti ndogo ya eval - mifano 100–500 yenye lebo zinazoakisi mchanganyiko wa uzalishaji.

  5. Weka otomatiki tathmini zako - tathmini/ufuatiliaji wa waya kuwa CI ili kila badiliko lifanye ukaguzi sawa.

  6. Kufuatilia katika uzalishaji - drift, latency, gharama, matukio bendera.

  7. Kagua vipimo vya kila mwezi - punguza ambavyo hakuna mtu anayetumia; ongeza zinazojibu maswali halisi.

  8. Maamuzi ya hati - kadi hai ya matokeo ambayo timu yako inasoma haswa.

Ndiyo, ndivyo ilivyo. Na inafanya kazi.


Gotcha za kawaida na jinsi ya kuzikwepa 🕳️🐇

  • Kuweka kipimo kimoja kupita kiasi - tumia kikapu cha kipimo kinacholingana na muktadha wa uamuzi. [1][2]

  • Kupuuza urekebishaji - kujiamini bila kusawazisha ni swagger tu. [3]

  • Hakuna mgawanyiko - kila wakati kata kwa vikundi vya watumiaji, jiografia, kifaa, lugha. [5]

  • Gharama zisizojulikana - usipoweka bei ya makosa, utachagua kizingiti kisicho sahihi.

  • Human eval drift - makubaliano ya kipimo, rubri za onyesha upya, fundisha upya wakaguzi.

  • Hakuna zana za usalama - ongeza haki, sumu, na ukaguzi wa sera sasa, sio baadaye. [1][5]


Maneno uliyokuja nayo: jinsi ya kupima utendakazi wa AI - Muda Mrefu Sana, Sikuisoma 🧾

  • Anza na matokeo wazi, kisha uweke kazi, mfumona biashara . [1]

  • Tumia metrics sahihi kwa kazi - F1 na ROC-AUC kwa uainishaji; nDCG/MRR kwa cheo; hupishana + vipimo vya semantiki kwa kizazi (vilivyooanishwa na wanadamu). [2][4]

  • Rekebisha uwezekano wako na uweke bei ya makosa yako ili uchague vizingiti. [2][3]

  • Ongeza wa haki na vipande vya kikundi na udhibiti ubadilishanaji kwa uwazi. [5]

  • Otomatiki tathmini na ufuatiliaji ili uweze kurudia bila woga.

Unajua jinsi ilivyo - pima ni nini muhimu, au utaishia kuboresha kile ambacho sio muhimu.


Marejeleo

[1] NIST. Mfumo wa Usimamizi wa Hatari wa AI (AI RMF). soma zaidi
[2] scikit-learn. Tathmini ya kielelezo: kupima ubora wa utabiri (Mwongozo wa Mtumiaji). soma zaidi
[3] scikit-learn. Urekebishaji wa uwezekano (mikondo ya urekebishaji, alama ya Brier). soma zaidi
[4] Papineni et al. (2002). BLEU: Mbinu ya Tathmini ya Kiotomatiki ya Tafsiri ya Mashine. ACL. soma zaidi
[5] Hardt, Price, Srebro (2016). Usawa wa Fursa katika Kujifunza Kusimamiwa. NeurIPS. soma zaidi

Pata Akili ya Kielektroniki ya Hivi Punde katika Duka Rasmi la Msaidizi wa Akili ya Kielektroniki

Kuhusu Sisi

Rudi kwenye blogu