jinsi ya kupima utendaji wa AI

Jinsi ya Kupima Utendaji wa AI?

Ikiwa umewahi kusafirisha kielelezo ambacho kiling'aa kwenye daftari lakini kikajikwaa katika uzalishaji, tayari unajua siri: jinsi ya kupima utendakazi wa AI sio kipimo kimoja cha uchawi. Ni mfumo wa ukaguzi unaohusishwa na malengo ya ulimwengu halisi. Usahihi ni mzuri. Kuegemea, usalama, na athari za biashara ni bora.

Makala unayoweza kupenda kusoma baada ya hii:

🔗 Jinsi ya kuzungumza na AI
Mwongozo wa kuwasiliana kwa ufanisi na AI kwa matokeo bora mara kwa mara.

🔗 AI inaongoza nini
Inafafanua jinsi vishawishi vinavyounda majibu ya AI na ubora wa matokeo.

🔗 Uwekaji lebo wa data ya AI ni nini
Muhtasari wa kukabidhi lebo sahihi kwa data ya miundo ya mafunzo.

🔗 Maadili ya AI ni nini
Utangulizi wa kanuni za maadili zinazoongoza ukuzaji na usambazaji wa AI.


Ni nini hufanya utendaji mzuri wa akili bandia (AI) kuwa mzuri? ✅

Toleo fupi: utendaji mzuri wa AI unamaanisha kuwa mfumo wako ni muhimu, unaaminika, na unaweza kurudiwa chini ya hali mbaya, inayobadilika. Kwa kweli:

  • Ubora wa kazi - hupata majibu sahihi kwa sababu zinazofaa.

  • Urekebishaji - alama za kujiamini zinalingana na hali halisi, ili uweze kuchukua hatua mahiri.

  • Uimara - hustahimili chini ya hali ya kuteleza, mikeka ya makali, na fuzz ya pinzani.

  • Usalama na haki - inaepuka tabia mbaya, yenye upendeleo au isiyofuata kanuni.

  • Ufanisi - ni kasi ya kutosha, nafuu ya kutosha, na imara ya kutosha kukimbia kwa kiwango.

  • Athari za biashara - hakika husogeza KPI unayojali.

Ikiwa unataka marejeleo rasmi ya kupanga vipimo na hatari, Mfumo wa Usimamizi wa Hatari wa NIST AI ni nyota thabiti ya kaskazini kwa tathmini ya kuaminika ya mfumo. [1]

 

Kupima Utendaji wa AI

Kichocheo cha hali ya juu cha jinsi ya kupima utendakazi wa AI 🍳

Fikiria katika tabaka tatu :

  1. Vipimo vya kazi - usahihi wa aina ya kazi: uainishaji, urekebishaji, kiwango, kizazi, udhibiti, nk.

  2. Vipimo vya mfumo - latency, throughput, gharama kwa kila simu, viwango vya kushindwa, kengele za drift, SLA za uptime.

  3. Vipimo vya matokeo - biashara na matokeo ya mtumiaji unayotaka haswa: ubadilishaji, uhifadhi, matukio ya usalama, mzigo wa ukaguzi wa mikono, kiasi cha tikiti.

Mpango mzuri wa kipimo unachanganya zote tatu kwa makusudi. Vinginevyo unapata roketi ambayo haiachi kamwe kwenye uzinduzi.


Vipimo vya msingi kulingana na aina ya tatizo - na wakati wa kutumia 🎯

1) Uainishaji

  • Usahihi, Kumbuka, F1 - watatu wa siku moja. F1 ni maana ya harmonic ya usahihi na kukumbuka; muhimu wakati madarasa hayana usawa au gharama ni za ulinganifu. [2]

  • ROC-AUC - kiwango cha kizingiti-agnostic cha waainishaji; wakati chanya ni chache, pia kagua PR-AUC . [2]

  • Usahihi wa usawa - wastani wa kukumbuka katika madarasa; inafaa kwa lebo zilizopindishwa. [2]

Saa ya shimo: usahihi pekee unaweza kupotosha sana na usawa. Ikiwa 99% ya watumiaji ni halali, mfano bubu unaokubalika kila wakati hupata 99% na huishinda timu yako ya ulaghai kabla ya chakula cha mchana.

2) Kurudi nyuma

  • MAE kwa kosa linaloweza kusomeka kwa binadamu; RMSE unapotaka kuadhibu misses kubwa; kwa tofauti imeelezewa. Kisha sanity-angalia ugawaji na viwanja vya mabaki. [2]
    (Tumia vitengo vinavyofaa kikoa ili wadau waweze kuhisi hitilafu.)

3) Cheo, urejeshaji, mapendekezo

  • nDCG - inajali kuhusu nafasi na umuhimu wa daraja; kiwango cha ubora wa utafutaji.

  • MRR - inazingatia jinsi kipengee cha kwanza muhimu kinaonekana haraka (kizuri kwa "kupata jibu moja zuri").
    (Marejeleo ya utekelezaji na mifano iliyofanyiwa kazi iko katika maktaba za kawaida za kipimo.) [2]

4) Uzalishaji wa maandishi na muhtasari

  • BLEU na ROUGE - metrics ya kawaida ya kuingiliana; muhimu kama msingi.

  • Vipimo vinavyotokana na upachikaji (km, BERTScore ) mara nyingi huhusiana vyema na uamuzi wa binadamu; daima unganisha na ukadiriaji wa kibinadamu wa mtindo, uaminifu na usalama. [4]

5) Kujibu swali

  • Mechi Halisi na kiwango cha ishara F1 ni kawaida kwa QA ya uziduaji; ikiwa majibu lazima yataje vyanzo, pia pima msingi (hundi za usaidizi wa jibu).


Urekebishaji, kujiamini, na lenzi ya Brier 🎚️

Alama za kujiamini ni pale mifumo mingi inapolala kimya kimya. Unataka uwezekano unaoakisi uhalisia ili ops iweze kuweka vizingiti, njia ya kuelekea kwa wanadamu, au hatari ya bei.

  • Mikondo ya urekebishaji - taswira uwezekano uliotabiriwa dhidi ya masafa ya majaribio.

  • Alama ya Brier - sheria sahihi ya bao kwa usahihi wa uwezekano; chini ni bora. Ni muhimu sana unapojali ubora wa uwezekano, sio tu nafasi. [3]

Dokezo la uwanja: F1 "mbaya zaidi" kidogo lakini urekebishaji bora zaidi unaweza kuboresha utatuzi - kwa sababu watu hatimaye wanaweza kuamini alama.


Usalama, upendeleo, na haki - pima mambo muhimu 🛡️⚖️

Mfumo unaweza kuwa sahihi kwa jumla na bado unaweza kudhuru vikundi maalum. Fuatilia vilivyowekwa katika vikundi na vigezo vya usawa:

  • Usawa wa idadi ya watu - viwango sawa vyema katika vikundi.

  • Odds zilizosawazishwa / Fursa sawa - viwango vya makosa sawa au viwango vya kweli-chanya katika vikundi; tumia hizi kugundua na kudhibiti utendakazi, sio kama stempu za kutofaulu kwa hatua moja. [5]

Kidokezo cha vitendo: anza na dashibodi zinazogawanya vipimo vya msingi kulingana na sifa kuu, kisha uongeze vipimo mahususi vya usawa kama sera zako zinavyohitaji. Inaonekana fussy, lakini ni nafuu kuliko tukio.


LLM na RAG - kitabu cha kucheza cha vipimo ambacho kinafanya kazi 📚🔍

Kupima mifumo ya uzalishaji ni… squirmy. Fanya hivi:

  1. Bainisha matokeo kwa kila hali ya utumiaji: usahihi, usaidizi, kutokuwa na madhara, kufuata mtindo, toni ya chapa, msingi wa kunukuu, ubora wa kukataa.

  2. Weka otomatiki tathmini za kimsingi kwa mifumo thabiti (kwa mfano, zana za tathmini katika mrundikano wako) na uziweke zikiwa na matoleo pamoja na seti zako za data.

  3. Ongeza vipimo vya kisemantiki (kulingana na upachikaji) pamoja na vipimo vinavyoingiliana (BLEU/ROUGE) ili kupata akili timamu. [4]

  4. Kuweka ala katika RAG: kasi ya urejeshaji, usahihi wa muktadha/kumbuka, mwingiliano wa usaidizi wa jibu.

  5. Mapitio ya kibinadamu yenye makubaliano - pima uthabiti wa mkadiriaji (km, κ ya Cohen au κ ya Fleiss) ili lebo zako zisiwe na msisimko.

Bonasi: rekodi asilimia za kusubiri na tokeni au hesabu gharama kwa kila kazi. Hakuna anayependa jibu la kishairi linalofika Jumanne ijayo.


Jedwali la kulinganisha - zana zinazokusaidia kupima utendaji wa AI 🛠️📊

(Ndio ni fujo kidogo kwa makusudi - noti halisi ni mbaya.)

Zana Watazamaji bora Bei Kwa nini inafanya kazi - chukua haraka
vipimo vya kujifunza scikit Wataalamu wa ML Bure Utekelezaji wa kanuni za uainishaji, urejeshaji, cheo; rahisi kuoka katika vipimo. [2]
Tathmini ya MLflow / GenAI Wanasayansi wa data, MLOps Bure + kulipwa Ukimbiaji wa kati, vipimo otomatiki, waamuzi wa LLM, wafungaji alama maalum; weka mabaki kwa usafi.
Ni dhahiri Timu zinazotaka dashibodi haraka OSS + wingu 100+ metrics, drift na ubora ripoti, ufuatiliaji ndoano - picha nzuri katika Bana.
Uzito & Upendeleo Majaribio mazito Daraja la bure Ulinganisho wa kando, hifadhidata za eval, waamuzi; meza na athari ni nadhifu.
LangSmith Wajenzi wa programu za LLM Imelipwa Fuatilia kila hatua, changanya ukaguzi wa kibinadamu na wakaguzi wa sheria au LLM; nzuri kwa RAG.
TruLens Wapenzi wa eval wa LLM wa chanzo huria OSS Maoni hufanya kazi kupata alama za sumu, msingi, umuhimu; kuunganisha popote.
Matarajio Makubwa Ubora wa data-ya kwanza mashirika OSS Rahisisha matarajio kwenye data - kwa sababu data mbaya huharibu kila kipimo hata hivyo.
Uchunguzi wa kina Upimaji na CI/CD ya ML OSS + wingu Jaribio linalojumuisha betri kwa utelezi wa data, masuala ya muundo na ufuatiliaji; ulinzi mzuri.

Bei zinabadilika - angalia hati. Na ndio, unaweza kuchanganya hizi bila polisi wa zana kujitokeza.


Vizingiti, gharama na mikondo ya uamuzi - mchuzi wa siri 🧪

Jambo la ajabu lakini la kweli: miundo miwili iliyo na ROC-AUC sawa inaweza kuwa na thamani tofauti sana ya biashara kulingana na kiwango chako cha juu na uwiano wa gharama .

Karatasi ya haraka ya kuunda:

  • Weka gharama ya chanya ya uwongo dhidi ya hasi ya uwongo katika pesa au wakati.

  • Fagia viwango vya juu na ukokote gharama inayotarajiwa kwa kila uamuzi wa 1k.

  • Chagua cha chini zaidi cha gharama kinachotarajiwa , kisha ukifunge kwa ufuatiliaji.

Tumia curve za PR wakati chanya ni chache, mikunjo ya ROC kwa umbo la jumla, na mikunjo ya urekebishaji wakati maamuzi yanategemea uwezekano. [2][3]

Kipochi kidogo: kielelezo cha majaribio ya tikiti ya usaidizi chenye F1 ya kawaida lakini urekebishaji bora zaidi wa njia za mwongozo baada ya ops kuhama kutoka kizingiti kigumu hadi uelekezaji wa viwango (km, "suluhisha kiotomatiki," "ukaguzi wa kibinadamu," "enea") iliyounganishwa kwenye bendi za alama zilizosawazishwa.


Ufuatiliaji mtandaoni, kuteleza, na kuonya 🚨

Marekebisho ya nje ya mtandao ni mwanzo, sio mwisho. Katika uzalishaji:

  • Fuatilia mteremko wa pembejeo , upeperushaji wa pato , na ubovu wa utendakazi kwa sehemu.

  • Weka hundi za ulinzi - kiwango cha juu cha kuona, vizingiti vya sumu, usawa wa delta.

  • Ongeza dashibodi za canary kwa muda wa kusubiri wa p95, kuisha kwa muda na gharama kwa kila ombi.

  • Tumia maktaba zilizoundwa kwa makusudi ili kuharakisha hili; wao kutoa drift, ubora, na ufuatiliaji primitives nje ya boksi.

Mfano mdogo wenye dosari: fikiria modeli yako kama kichocheo cha chachu - huoki mara moja tu na kuondoka; unalisha, unalitazama, unalinusa, na wakati mwingine unaanzisha upya.


Tathmini ya kibinadamu ambayo haiporomoki 🍪

Wakati watu wanapanga matokeo, mchakato ni muhimu zaidi kuliko unavyofikiria.

  • Andika rubri kali zenye mifano ya kupita dhidi ya mstari wa mpaka na kutofaulu.

  • Randomize na sampuli pofu wakati unaweza.

  • Pima makubaliano baina ya wakadiriaji (kwa mfano, Cohen's κ kwa wakadiriaji wawili, Fleiss' κ kwa wengi) na uonyeshe rubriki makubaliano yakitetereka.

Hii huzuia lebo zako za kibinadamu zisiathiriwe na hali au usambazaji wa kahawa.


Kupiga mbizi kwa kina: jinsi ya kupima utendaji wa AI kwa LLM katika RAG 🧩

  • Ubora wa kurejesha - recall@k, precision@k, nDCG; chanjo ya ukweli wa dhahabu. [2]

  • Jibu uaminifu - taja-na-thibitisha hundi, alama za msingi, uchunguzi wa wapinzani.

  • Kutosheka kwa mtumiaji - vidole gumba, kukamilika kwa kazi, hariri umbali kutoka kwa rasimu zilizopendekezwa.

  • Usalama - sumu, uvujaji wa PII, kufuata sera.

  • Gharama na ucheleweshaji - tokeni, mipigo ya akiba, ucheleweshaji wa p95 na p99.

Unganisha hizi na vitendo vya biashara: ikiwa msingi utapungua chini ya mstari, pitia njia ya kiotomatiki kwa hali kali au ukaguzi wa kibinadamu.


Kitabu rahisi cha kucheza cha kuanza leo 🪄

  1. Fafanua kazi - andika sentensi moja: AI inapaswa kufanya nini na kwa nani.

  2. Chagua vipimo 2–3 vya kazi - pamoja na urekebishaji na angalau kipande kimoja cha usawa. [2][3][5]

  3. Amua viwango kwa kutumia gharama - usikisie.

  4. Unda seti ndogo ya eval - mifano 100–500 iliyo na lebo inayoakisi mchanganyiko wa uzalishaji.

  5. Weka otomatiki tathmini zako - tathmini/ufuatiliaji wa waya kuwa CI ili kila badiliko lifanye ukaguzi sawa.

  6. Kufuatilia katika uzalishaji - drift, latency, gharama, matukio bendera.

  7. Kagua vipimo vya kila mwezi - punguza ambavyo hakuna mtu anayetumia; ongeza zinazojibu maswali halisi.

  8. Maamuzi ya hati - kadi hai ya matokeo ambayo timu yako inasoma haswa.

Ndiyo, ndivyo ilivyo. Na inafanya kazi.


Gotcha za kawaida na jinsi ya kuzikwepa 🕳️🐇

  • Kuweka kipimo kimoja kupita kiasi - tumia kikapu cha kipimo kinacholingana na muktadha wa uamuzi. [1][2]

  • Kupuuza urekebishaji - kujiamini bila kusawazisha ni swagger tu. [3]

  • Hakuna mgawanyiko - kila wakati kata kwa vikundi vya watumiaji, jiografia, kifaa, lugha. [5]

  • Gharama ambazo hazijafafanuliwa - ikiwa huna makosa ya bei, utachagua kizingiti kisicho sahihi.

  • Human eval drift - makubaliano ya kipimo, rubri za onyesha upya, fundisha upya wakaguzi.

  • Hakuna zana za usalama - ongeza haki, sumu, na ukaguzi wa sera sasa, sio baadaye. [1][5]


Maneno uliyokuja nayo: jinsi ya kupima utendakazi wa AI - Muda Mrefu Sana, Sikuisoma 🧾

  • Anza na matokeo wazi , kisha uweke kazi , mfumo na biashara . [1]

  • Tumia metrics sahihi kwa kazi - F1 na ROC-AUC kwa uainishaji; nDCG/MRR kwa cheo; hupishana + vipimo vya semantiki kwa kizazi (vilivyooanishwa na wanadamu). [2][4]

  • Rekebisha uwezekano wako na uweke bei ya makosa yako ili uchague vizingiti. [2][3]

  • Ongeza wa haki na vipande vya kikundi na udhibiti ubadilishanaji kwa uwazi. [5]

  • Otomatiki tathmini na ufuatiliaji ili uweze kurudia bila woga.

Unajua jinsi ilivyo - pima ni nini muhimu, au utaishia kuboresha kile ambacho sio muhimu.


Marejeleo

[1] NIST. Mfumo wa Usimamizi wa Hatari wa AI (AI RMF). soma zaidi
[2] scikit-learn. Tathmini ya mfano: kutathmini ubora wa utabiri (Mwongozo wa Mtumiaji). soma zaidi
[3] scikit-learn. Urekebishaji wa uwezekano (mikondo ya urekebishaji, alama ya Brier). soma zaidi
[4] Papineni et al. (2002). BLEU: Mbinu ya Tathmini ya Kiotomatiki ya Tafsiri ya Mashine. ACL. soma zaidi
[5] Hardt, Price, Srebro (2016). Usawa wa Fursa katika Mafunzo Yanayosimamiwa. NeurIPS. soma zaidi

Pata AI ya Hivi Punde kwenye Duka Rasmi la Msaidizi wa AI

Kuhusu Sisi

Rudi kwenye blogu