Jibu fupi: Fafanua jinsi "nzuri" inavyoonekana kwa matumizi yako, kisha jaribu kwa vidokezo wakilishi, vilivyotolewa toleo na vipimo vya makali. Oanisha vipimo otomatiki na alama za rubriki za kibinadamu, pamoja na usalama wa ushindani na ukaguzi wa sindano ya haraka. Ikiwa vikwazo vya gharama au ucheleweshaji vinakuwa vya lazima, linganisha mifumo kwa mafanikio ya kazi kwa pauni iliyotumika na nyakati za majibu ya p95/p99.
Mambo muhimu ya kuzingatia:
Uwajibikaji : Wape wamiliki wazi, weka kumbukumbu za matoleo, na urudishe marekebisho baada ya mabadiliko yoyote ya haraka au ya modeli.
Uwazi : Andika vigezo vya mafanikio, vikwazo, na gharama za kushindwa kabla ya kuanza kukusanya alama.
Ukaguzi : Dumisha vipimo vinavyoweza kurudiwa, seti za data zilizo na lebo, na vipimo vya muda wa kuchelewa vya p95/p99 vinavyofuatiliwa.
Ushindani : Tumia rubriki za mapitio ya kibinadamu na njia iliyofafanuliwa ya rufaa kwa matokeo yenye utata.
Upinzani wa matumizi mabaya : Kuanzisha upya programu ya dharura kwa timu, mada nyeti, na kukataa kupita kiasi ili kuwalinda watumiaji.
Ukichagua modeli ya bidhaa, mradi wa utafiti, au hata kifaa cha ndani, huwezi kusema tu "inasikika vizuri" na kuituma (tazama mwongozo wa OpenAI evals na NIST AI RMF 1.0 ). Hivi ndivyo unavyoishia na chatbot inayoelezea kwa ujasiri jinsi ya kutumia uma kwenye microwave. 😬

Makala ambazo unaweza kupenda kusoma baada ya hii:
🔗 Mustakabali wa AI: mitindo inayounda muongo ujao
Ubunifu muhimu, athari za ajira, na maadili ya kutazama mbele.
🔗 Mifumo ya msingi katika AI ya uzalishaji imeelezewa kwa wanaoanza
Jifunze ni nini, jinsi ya kufundishwa, na kwa nini ni muhimu.
🔗 Jinsi akili bandia inavyoathiri mazingira na matumizi ya nishati
Chunguza uzalishaji wa gesi chafu, mahitaji ya umeme, na njia za kupunguza athari zake.
🔗 Jinsi upandishaji wa ukubwa wa akili bandia unavyofanya kazi kwa picha kali leo
Tazama jinsi mifumo inavyoongeza maelezo, kuondoa kelele, na kupanua kwa usafi.
1) Kufafanua "nzuri" (inategemea, na hiyo ni sawa) 🎯
Kabla ya kufanya tathmini yoyote, amua jinsi mafanikio yanavyoonekana. Vinginevyo utapima kila kitu na usijifunze chochote. Ni kama kuleta kipimo cha mkanda ili kuhukumu shindano la keki. Hakika, utapata nambari, lakini hazitakuambia mengi 😅
Fafanua:
-
Lengo la mtumiaji : muhtasari, utafutaji, uandishi, hoja, uchimbaji wa ukweli
-
Gharama ya kushindwa : pendekezo lisilo sahihi la filamu ni la kuchekesha; maelekezo yasiyo sahihi ya kimatibabu ni… si ya kuchekesha (kuweka hatari: NIST AI RMF 1.0 ).
-
Mazingira ya wakati wa utekelezaji : kwenye kifaa, kwenye wingu, nyuma ya ngome, katika mazingira yaliyodhibitiwa
-
Vikwazo vya msingi : ucheleweshaji, gharama kwa kila ombi, faragha, uelezevu, usaidizi wa lugha nyingi, udhibiti wa sauti
Mfano "bora" katika kazi moja unaweza kuwa janga katika kazi nyingine. Hiyo si utata, ni ukweli. 🙂
2) Jinsi mfumo imara wa tathmini ya modeli ya AI unavyoonekana 🧰
Ndiyo, hii ndiyo sehemu ambayo watu huiruka. Wanapata kipimo, wanakiendesha mara moja, na wanakiita siku moja. Mfumo thabiti wa tathmini una sifa chache zinazofanana (mifano ya zana za vitendo: OpenAI Evals / mwongozo wa OpenAI evals ):
-
Inaweza kurudiwa - unaweza kuiendesha tena wiki ijayo na kuamini ulinganisho
-
Mwakilishi - inaonyesha watumiaji na kazi zako halisi (sio mambo madogo tu)
-
Yenye tabaka nyingi - inachanganya vipimo otomatiki + mapitio ya binadamu + majaribio ya wapinzani
-
Inaweza Kutekelezwa - matokeo yanakueleza cha kurekebisha, si tu "alama zilizopungua"
-
Haiwezi kuathiriwa - huepuka "kufundisha kwa mtihani" au kuvuja kwa bahati mbaya
-
Kwa kuzingatia gharama - tathmini yenyewe haipaswi kukufilisi (isipokuwa kama unapenda maumivu)
Ikiwa tathmini yako haiwezi kuvumilia mwenzako mwenye shaka akisema "Sawa, lakini unganisha hii na uzalishaji," basi haijakamilika bado. Huo ndio ukaguzi wa hisia.
3) Jinsi ya Kutathmini Mifumo ya AI kwa kuanza na vipande vya matumizi 🍰
Hapa kuna mbinu inayookoa muda mwingi: vunja kisanduku cha matumizi vipande vipande .
Badala ya "kutathmini modeli," fanya:
-
Uelewa wa nia (je, inapata kile mtumiaji anataka)
-
Matumizi ya kurejesha au muktadha (je, hutumia taarifa iliyotolewa kwa usahihi)
-
Hoja / kazi za hatua nyingi (je, zinabaki kuwa na upatano katika hatua zote)
-
Uundaji na muundo (je, unafuata maagizo)
-
Usalama na mpangilio wa sera (je, inaepuka maudhui yasiyo salama; tazama NIST AI RMF 1.0 )
-
Toni na sauti ya chapa (inasikika kama unavyotaka isikike)
Hii inafanya "Jinsi ya Kutathmini Mifumo ya AI" isionekane kama mtihani mmoja mkubwa na zaidi kama seti ya maswali lengwa. Maswali yanakera, lakini yanaweza kudhibitiwa. 😄
4) Misingi ya tathmini nje ya mtandao - seti za majaribio, lebo, na maelezo yasiyo ya kifahari ambayo ni muhimu 📦
eval ya nje ya mtandao ni mahali unapofanya majaribio yaliyodhibitiwa kabla ya watumiaji kugusa chochote (mifumo ya mtiririko wa kazi: OpenAI Evals ).
Jenga au kusanya seti ya majaribio ambayo ni yako halisi
Seti nzuri ya majaribio kwa kawaida hujumuisha:
-
Mifano ya dhahabu : matokeo bora ambayo ungeyatuma kwa fahari
-
Kesi za Edge : vidokezo visivyoeleweka, ingizo zisizo na mpangilio, umbizo lisilotarajiwa
-
Vipimo vya hali ya kushindwa : vichocheo vinavyojaribu kuona mambo bila mpangilio au majibu yasiyo salama (uundaji wa upimaji wa hatari: NIST AI RMF 1.0 )
-
Ufikiaji wa utofauti : viwango tofauti vya ujuzi wa mtumiaji, lahaja, lugha, vikoa
Ukijaribu tu kwa vidokezo "safi", modeli itaonekana ya kushangaza. Kisha watumiaji wako wataonekana na makosa ya kuandika, sentensi nusu, na nishati ya kubofya kwa hasira. Karibu kwenye uhalisia.
Chaguo za kuweka lebo (pia inajulikana kama: viwango vya ukali)
Unaweza kuweka lebo kwenye matokeo kama:
-
Binary : kupita/kushindwa (haraka, kali)
-
Kawaida : alama ya ubora wa 1-5 (iliyopangwa, ya kibinafsi)
-
Sifa nyingi : usahihi, ukamilifu, sauti, matumizi ya nukuu, n.k. (bora zaidi, polepole zaidi)
Sifa nyingi ni sehemu tamu kwa timu nyingi. Ni kama kuonja chakula na kuhukumu chumvi tofauti na umbile. Vinginevyo unasema tu "nzuri" na kuinua mabega.
5) Vipimo ambavyo havidanganyi - na vipimo ambavyo kwa namna fulani hufanya hivyo 📊😅
Vipimo vina thamani… lakini pia vinaweza kuwa bomu la kung'aa. Vinang'aa, kila mahali, na ni vigumu kusafisha.
Familia za kipimo cha kawaida
-
Usahihi / ulinganifu kamili : mzuri kwa ajili ya uchimbaji, uainishaji, na kazi zilizopangwa
-
F1 / usahihi / ukumbusho : muhimu wakati unakosa kitu ni mbaya zaidi kuliko kelele ya ziada (ufafanuzi: scikit-learn usahihi/ukumbusho/alama ya F )
-
Mtindo wa BLEU / ROUGE unaoingiliana : sawa kwa kazi zinazofanana na muhtasari, mara nyingi hupotosha (vipimo asili: BLEU na ROUGE )
-
Kupachika kufanana : kunasaidia kwa ulinganifu wa kisemantiki, kunaweza kutoa thawabu kwa majibu yasiyo sahihi lakini yanayofanana
-
Kiwango cha mafanikio ya kazi : "je, mtumiaji alipata kile alichohitaji" kiwango cha dhahabu kikifafanuliwa vizuri
-
Utiifu wa vikwazo : hufuata muundo, urefu, uhalali wa JSON, utiifu wa mpango
Jambo muhimu
Ikiwa kazi yako ni wazi (kuandika, kuhoji, gumzo la usaidizi), vipimo vya nambari moja vinaweza kuwa… kuyumbayumba. Sio bure, kuyumbayumba tu. Kupima ubunifu kwa kutumia rula kunawezekana, lakini utahisi upumbavu kuifanya. (Pia utang'oa jicho lako, labda.)
Kwa hivyo: tumia vipimo, lakini viambatanishe na mapitio ya kibinadamu na matokeo halisi ya kazi (mfano mmoja wa majadiliano ya tathmini yanayotegemea LLM + tahadhari: G-Eval ).
6) Jedwali la Ulinganisho - chaguo bora za tathmini (zilizo na tabia zisizo za kawaida, kwa sababu maisha yana tabia zisizo za kawaida) 🧾✨
Hapa kuna menyu ya vitendo ya mbinu za tathmini. Changanya na ulinganishe. Timu nyingi hufanya hivyo.
| Chombo / Mbinu | Hadhira | Bei | Kwa nini inafanya kazi |
|---|---|---|---|
| Kifaa cha majaribio cha haraka kilichojengwa kwa mkono | Bidhaa + uhandisi | $ | Imelenga sana, inapata marudio haraka - lakini lazima uidumishe milele 🙃 (uundaji wa zana za kuanzia: OpenAI Evals ) |
| Jopo la alama za rubriki za kibinadamu | Timu zinazoweza kuwaokoa wakaguzi | $$ | Bora kwa sauti, ufupi, "je, mwanadamu angekubali hili", machafuko kidogo kulingana na wakaguzi |
| LLM-kama-jaji (na rubriki) | Mizunguko ya kurudia haraka | $-$$ | Haraka na inaweza kupanuliwa, lakini inaweza kurithi upendeleo na wakati mwingine alama za mhemko si ukweli (utafiti + masuala yanayojulikana ya upendeleo: G-Eval ) |
| Mbio za kasi za timu nyekundu za wapinzani | Usalama + kufuata sheria | $$ | Hupata njia za kutofanya kazi kwa viungo, hasa sindano ya haraka - huhisi kama kipimo cha msongo wa mawazo kwenye gym (muhtasari wa vitisho: OWASP LLM01 Prompt Injection / OWASP 10 Bora kwa Programu za LLM ) |
| Uundaji wa majaribio ya sintetiki | Timu za mwangaza wa data | $ | Ufikiaji mzuri, lakini vidokezo vya sintetiki vinaweza kuwa nadhifu sana, vya heshima sana... watumiaji hawana heshima |
| Upimaji wa A/B na watumiaji halisi | Bidhaa zilizokomaa | $$$ | Ishara iliyo wazi zaidi - pia ndiyo inayosababisha msongo wa mawazo zaidi kihisia wakati vipimo vinapobadilika (mwongozo wa vitendo wa kawaida: Kohavi et al., “Majaribio yaliyodhibitiwa kwenye wavuti” ) |
| eval iliyochongwa kwa msingi wa urejeshaji (ukaguzi wa RAG) | Tafuta + programu za QA | $$ | Vipimo "hutumia muktadha kwa usahihi," hupunguza mfumuko wa bei wa alama za ndoto (muhtasari wa RAG eval: Tathmini ya RAG: Utafiti ) |
| Ufuatiliaji + ugunduzi wa kuteleza | Mifumo ya uzalishaji | $$-$$$ | Hupata uharibifu baada ya muda - huonekana wazi hadi siku ambayo itakuokoa 😬 (muhtasari wa kuteleza: Utafiti wa kuteleza kwa dhana (PMC) ) |
Kumbuka bei ni ndogo kimakusudi. Zinategemea ukubwa, vifaa, na idadi ya mikutano unayokutana nayo bila kukusudia.
7) Tathmini ya kibinadamu - silaha ya siri ambayo watu huifadhili kwa kiasi kidogo 👀🧑⚖️
Ukifanya tathmini otomatiki pekee, utakosa:
-
Utofauti wa sauti ("kwa nini ni mzaha sana")
-
Makosa ya kweli yasiyoeleweka ambayo yanaonekana kuwa fasaha
-
Athari mbaya, dhana potofu, au usemi usio wa kawaida (hatari + upendeleo: NIST AI RMF 1.0 )
-
Kushindwa kufuata maelekezo ambayo bado yanasikika kama "mahiri"
Tengeneza rubriki halisi (la sivyo wahakiki watakuwa huru)
Rubriki mbaya: "Usaidizi"
Rubriki bora:
-
Usahihi : usahihi wa ukweli kutokana na muktadha wa haraka +
-
Ukamilifu : hufunika pointi zinazohitajika bila kulalamika
-
Uwazi : inayosomeka, iliyopangwa, na mkanganyiko mdogo
-
Sera / usalama : huepuka maudhui yaliyowekewa vikwazo, hushughulikia kukataliwa vizuri (uundaji wa usalama: NIST AI RMF 1.0 )
-
Mtindo : unalingana na sauti, sauti, kiwango cha usomaji
-
Uaminifu : haubuni vyanzo au madai ambayo hayaungwi mkono
Pia, fanya ukaguzi wa watathmini kati ya watathmini wakati mwingine. Ikiwa wakaguzi wawili hawakubaliani kila mara, sio "tatizo la watu," ni tatizo la rubriki. Kwa kawaida (misingi ya uaminifu kati ya watathmini: McHugh kuhusu kappa ya Cohen ).
8) Jinsi ya Kutathmini Mifumo ya AI kwa usalama, uimara, na "watumiaji" 🧯🧪
Hii ndiyo sehemu unayofanya kabla ya uzinduzi - na kisha endelea kufanya, kwa sababu intaneti hailali kamwe.
Vipimo vya uimara vijumuishe
-
Taipo, misimu, sarufi iliyoharibika
-
Mapendekezo marefu sana na mashauri mafupi sana
-
Maagizo yanayokinzana ("kuwa mafupi lakini jumuisha kila undani")
-
Mazungumzo ya mara nyingi ambapo watumiaji hubadilisha malengo
-
Majaribio ya sindano ya haraka ("puuza sheria zilizopita ...") (maelezo ya tishio: OWASP LLM01 Sindano ya Haraka )
-
Mada nyeti zinazohitaji kukataliwa kwa uangalifu (uainishaji wa hatari/usalama: NIST AI RMF 1.0 )
Tathmini ya usalama si tu "inakataa"
Mfano mzuri unapaswa:
-
Kataa maombi yasiyo salama kwa uwazi na kwa utulivu (mwongozo wa kutunga: NIST AI RMF 1.0 )
-
Toa njia mbadala salama zaidi inapohitajika
-
Epuka kukataa kupita kiasi maswali yasiyo na madhara (chanya za uongo)
-
Shughulikia maombi yasiyoeleweka kwa maswali yanayoeleweka (inaporuhusiwa)
Kukataa kupita kiasi ni tatizo halisi la bidhaa. Watumiaji hawapendi kutendewa kama goblins wanaotiliwa shaka. 🧌 (Hata kama ni goblins wanaotiliwa shaka.)
9) Gharama, ucheleweshaji, na uhalisia wa uendeshaji - tathmini ambayo kila mtu husahau 💸⏱️
Mfano unaweza kuwa "wa kushangaza" na bado ukawa na makosa kwako ikiwa ni wa polepole, wa gharama kubwa, au dhaifu katika utendaji.
Tathmini:
-
Usambazaji wa muda mfupi (sio wastani tu - p95 na p99 matter) (kwa nini percentiles ni muhimu: Kitabu cha Kazi cha Google SRE kuhusu ufuatiliaji )
-
Gharama kwa kila kazi iliyofanikiwa (sio gharama kwa kila tokeni pekee)
-
Uthabiti chini ya mzigo (muda wa kuisha, mipaka ya kiwango, miiba isiyo ya kawaida)
-
Utegemezi wa wito wa zana (ikiwa inatumia vitendakazi, je, inafanya kazi)
-
Mwelekeo wa urefu wa matokeo (baadhi ya mifano hubadilika-badilika, na kubadilika-badilika hugharimu pesa)
Mfano mbaya kidogo ambao una kasi mara mbili zaidi unaweza kushinda mazoezini. Hilo linasikika wazi, lakini watu hulipuuza. Kama vile kununua gari la michezo kwa ajili ya ununuzi wa mboga, kisha kulalamika kuhusu nafasi ya trela.
10) Mtiririko rahisi wa kazi kuanzia mwanzo hadi mwisho unaoweza kunakili (na kurekebisha) 🔁✅
Hapa kuna mtiririko wa vitendo wa Jinsi ya Kutathmini Mifumo ya AI bila kunaswa katika majaribio yasiyo na mwisho:
-
Fafanua mafanikio : kazi, vikwazo, gharama za kushindwa
-
Unda seti ndogo ya majaribio ya "msingi" : Mifano 50-200 inayoakisi matumizi halisi
-
Ongeza seti za pembeni na za wapinzani : majaribio ya sindano, vidokezo visivyoeleweka, uchunguzi wa usalama (darasa la sindano ya haraka: OWASP LLM01 )
-
Fanya ukaguzi otomatiki : umbizo, uhalali wa JSON, usahihi wa msingi inapowezekana
-
Endesha ukaguzi wa kibinadamu : matokeo ya sampuli katika kategoria, alama kwa kutumia rubriki
-
Linganisha mabadiliko : ubora dhidi ya gharama dhidi ya kuchelewa dhidi ya usalama
-
Majaribio katika toleo pungufu : Majaribio ya A/B au uzinduzi kwa hatua (mwongozo wa upimaji wa A/B: Kohavi et al. )
-
Kifuatiliaji katika uzalishaji : kuteleza, kurudi nyuma, mizunguko ya maoni ya watumiaji (muhtasari wa kuteleza: Utafiti wa kuteleza kwa dhana (PMC) )
-
Iterate : sasisha vidokezo, kurejesha, kurekebisha, vizuizi, kisha endesha tena eval (mifumo ya iteration ya evals: Mwongozo wa OpenAI evals )
Weka kumbukumbu zilizotengenezwa tayari. Sio kwa sababu ni ya kufurahisha, bali kwa sababu ya wakati ujao - utakushukuru huku ukibeba kahawa na kunung'unika "kilichobadilika ..." ☕🙂
11) Mitego ya kawaida (pia inajulikana kama: njia ambazo watu hujidanganya kwa bahati mbaya) 🪤
-
Mafunzo ya kufanya majaribio : unaboresha vidokezo hadi kipimo kionekane kizuri, lakini watumiaji wanateseka
-
Data ya tathmini inayovuja : vidokezo vya majaribio huonekana katika mafunzo au data ya kurekebisha (woops)
-
Ibada ya kipimo kimoja : kufuatilia alama moja ambayo haionyeshi thamani ya mtumiaji
-
Kupuuza mabadiliko ya usambazaji : mabadiliko ya tabia ya mtumiaji na mfumo wako huharibika kimya kimya (kuunda hatari ya uzalishaji: Utafiti wa dhana (PMC) )
-
Kuzingatia kupita kiasi "ujanja" : hoja za busara hazijalishi kama zinavunja umbizo au zinabuni ukweli
-
Kutojaribu ubora wa kukataa : "Hapana" inaweza kuwa sahihi lakini bado ni UX mbaya
Pia, jihadhari na maonyesho. Maonyesho ni kama trela za filamu. Yanaonyesha mambo muhimu, huficha sehemu za polepole, na wakati mwingine hulala na muziki wa tamthilia. 🎬
12) Muhtasari wa Kuhitimisha kuhusu Jinsi ya Kutathmini Mifumo ya AI 🧠✨
Kutathmini mifumo ya AI si alama moja, ni mlo kamili. Unahitaji protini (usahihi), mboga (usalama), wanga (kasi na gharama), na ndio, wakati mwingine kitindamlo (sauti na raha) 🍲🍰 (kuweka hatari: NIST AI RMF 1.0 )
Kama hukumbuki kitu kingine chochote:
-
Fafanua maana ya "nzuri" kwa matumizi yako
-
Tumia seti wakilishi za majaribio, si tu vipimo maarufu
-
Unganisha vipimo otomatiki na ukaguzi wa rubriki ya binadamu
-
Uthabiti wa majaribio na usalama kama watumiaji ni wa kupingana (kwa sababu wakati mwingine… huwa hivyo) (darasa la sindano ya haraka: OWASP LLM01 )
-
Jumuisha gharama na ucheleweshaji katika tathmini, si kama wazo la baadaye (kwa nini asilimia ni muhimu: Kitabu cha Kazi cha Google SRE )
-
Kifuatiliaji baada ya uzinduzi - mifumo huteleza, programu hubadilika, wanadamu hupata ubunifu (muhtasari wa kuteleza: Utafiti wa kuteleza kwa dhana (PMC) )
Hiyo ndiyo Jinsi ya Kutathmini Mifumo ya AI kwa njia ambayo itadumu wakati bidhaa yako iko hai na watu wanaanza kufanya mambo yasiyotabirika kwa watu. Ambayo huwa hivyo kila wakati. 🙂
Maswali Yanayoulizwa Mara kwa Mara
Ni hatua gani ya kwanza katika jinsi ya kutathmini mifumo ya akili bandia kwa bidhaa halisi?
Anza kwa kufafanua maana ya "nzuri" kwa matumizi yako mahususi. Eleza lengo la mtumiaji, ni hitilafu gani zilizokugharimu (hazina za chini dhidi ya hazina za juu), na mahali ambapo modeli itaendeshwa (wingu, kwenye kifaa, mazingira yanayodhibitiwa). Kisha orodhesha vikwazo vikali kama vile kuchelewa, gharama, faragha, na udhibiti wa sauti. Bila msingi huu, utapima mengi na bado utafanya uamuzi mbaya.
Ninawezaje kujenga seti ya majaribio inayoakisi watumiaji wangu kikweli?
Jenga seti ya majaribio ambayo ni yako kweli, si tu kipimo cha umma. Jumuisha mifano ya dhahabu ambayo ungewasilisha kwa fahari, pamoja na vidokezo vya kelele, vya ghafla vyenye makosa ya kuandika, sentensi nusu, na maombi yasiyoeleweka. Ongeza mifano ya makali na uchunguzi wa hali ya kushindwa unaojaribu kuona mambo bila mpangilio au majibu yasiyo salama. Funika utofauti katika kiwango cha ujuzi, lahaja, lugha, na nyanja ili matokeo yasiporomoke katika uzalishaji.
Ni vipimo gani ninavyopaswa kutumia, na ni vipi vinaweza kupotosha?
Linganisha vipimo na aina ya kazi. Ulinganisho na usahihi kamili hufanya kazi vizuri kwa ajili ya kutoa na kutoa matokeo yaliyopangwa, huku usahihi/kumbukumbu na F1 husaidia wakati kitu kinakosekana ni mbaya zaidi kuliko kelele ya ziada. Vipimo vinavyoingiliana kama BLEU/ROUGE vinaweza kupotosha kwa kazi zilizo wazi, na kupachika kufanana kunaweza kuthawabisha majibu "mabaya lakini yanayofanana". Kwa uandishi, usaidizi, au hoja, changanya vipimo na mapitio ya kibinadamu na viwango vya mafanikio ya kazi.
Ninawezaje kupanga tathmini ili ziweze kurudiwa na kuwa za kiwango cha uzalishaji?
Mfumo imara wa tathmini unaweza kurudiwa, kuwakilisha, kuwa na tabaka nyingi, na kutekelezwa. Changanya ukaguzi otomatiki (muundo, uhalali wa JSON, usahihi wa msingi) na alama za kibinadamu na majaribio ya upinzani. Ifanye iwe sugu kwa kuvuja kwa kuepuka kuvuja na "kufundisha kwa jaribio." Weka ufahamu wa gharama za tathmini ili uweze kuiendesha tena mara kwa mara, si mara moja tu kabla ya uzinduzi.
Ni njia gani bora ya kufanya tathmini ya kibinadamu bila kugeuka kuwa machafuko?
Tumia rubriki thabiti ili wakaguzi wasitumie mtindo huru. Andika alama katika sifa kama vile usahihi, ukamilifu, uwazi, utunzaji wa usalama/sera, mtindo/ulinganisho wa sauti, na uaminifu (sio kubuni madai au vyanzo). Angalia mara kwa mara makubaliano ya wakaguzi; ikiwa wakaguzi hawakubaliani kila mara, rubriki hiyo huenda ikahitaji uboreshaji. Uhakiki wa kibinadamu ni muhimu sana kwa kutolingana kwa sauti, makosa madogo ya ukweli, na kushindwa kufuata maelekezo.
Ninawezaje kutathmini usalama, uimara, na hatari za sindano za haraka?
Jaribu kwa kutumia ingizo la "ugh, watumiaji": makosa ya kuandika, misimu, maelekezo yanayokinzana, vidokezo virefu sana au vifupi sana, na mabadiliko ya malengo ya mara nyingi. Jumuisha majaribio ya kuingiza haraka kama vile "kupuuza sheria za awali" na mada nyeti zinazohitaji kukataliwa kwa uangalifu. Utendaji mzuri wa usalama si kukataa tu - ni kukataa waziwazi, kutoa njia mbadala salama inapohitajika, na kuepuka kukataa kupita kiasi maswali yasiyo na madhara ambayo yanaumiza UX.
Ninawezaje kutathmini gharama na ucheleweshaji kwa njia inayolingana na uhalisia?
Usipime wastani tu - fuatilia usambazaji wa muda wa kuchelewa, hasa p95 na p99. Tathmini gharama kwa kila kazi iliyofanikiwa, si gharama kwa kila tokeni pekee, kwa sababu majaribio ya mara kwa mara na matokeo ya kutatanisha yanaweza kufuta akiba. Jaribu uthabiti chini ya mzigo (muda wa kuisha, mipaka ya kiwango, miiba) na uaminifu wa wito wa zana/kazi. Mfano mbaya kidogo ambao ni wa kasi mara mbili au thabiti zaidi unaweza kuwa chaguo bora la bidhaa.
Ni mtiririko gani rahisi wa kazi wa kuanzia mwanzo hadi mwisho wa jinsi ya kutathmini mifumo ya AI?
Bainisha vigezo na vikwazo vya mafanikio, kisha unda seti ndogo ya majaribio ya msingi (takriban mifano 50–200) inayoakisi matumizi halisi. Ongeza seti za makali na wapinzani kwa ajili ya majaribio ya usalama na sindano. Endesha ukaguzi otomatiki, kisha sampuli ya matokeo ya alama za rubriki za binadamu. Linganisha ubora dhidi ya gharama dhidi ya ucheleweshaji dhidi ya usalama, majaribio na jaribio dogo la uzinduzi au A/B, na ufuatilie uzalishaji kwa ajili ya kuteleza na kurudi nyuma.
Ni njia zipi za kawaida ambazo timu hujidanganya kwa bahati mbaya katika tathmini ya modeli?
Mitego ya kawaida ni pamoja na kuboresha vidokezo ili kufikia kiwango kinachokubalika huku watumiaji wakiteseka, kuvuja vidokezo vya tathmini katika mafunzo au urekebishaji wa data, na kuabudu kipimo kimoja ambacho hakionyeshi thamani ya mtumiaji. Timu pia hupuuza mabadiliko ya usambazaji, kuzidisha kiwango cha "ustadi" badala ya kufuata umbizo na uaminifu, na kuruka majaribio ya ubora wa kukataa. Maonyesho yanaweza kuficha masuala haya, kwa hivyo hutegemea eval zilizopangwa, sio kuangazia reli.
Marejeleo
-
OpenAI - Mwongozo wa OpenAI evals - platform.openai.com
-
Taasisi ya Kitaifa ya Viwango na Teknolojia (NIST) - Mfumo wa Usimamizi wa Hatari za AI (AI RMF 1.0) - nist.gov
-
OpenAI - openai/evals (hifadhi ya GitHub) - github.com
-
scikit-learn - usahihi_wa_kukumbuka_fscore_support - scikit-learn.org
-
Chama cha Isimu za Kompyuta (Mkusanyiko wa ACL) - BLEU - aclanthology.org
-
Chama cha Isimu za Kompyuta (Mkusanyiko wa ACL) - ROUGE - aclanthology.org
-
arXiv - G-Eval - arxiv.org
-
OWASP - LLM01: Sindano ya Haraka - owasp.org
-
OWASP - OWASP 10 Bora kwa Matumizi ya Mifano Mikubwa ya Lugha - owasp.org
-
Chuo Kikuu cha Stanford - Kohavi et al., “Majaribio yaliyodhibitiwa kwenye wavuti” - stanford.edu
-
arXiv - Tathmini ya RAG: Utafiti - arxiv.org
-
PubMed Central (PMC) - Utafiti wa Mtiririko wa Dhana (PMC) - nih.gov
-
PubMed Central (PMC) - McHugh kuhusu kappa ya Cohen - nih.gov
-
cha Google - SRE kuhusu ufuatiliaji - google.workbook