Je, AI ni Sahihi Kiasi Gani?

Je, AI ni Sahihi Kiasi Gani?

Jibu fupi: AI inaweza kuwa sahihi sana kwenye kazi finyu na zilizofafanuliwa vizuri zenye ukweli ulio wazi, lakini "usahihi" si alama moja unayoweza kuiamini kwa wote. Inadumu tu wakati kazi, data, na kipimo vinapolingana na mpangilio wa uendeshaji; wakati ingizo zinapotoka au kazi zinakuwa wazi, makosa na ndoto za ajabu huongezeka.

Mambo muhimu ya kuzingatia:

Ufaa wa kazi : Fafanua kazi kwa usahihi ili "sahihi" na "vibaya" viweze kujaribiwa.

Chaguo la kipimo : Linganisha vipimo vya tathmini na matokeo halisi, si mila au urahisi.

Upimaji wa uhalisia : Tumia vipimo vya dhiki vinavyowakilisha, vyenye kelele na vipimo vya msongo wa mawazo nje ya usambazaji.

Urekebishaji : Pima kama kujiamini kunaendana na usahihi, hasa kwa vizingiti.

Ufuatiliaji wa mzunguko wa maisha : Tathmini upya mfululizo kadri watumiaji, data, na mazingira yanavyobadilika kadri muda unavyopita.

Makala ambazo unaweza kupenda kusoma baada ya hii:

🔗 Jinsi ya kujifunza AI hatua kwa hatua
Ramani ya barabara inayofaa kwa wanaoanza kuanza kujifunza AI kwa ujasiri.

🔗 Jinsi AI inavyogundua kasoro katika data
Huelezea njia ambazo AI hutumia kutambua mifumo isiyo ya kawaida kiotomatiki.

🔗 Kwa nini akili bandia (AI) inaweza kuwa mbaya kwa jamii
Hushughulikia hatari kama vile upendeleo, athari za kazi, na masuala ya faragha.

🔗 Seti ya data ya AI ni nini na kwa nini ni muhimu
Hufafanua seti za data na jinsi zinavyofunza na kutathmini mifumo ya AI.


1) Kwa hivyo… AI ni sahihi kiasi gani? 🧠✅

AI inaweza kuwa sana katika kazi finyu na zilizofafanuliwa vizuri - hasa wakati "jibu sahihi" halina utata na ni rahisi kupata alama.

Lakini katika kazi zisizo na kikomo (hasa AI ya uzalishaji kama vile vibodi vya gumzo), "usahihi" huteleza haraka kwa sababu:

  • kunaweza kuwa na majibu mengi yanayokubalika

  • matokeo yanaweza kuwa fasaha lakini hayana msingi katika ukweli

  • modeli inaweza kurekebishwa kwa ajili ya hisia za "usaidizi", si usahihi mkali

  • dunia inabadilika, na mifumo inaweza kubaki nyuma ya ukweli

Mfano mzuri wa kiakili: usahihi si sifa "uliyo nayo." Ni sifa "unayopata" kwa kazi maalum, katika mazingira maalum, yenye mpangilio maalum wa kipimo . Ndiyo maana mwongozo mzito huchukulia tathmini kama shughuli ya mzunguko wa maisha - si wakati wa ubao wa alama wa mara moja. [1]

 

Usahihi wa AI

2) Usahihi si jambo moja - ni familia nzima ya watu wasio na msimamo 👨👩👧👦📏

Watu wanaposema "usahihi," wanaweza kumaanisha yoyote kati ya haya (na mara nyingi humaanisha mawili kwa wakati mmoja bila kutambua):

  • Usahihi : je, ilitoa lebo/jibu sahihi?

  • Usahihi dhidi ya ukumbusho : je, iliepuka kengele za uwongo, au iligusa kila kitu?

  • Urekebishaji : inaposema “Nina uhakika wa 90%,” je, ni sahihi ~90% ya wakati? [3]

  • Uimara : bado inafanya kazi wakati ingizo zinabadilika kidogo (kelele, uundaji mpya wa maneno, vyanzo vipya, idadi mpya ya watu)?

  • Kuaminika : je, hufanya kazi kwa uthabiti chini ya hali zinazotarajiwa?

  • Ukweli / ukweli (AI ya kuzalisha): je, ni kutunga mambo (kuota ndoto) kwa sauti ya kujiamini? [2]

Hii pia ndiyo sababu mifumo inayozingatia uaminifu haichukulii "usahihi" kama kipimo cha shujaa pekee. Inazungumzia uhalali, uaminifu, usalama, uwazi, uthabiti, haki, na zaidi kama kifurushi - kwa sababu unaweza "kuboresha" moja na kuvunja nyingine kwa bahati mbaya. [1]


3) Ni nini kinachofanya toleo zuri la kupima "Usanii bandia ni Sahihi Kiasi Gani?" 🧪🔍

Hapa kuna orodha ya "toleo zuri" (ambayo watu huiruka… kisha hujuta baadaye):

✅ Futa ufafanuzi wa kazi (pia inajulikana kama: fanya iweze kujaribiwa)

  • "Fupisha" si dhahiri.

  • "Fupisha katika vitone 5, jumuisha nambari 3 halisi kutoka chanzo, na usivumbue nukuu" inaweza kujaribiwa.

✅ Data wakilishi ya majaribio (yaani: acha kuweka alama kwenye hali rahisi)

Ikiwa seti yako ya majaribio ni safi sana, usahihi utaonekana kuwa mzuri. Watumiaji halisi huleta makosa ya kuandika, kesi za ajabu za ukingo, na nishati ya "Niliandika haya kwenye simu yangu saa 8 asubuhi".

✅ Kipimo kinacholingana na hatari

Kuainisha vibaya meme si sawa na kuainisha vibaya onyo la kimatibabu. Huchagui vipimo kulingana na mila - unavichagua kulingana na matokeo. [1]

✅ Upimaji wa nje ya usambazaji (pia inajulikana kama: "nini hutokea wakati ukweli unaonekana?")

Jaribu usemi wa ajabu, ingizo tata, vidokezo vya uhasama, kategoria mpya, vipindi vipya vya wakati. Hii ni muhimu kwa sababu mabadiliko ya usambazaji ni njia ya kawaida ambayo mifano hukabiliana nayo katika uzalishaji. [4]

✅ Tathmini inayoendelea (pia inajulikana kama: usahihi si kipengele cha "kuweka na kusahau")

Mifumo hubadilika. Watumiaji hubadilika. Data hubadilika. Mfano wako "mzuri" huharibika kimya kimya - isipokuwa unaupima mfululizo. [1]

Muundo mdogo wa ulimwengu halisi utakaoutambua: timu mara nyingi husafirishwa kwa "usahihi mkubwa wa onyesho," kisha hugundua hali yao halisi ya kushindwa si "majibu yasiyo sahihi" ... ni "majibu yasiyo sahihi yanayotolewa kwa ujasiri, kwa kiwango kikubwa." Hilo ni tatizo la muundo wa tathmini, si tatizo la mfumo tu.


4) Ambapo AI kwa kawaida huwa sahihi sana (na kwa nini) 📈🛠️

AI huwa inang'aa wakati tatizo ni:

  • nyembamba

  • yenye lebo nzuri

  • imara baada ya muda

  • sawa na usambazaji wa mafunzo

  • rahisi kupata alama kiotomatiki

Mifano:

  • Uchujaji wa barua taka

  • Utoaji wa hati katika mpangilio thabiti

  • Mizunguko ya cheo/mapendekezo yenye ishara nyingi za maoni

  • Kazi nyingi za uainishaji wa maono katika mipangilio iliyodhibitiwa

Nguvu kubwa inayochosha nyuma ya ushindi mwingi kati ya hizi: ukweli ulio wazi + mifano mingi muhimu . Sio ya kupendeza - yenye ufanisi mkubwa.


5) Ambapo usahihi wa AI mara nyingi huharibika 😬🧯

Hii ndiyo sehemu ambayo watu huhisi katika mifupa yao.

Kuona ndoto katika akili bandia inayozalisha 🗣️🌪️

LLM zinaweza kutoa yanayowezekana lakini yasiyo ya kweli - na sehemu ya "inayowezekana" ndiyo hasa kwa nini ni hatari. Hiyo ndiyo sababu moja ya mwongozo wa hatari wa AI unaozalisha unaweka uzito mkubwa kwenye msingi, nyaraka, na vipimo badala ya maonyesho yanayotegemea mitetemo. [2]

Zamu ya usambazaji 🧳➡️🏠

Mfano uliofunzwa katika mazingira moja unaweza kuanguka katika mwingine: lugha tofauti ya mtumiaji, orodha tofauti ya bidhaa, kanuni tofauti za kikanda, vipindi tofauti vya muda. Vigezo kama vile WILDS vipo kimsingi ili kupiga kelele: "utendaji wa usambazaji unaweza kuzidisha sana utendaji wa ulimwengu halisi." [4]

Motisha zinazolipa kubahatisha kwa ujasiri 🏆🤥

Baadhi ya mipangilio hulipa kwa bahati mbaya tabia ya "jibu kila wakati" badala ya "jibu tu wakati unajua." Kwa hivyo mifumo hujifunza kusikika sawa badala ya kuwa sahihi. Hii ndiyo sababu tathmini lazima ijumuishe tabia ya kujizuia / kutokuwa na uhakika - sio kiwango cha majibu ghafi tu. [2]

Matukio ya ulimwengu halisi na hitilafu za uendeshaji 🚨

Hata mfumo imara unaweza kushindwa kama mfumo: urejeshaji mbaya, data iliyopitwa na wakati, reli zilizovunjika, au mtiririko wa kazi unaoelekeza mfumo kimya kimya karibu na ukaguzi wa usalama. Mwongozo wa kisasa huweka usahihi kama sehemu ya uaminifu wa mfumo , si alama ya mfumo tu. [1]


6) Nguvu isiyo na hadhi ya juu: urekebishaji (pia inajulikana kama "kujua usichokijua") 🎚️🧠

Hata wakati mifumo miwili ina "usahihi" sawa, moja inaweza kuwa salama zaidi kwa sababu:

  • huonyesha kutokuwa na uhakika ipasavyo

  • huepuka kujiamini kupita kiasi kwa majibu yasiyo sahihi

  • hutoa uwezekano unaoendana na ukweli

Urekebishaji si wa kitaaluma tu - ndio unaofanya kujiamini kuwezekane . Ugunduzi wa kawaida katika mitandao ya kisasa ya neva ni kwamba alama ya kujiamini inaweza kupotoshwa na usahihi wa kweli isipokuwa uirekebishe au kuipima waziwazi. [3]

Ikiwa bomba lako linatumia vizingiti kama "idhini ya kiotomatiki juu ya 0.9," urekebishaji ni tofauti kati ya "otomatiki" na "machafuko otomatiki."


7) Jinsi usahihi wa AI unavyotathminiwa kwa aina tofauti za AI 🧩📚

Kwa mifumo ya utabiri wa kawaida (uainishaji/urejeshaji) 📊

Vipimo vya kawaida:

  • Usahihi, usahihi, urejeshaji, F1

  • ROC-AUC / PR-AUC (mara nyingi ni bora kwa matatizo yasiyo na usawa)

  • Ukaguzi wa urekebishaji (mikondo ya uaminifu, mawazo ya makosa ya urekebishaji yanayotarajiwa) [3]

Kwa mifano ya lugha na wasaidizi 💬

Tathmini inapata pande nyingi:

  • usahihi (ambapo kazi ina sharti la ukweli)

  • kufuata maagizo

  • tabia ya usalama na kukataa (kukataa vizuri ni vigumu sana)

  • msingi wa ukweli / nidhamu ya nukuu (wakati matumizi yako yanapohitaji)

  • uthabiti katika vidokezo na mitindo ya watumiaji

Mojawapo ya michango mikubwa ya mawazo ya tathmini ya "jumla" ni kuweka hoja wazi: unahitaji vipimo vingi katika hali nyingi, kwa sababu maelewano ni halisi. [5]

Kwa mifumo iliyojengwa kwenye LLM (mtiririko wa kazi, mawakala, urejeshaji) 🧰

Sasa unatathmini bomba zima:

  • ubora wa urejeshaji (je, ilipata taarifa sahihi?)

  • mantiki ya zana (je, ilifuata mchakato?)

  • ubora wa matokeo (je, ni sahihi na muhimu?)

  • ulinzi (je, iliepuka tabia hatarishi?)

  • ufuatiliaji (je, ulibaini kushindwa porini?) [1]

Kiungo dhaifu popote kinaweza kufanya mfumo mzima uonekane "si sahihi," hata kama mfumo wa msingi ni mzuri.


8) Jedwali la Ulinganisho: njia za vitendo za kutathmini "Usanifu wa AI ni Sahihi Kiasi Gani?" 🧾⚖️

Zana / mbinu Bora zaidi kwa Mtazamo wa gharama Kwa nini inafanya kazi
Vipimo vya matumizi Programu za LLM + vigezo maalum vya mafanikio Huru-ish Unapima wako wa kazi, si ubao wa wanaoongoza bila mpangilio.
Ufikiaji wa vipimo vingi, hali Kulinganisha mifano kwa uwajibikaji Huru-ish Unapata "wasifu" wa uwezo, sio nambari moja ya uchawi. [5]
Mtazamo wa hatari ya mzunguko wa maisha + tathmini Mifumo yenye viwango vya juu inayohitaji ukali Huru-ish Hukusukuma kufafanua, kupima, kusimamia, na kufuatilia mfululizo. [1]
Ukaguzi wa urekebishaji Mfumo wowote unaotumia vizingiti vya kujiamini Huru-ish Huthibitisha kama "uhakika wa 90%" unamaanisha chochote. [3]
Paneli za mapitio ya kibinadamu Usalama, sauti, uelewa, "je, hii inahisi kuwa na madhara?" $$ Wanadamu hugundua muktadha na kuathiri vibaya vipimo otomatiki ambavyo havipo.
Ufuatiliaji wa matukio + mizunguko ya maoni Kujifunza kutokana na kushindwa katika ulimwengu halisi Huru-ish Ukweli una risiti - na data ya uzalishaji inakufundisha haraka kuliko maoni. [1]

Kuunda ukiri wa ajabu: "Free-ish" inafanya kazi nyingi hapa kwa sababu gharama halisi mara nyingi ni saa za kazi za watu, si leseni 😅


9) Jinsi ya kufanya AI kuwa sahihi zaidi (vifaa vya vitendo) 🔧✨

Data bora na majaribio bora 📦🧪

  • Panua visanduku vya pembeni

  • Sawazisha hali adimu lakini muhimu

  • Weka "seti ya dhahabu" inayowakilisha maumivu halisi ya mtumiaji (na endelea kuisasisha)

Msingi wa kazi za kweli 📚🔍

Ikiwa unahitaji uaminifu wa ukweli, tumia mifumo inayotoa kutoka kwa hati zinazoaminika na majibu kulingana na hizo. Mwongozo mwingi wa hatari wa AI unaozalisha unazingatia nyaraka, asili, na mipangilio ya tathmini ambayo hupunguza maudhui yaliyotengenezwa badala ya kutumaini tu kwamba mfumo "utafanya kazi." [2]

Mizunguko imara zaidi ya tathmini 🔁

  • Fanya mabadiliko katika kila mabadiliko yenye maana

  • Jihadhari na marejesho

  • Jaribio la msongo wa mawazo kwa vidokezo vya ajabu na ingizo hasidi

Himiza tabia iliyorekebishwa 🙏

  • Usiadhibu kwa nguvu sana kwa kusema "Sijui"

  • Tathmini ubora wa kutojibu, si kiwango cha majibu pekee

  • Chukulia kujiamini kama kitu unachopima na kuthibitisha , si kitu unachokubali kwenye hisia [3]


10) Ukaguzi wa haraka wa utumbo: ni lini unapaswa kuamini usahihi wa AI? 🧭🤔

Iamini zaidi wakati:

  • kazi ni nyembamba na inaweza kurudiwa

  • matokeo yanaweza kuthibitishwa kiotomatiki

  • mfumo unafuatiliwa na kusasishwa

  • kujiamini kunapimwa, na kunaweza kujizuia [3]

Iamini kidogo wakati:

  • Vikwazo ni vikubwa na matokeo yake ni halisi

  • Ombi hilo ni wazi ("niambie kila kitu kuhusu ...") 😵💫

  • Hakuna msingi, hakuna hatua ya uthibitishaji, hakuna ukaguzi wa kibinadamu

  • mfumo hufanya kazi kwa kujiamini kwa chaguo-msingi [2]

Mfano wenye kasoro kidogo: kutegemea AI isiyothibitishwa kwa maamuzi magumu ni kama kula sushi ambayo imekuwa ikikaa juani… inaweza kuwa sawa, lakini tumbo lako linacheza kamari ambayo hukujisajili.


11) Maelezo ya Kufunga na Muhtasari wa Haraka 🧃✅

Kwa hivyo, AI ni Sahihi Kiasi Gani?
AI inaweza kuwa sahihi sana - lakini tu kuhusiana na kazi iliyoainishwa, mbinu ya kipimo, na mazingira ambayo imetumika . Na kwa AI ya kuzalisha, "usahihi" mara nyingi hauhusu alama moja bali zaidi kuhusu muundo wa mfumo unaoaminika : msingi, urekebishaji, ufunikaji, ufuatiliaji, na tathmini ya uaminifu. [1][2][5]

Muhtasari wa Haraka 🎯

  • "Usahihi" si alama moja - ni usahihi, urekebishaji, uthabiti, uaminifu, na (kwa ajili ya AI ya kuzalisha) ukweli. [1][2][3]

  • Vigezo husaidia, lakini tathmini ya matumizi inakufanya uwe mwaminifu. [5]

  • Ikiwa unahitaji uaminifu wa ukweli, ongeza msingi + hatua za uthibitishaji + tathmini kujiepusha. [2]

  • Tathmini ya mzunguko wa maisha ni mbinu ya mtu mzima… hata kama si ya kusisimua sana kuliko picha ya skrini ya ubao wa wanaoongoza. [1]


Maswali Yanayoulizwa Mara kwa Mara

Usahihi wa AI katika uwasilishaji wa vitendo

AI inaweza kuwa sahihi sana wakati kazi ni finyu, imefafanuliwa vizuri, na imeunganishwa na ukweli ulio wazi unaoweza kupata. Katika matumizi ya uzalishaji, "usahihi" hutegemea kama data yako ya tathmini inaonyesha miingizo ya watumiaji yenye kelele na hali ambazo mfumo wako utakabiliana nazo uwanjani. Kadri kazi zinavyokuwa wazi zaidi (kama vile viroboti vya gumzo), makosa na ndoto za uhakika huonekana mara nyingi zaidi isipokuwa unapoongeza msingi, uthibitishaji, na ufuatiliaji.

Kwa nini "usahihi" si alama moja unayoweza kuamini

Watu hutumia "usahihi" kumaanisha vitu tofauti: usahihi, usahihi dhidi ya ukumbusho, urekebishaji, uthabiti, na uaminifu. Mfano unaweza kuonekana bora kwenye seti safi ya majaribio, kisha kuanguka wakati usemi unabadilika, data inapotoka, au hatari zinapobadilika. Tathmini inayolenga uaminifu hutumia vipimo na matukio mengi, badala ya kuchukulia nambari moja kama uamuzi wa jumla.

Njia bora ya kupima usahihi wa akili bandia kwa kazi maalum

Anza kwa kufafanua kazi ili "sahihi" na "vibaya" viweze kujaribiwa, si visivyoeleweka. Tumia data ya majaribio yenye kelele inayowakilisha watumiaji halisi na kesi za ukingo. Chagua vipimo vinavyolingana na matokeo, hasa kwa maamuzi yasiyo na usawa au yenye hatari kubwa. Kisha ongeza vipimo vya msongo wa mawazo nje ya usambazaji na uendelee kutathmini upya baada ya muda kadri mazingira yako yanavyobadilika.

Jinsi usahihi na usahihi wa umbo la kukumbuka katika mazoezi

Ramani ya usahihi na urejeshaji wa data kwa gharama tofauti za hitilafu: usahihi unasisitiza kuepuka kengele za uongo, huku urejeshaji ukisisitiza kukamata kila kitu. Ukichuja barua taka, makosa machache yanaweza kukubalika, lakini matokeo chanya ya uongo yanaweza kuwakatisha tamaa watumiaji. Katika mipangilio mingine, kukosa visa adimu lakini muhimu ni muhimu zaidi ya alama za ziada. Usawa sahihi unategemea gharama "mbaya" katika mtiririko wako wa kazi.

Urekebishaji ni nini, na kwa nini ni muhimu kwa usahihi

Urekebishaji huangalia kama kujiamini kwa modeli kunalingana na uhalisia - inaposema "uhakika wa 90%," je, ni sahihi kwa takriban 90% ya wakati? Hii ni muhimu wakati wowote unapoweka vizingiti kama vile kuidhinisha kiotomatiki juu ya 0.9. Mifumo miwili inaweza kuwa na usahihi sawa, lakini ile iliyorekebishwa vizuri ni salama zaidi kwa sababu hupunguza majibu yasiyo sahihi yenye kujiamini kupita kiasi na inasaidia tabia ya kujizuia nadhifu.

Usahihi wa AI ya Kuzalisha, na kwa nini ndoto hutokea

AI ya kuzalisha inaweza kutoa maandishi fasaha na yanayokubalika hata wakati hayana msingi katika ukweli. Usahihi unakuwa mgumu kubaini kwa sababu vidokezo vingi huruhusu majibu mengi yanayokubalika, na mifumo inaweza kuboreshwa kwa ajili ya "usaidizi" badala ya usahihi mkali. Ndoto za kuota huwa hatari hasa matokeo yanapofika kwa ujasiri mkubwa. Kwa matumizi ya kweli, msingi katika hati zinazoaminika pamoja na hatua za uthibitishaji husaidia kupunguza maudhui yaliyotengenezwa.

Kujaribu mabadiliko ya usambazaji na pembejeo za nje ya usambazaji

Vigezo vya usambazaji vinaweza kuzidisha utendaji wakati ulimwengu unabadilika. Jaribu kwa kutumia misemo isiyo ya kawaida, makosa ya kuandika, ingizo tata, vipindi vipya vya wakati, na kategoria mpya ili kuona mahali ambapo mfumo unaanguka. Vigezo kama vile WILDS vimejengwa kuzunguka wazo hili: utendaji unaweza kushuka sana wakati data inabadilika. Chukua upimaji wa msongo wa mawazo kama sehemu kuu ya tathmini, sio kitu cha kufurahisha kuwa nacho.

Kufanya mfumo wa akili bandia kuwa sahihi zaidi baada ya muda

Boresha data na majaribio kwa kupanua mifano ya makali, kusawazisha hali adimu lakini muhimu, na kudumisha "seti ya dhahabu" inayoonyesha maumivu halisi ya mtumiaji. Kwa kazi za ukweli, ongeza msingi na uthibitishaji badala ya kutumaini modeli itafanya kazi. Endesha tathmini kwa kila mabadiliko yenye maana, angalia marejeo, na ufuatilie katika uzalishaji kwa ajili ya kuteleza. Pia tathmini kutofanya hivyo ili "sijui" isiadhibiwe kwa kubahatisha kwa kujiamini.

Marejeleo

[1] NIST AI RMF 1.0 (NIST AI 100-1): Mfumo wa vitendo wa kutambua, kutathmini, na kudhibiti hatari za AI katika mzunguko mzima wa maisha. soma zaidi
[2] Wasifu wa AI wa Kuzalisha wa NIST (NIST AI 600-1): Wasifu mwenza wa AI RMF unaozingatia masuala ya hatari maalum kwa mifumo ya AI ya kuzalisha. soma zaidi
[3] Guo et al. (2017) - Urekebishaji wa Mitandao ya Kisasa ya Neural: Karatasi ya msingi inayoonyesha jinsi nyavu za kisasa za neva zinavyoweza kubadilishwa vibaya, na jinsi urekebishaji unavyoweza kuboreshwa. soma zaidi
[4] Koh et al. (2021) - Kiwango cha WILDS: Seti ya vipimo iliyoundwa kujaribu utendaji wa modeli chini ya mabadiliko ya usambazaji wa ulimwengu halisi. soma zaidi
[5] Liang et al. (2023) - HELM (Tathmini Kamili ya Mifumo ya Lugha): Mfumo wa kutathmini mifumo ya lugha katika hali na vipimo ili kuibua mabadiliko halisi. soma zaidi

Pata Akili ya Kielektroniki ya Hivi Punde katika Duka Rasmi la Msaidizi wa Akili ya Kielektroniki

Kuhusu Sisi

Rudi kwenye blogu