Je, AI ni Sahihi Kiasi Gani?

Je, AI ni Sahihi Kiasi Gani?

"Usahihi" hutegemea aina ya AI unayomaanisha, unachoiomba ifanye, data inayoona, na jinsi unavyopima mafanikio

Hapa chini kuna uchanganuzi wa vitendo wa usahihi wa AI - aina unayoweza kutumia kuhukumu zana, wachuuzi, au mfumo wako mwenyewe.

Makala unayoweza kupenda kusoma baada ya hii:

🔗 Jinsi ya kujifunza AI hatua kwa hatua
Ramani ya barabara inayofaa kwa wanaoanza kuanza kujifunza AI kwa ujasiri.

🔗 Jinsi AI inavyogundua kasoro katika data
Huelezea njia ambazo AI hutumia kutambua mifumo isiyo ya kawaida kiotomatiki.

🔗 Kwa nini akili bandia (AI) inaweza kuwa mbaya kwa jamii
Hushughulikia hatari kama vile upendeleo, athari za kazi, na masuala ya faragha.

🔗 Seti ya data ya AI ni nini na kwa nini ni muhimu
Hufafanua seti za data na jinsi zinavyofunza na kutathmini mifumo ya AI.


1) Kwa hivyo… AI ni sahihi kiasi gani? 🧠✅

AI inaweza kuwa sana katika kazi finyu na zilizofafanuliwa vizuri - hasa wakati "jibu sahihi" halina utata na ni rahisi kupata alama.

Lakini katika kazi zisizo na kikomo (hasa AI ya uzalishaji kama vile vibodi vya gumzo), "usahihi" huteleza haraka kwa sababu:

  • kunaweza kuwa na majibu mengi yanayokubalika

  • matokeo yanaweza kuwa fasaha lakini hayana msingi katika ukweli

  • modeli inaweza kurekebishwa kwa ajili ya hisia za "usaidizi", si usahihi mkali

  • dunia inabadilika, na mifumo inaweza kubaki nyuma ya ukweli

Mfano mzuri wa kiakili: usahihi si sifa "uliyo nayo." Ni sifa "unayopata" kwa kazi maalum, katika mazingira maalum, yenye mpangilio maalum wa kipimo . Ndiyo maana mwongozo mzito huchukulia tathmini kama shughuli ya mzunguko wa maisha - si wakati wa ubao wa alama wa mara moja. [1]

 

Usahihi wa AI

2) Usahihi si jambo moja - ni familia nzima ya watu wasio na msimamo 👨👩👧👦📏

Watu wanaposema "usahihi," wanaweza kumaanisha yoyote kati ya haya (na mara nyingi humaanisha mawili kwa wakati mmoja bila kutambua):

  • Usahihi : je, ilitoa lebo/jibu sahihi?

  • Usahihi dhidi ya ukumbusho : je, iliepuka kengele za uwongo, au iligusa kila kitu?

  • Urekebishaji : inaposema “Nina uhakika wa 90%,” je, ni sahihi ~90% ya wakati? [3]

  • Uimara : bado inafanya kazi wakati ingizo zinabadilika kidogo (kelele, uundaji mpya wa maneno, vyanzo vipya, idadi mpya ya watu)?

  • Kuaminika : je, hufanya kazi kwa uthabiti chini ya hali zinazotarajiwa?

  • Ukweli / ukweli (AI ya kuzalisha): je, ni kutunga mambo (kuota ndoto) kwa sauti ya kujiamini? [2]

Hii pia ndiyo sababu mifumo inayozingatia uaminifu haichukulii "usahihi" kama kipimo cha shujaa pekee. Inazungumzia uhalali, uaminifu, usalama, uwazi, uthabiti, haki, na zaidi kama kifurushi - kwa sababu unaweza "kuboresha" moja na kuvunja nyingine kwa bahati mbaya. [1]


3) Ni nini kinachofanya toleo zuri la kupima "Usanii bandia ni Sahihi Kiasi Gani?" 🧪🔍

Hapa kuna orodha ya "toleo zuri" (ambayo watu huiruka… kisha hujuta baadaye):

✅ Futa ufafanuzi wa kazi (pia inajulikana kama: fanya iweze kujaribiwa)

  • "Fupisha" si dhahiri.

  • "Fupisha katika vitone 5, jumuisha nambari 3 halisi kutoka chanzo, na usivumbue nukuu" inaweza kujaribiwa.

✅ Data wakilishi ya majaribio (yaani: acha kuweka alama kwenye hali rahisi)

Ikiwa seti yako ya majaribio ni safi sana, usahihi utaonekana kuwa mzuri. Watumiaji halisi huleta makosa ya kuandika, kesi za ajabu za ukingo, na nishati ya "Niliandika haya kwenye simu yangu saa 8 asubuhi".

✅ Kipimo kinacholingana na hatari

Kuainisha vibaya meme si sawa na kuainisha vibaya onyo la kimatibabu. Huchagui vipimo kulingana na mila - unavichagua kulingana na matokeo. [1]

✅ Upimaji wa nje ya usambazaji (pia inajulikana kama: "nini hutokea wakati ukweli unaonekana?")

Jaribu usemi wa ajabu, ingizo tata, vidokezo vya uhasama, kategoria mpya, vipindi vipya vya wakati. Hii ni muhimu kwa sababu mabadiliko ya usambazaji ni njia ya kawaida ambayo mifano hukabiliana nayo katika uzalishaji. [4]

✅ Tathmini inayoendelea (pia inajulikana kama: usahihi si kipengele cha "kuweka na kusahau")

Mifumo hubadilika. Watumiaji hubadilika. Data hubadilika. Mfano wako "mzuri" huharibika kimya kimya - isipokuwa unaupima mfululizo. [1]

Muundo mdogo wa ulimwengu halisi utakaoutambua: timu mara nyingi husafirishwa kwa "usahihi mkubwa wa onyesho," kisha hugundua hali yao halisi ya kushindwa si "majibu yasiyo sahihi" ... ni "majibu yasiyo sahihi yanayotolewa kwa ujasiri, kwa kiwango kikubwa." Hilo ni tatizo la muundo wa tathmini, si tatizo la mfumo tu.


4) Ambapo AI kwa kawaida huwa sahihi sana (na kwa nini) 📈🛠️

AI huwa inang'aa wakati tatizo ni:

  • nyembamba

  • yenye lebo nzuri

  • imara baada ya muda

  • sawa na usambazaji wa mafunzo

  • rahisi kupata alama kiotomatiki

Mifano:

  • Uchujaji wa barua taka

  • Utoaji wa hati katika mpangilio thabiti

  • Mizunguko ya cheo/mapendekezo yenye ishara nyingi za maoni

  • Kazi nyingi za uainishaji wa maono katika mipangilio iliyodhibitiwa

Nguvu kubwa inayochosha nyuma ya ushindi mwingi kati ya hizi: ukweli ulio wazi + mifano mingi muhimu . Sio ya kupendeza - yenye ufanisi mkubwa.


5) Ambapo usahihi wa AI mara nyingi huharibika 😬🧯

Hii ndiyo sehemu ambayo watu huhisi katika mifupa yao.

Kuona ndoto katika akili bandia inayozalisha 🗣️🌪️

LLM zinaweza kutoa yanayowezekana lakini yasiyo ya kweli - na sehemu ya "inayowezekana" ndiyo hasa kwa nini ni hatari. Hiyo ndiyo sababu moja ya mwongozo wa hatari wa AI unaozalisha unaweka uzito mkubwa kwenye msingi, nyaraka, na vipimo badala ya maonyesho yanayotegemea mitetemo. [2]

Zamu ya usambazaji 🧳➡️🏠

Mfano uliofunzwa katika mazingira moja unaweza kuanguka katika mwingine: lugha tofauti ya mtumiaji, orodha tofauti ya bidhaa, kanuni tofauti za kikanda, vipindi tofauti vya muda. Vigezo kama vile WILDS vipo kimsingi ili kupiga kelele: "utendaji wa usambazaji unaweza kuzidisha sana utendaji wa ulimwengu halisi." [4]

Motisha zinazolipa kubahatisha kwa ujasiri 🏆🤥

Baadhi ya mipangilio hulipa kwa bahati mbaya tabia ya "jibu kila wakati" badala ya "jibu tu wakati unajua." Kwa hivyo mifumo hujifunza kusikika sawa badala ya kuwa sahihi. Hii ndiyo sababu tathmini lazima ijumuishe tabia ya kujizuia / kutokuwa na uhakika - sio kiwango cha majibu ghafi tu. [2]

Matukio ya ulimwengu halisi na hitilafu za uendeshaji 🚨

Hata mfumo imara unaweza kushindwa kama mfumo: urejeshaji mbaya, data iliyopitwa na wakati, reli zilizovunjika, au mtiririko wa kazi unaoelekeza mfumo kimya kimya karibu na ukaguzi wa usalama. Mwongozo wa kisasa huweka usahihi kama sehemu ya uaminifu wa mfumo , si alama ya mfumo tu. [1]


6) Nguvu isiyo na hadhi ya juu: urekebishaji (pia inajulikana kama "kujua usichokijua") 🎚️🧠

Hata wakati mifumo miwili ina "usahihi" sawa, moja inaweza kuwa salama zaidi kwa sababu:

  • huonyesha kutokuwa na uhakika ipasavyo

  • huepuka kujiamini kupita kiasi kwa majibu yasiyo sahihi

  • hutoa uwezekano unaoendana na ukweli

Urekebishaji si wa kitaaluma tu - ndio unaofanya kujiamini kuwezekane . Ugunduzi wa kawaida katika mitandao ya kisasa ya neva ni kwamba alama ya kujiamini inaweza kupotoshwa na usahihi wa kweli isipokuwa uirekebishe au kuipima waziwazi. [3]

Ikiwa bomba lako linatumia vizingiti kama "idhini ya kiotomatiki juu ya 0.9," urekebishaji ni tofauti kati ya "otomatiki" na "machafuko otomatiki."


7) Jinsi usahihi wa AI unavyotathminiwa kwa aina tofauti za AI 🧩📚

Kwa mifumo ya utabiri wa kawaida (uainishaji/urejeshaji) 📊

Vipimo vya kawaida:

  • Usahihi, usahihi, urejeshaji, F1

  • ROC-AUC / PR-AUC (mara nyingi ni bora kwa matatizo yasiyo na usawa)

  • Ukaguzi wa urekebishaji (mikondo ya uaminifu, mawazo ya makosa ya urekebishaji yanayotarajiwa) [3]

Kwa mifano ya lugha na wasaidizi 💬

Tathmini inapata pande nyingi:

  • usahihi (ambapo kazi ina sharti la ukweli)

  • kufuata maagizo

  • tabia ya usalama na kukataa (kukataa vizuri ni vigumu sana)

  • msingi wa ukweli / nidhamu ya nukuu (wakati matumizi yako yanapohitaji)

  • uthabiti katika vidokezo na mitindo ya watumiaji

Mojawapo ya michango mikubwa ya mawazo ya tathmini ya "jumla" ni kuweka hoja wazi: unahitaji vipimo vingi katika hali nyingi, kwa sababu maelewano ni halisi. [5]

Kwa mifumo iliyojengwa kwenye LLM (mtiririko wa kazi, mawakala, urejeshaji) 🧰

Sasa unatathmini bomba zima:

  • ubora wa urejeshaji (je, ilipata taarifa sahihi?)

  • mantiki ya zana (je, ilifuata mchakato?)

  • ubora wa matokeo (je, ni sahihi na muhimu?)

  • ulinzi (je, iliepuka tabia hatarishi?)

  • ufuatiliaji (je, ulibaini kushindwa porini?) [1]

Kiungo dhaifu popote kinaweza kufanya mfumo mzima uonekane "si sahihi," hata kama mfumo wa msingi ni mzuri.


8) Jedwali la Ulinganisho: njia za vitendo za kutathmini "Usanifu wa AI ni Sahihi Kiasi Gani?" 🧾⚖️

Zana / mbinu Bora zaidi kwa Vibe ya gharama Kwa nini inafanya kazi
Vipimo vya matumizi Programu za LLM + vigezo maalum vya mafanikio Bure-ish Unapima wako wa kazi, si ubao wa wanaoongoza bila mpangilio.
Ufikiaji wa vipimo vingi, hali Kulinganisha mifano kwa uwajibikaji Bure-ish Unapata "wasifu" wa uwezo, sio nambari moja ya uchawi. [5]
Mtazamo wa hatari ya mzunguko wa maisha + tathmini Mifumo yenye viwango vya juu inayohitaji ukali Bure-ish Hukusukuma kufafanua, kupima, kusimamia, na kufuatilia mfululizo. [1]
Ukaguzi wa urekebishaji Mfumo wowote unaotumia vizingiti vya kujiamini Bure-ish Huthibitisha kama "uhakika wa 90%" unamaanisha chochote. [3]
Paneli za mapitio ya kibinadamu Usalama, sauti, uelewa, "je, hii inahisi kuwa na madhara?" $$ Wanadamu hugundua muktadha na kuathiri vibaya vipimo otomatiki ambavyo havipo.
Ufuatiliaji wa matukio + mizunguko ya maoni Kujifunza kutokana na kushindwa katika ulimwengu halisi Bure-ish Ukweli una risiti - na data ya uzalishaji inakufundisha haraka kuliko maoni. [1]

Kuunda ukiri wa ajabu: "Free-ish" inafanya kazi nyingi hapa kwa sababu gharama halisi mara nyingi ni saa za kazi za watu, si leseni 😅


9) Jinsi ya kufanya AI kuwa sahihi zaidi (vifaa vya vitendo) 🔧✨

Data bora na majaribio bora 📦🧪

  • Panua visanduku vya pembeni

  • Sawazisha hali adimu lakini muhimu

  • Weka "seti ya dhahabu" inayowakilisha maumivu halisi ya mtumiaji (na endelea kuisasisha)

Msingi wa kazi za kweli 📚🔍

Ikiwa unahitaji uaminifu wa ukweli, tumia mifumo inayotoa kutoka kwa hati zinazoaminika na majibu kulingana na hizo. Mwongozo mwingi wa hatari wa AI unaozalisha unazingatia nyaraka, asili, na mipangilio ya tathmini ambayo hupunguza maudhui yaliyotengenezwa badala ya kutumaini tu kwamba mfumo "utafanya kazi." [2]

Mizunguko imara zaidi ya tathmini 🔁

  • Fanya mabadiliko katika kila mabadiliko yenye maana

  • Jihadhari na marejesho

  • Jaribio la msongo wa mawazo kwa vidokezo vya ajabu na ingizo hasidi

Himiza tabia iliyorekebishwa 🙏

  • Usiadhibu kwa nguvu sana kwa kusema "Sijui"

  • Tathmini ubora wa kutojibu, si kiwango cha majibu pekee

  • Chukulia kujiamini kama kitu unachopima na kuthibitisha , si kitu unachokubali kwenye hisia [3]


10) Ukaguzi wa haraka wa utumbo: ni lini unapaswa kuamini usahihi wa AI? 🧭🤔

Iamini zaidi wakati:

  • kazi ni nyembamba na inaweza kurudiwa

  • matokeo yanaweza kuthibitishwa kiotomatiki

  • mfumo unafuatiliwa na kusasishwa

  • kujiamini kunapimwa, na kunaweza kujizuia [3]

Iamini kidogo wakati:

  • Vikwazo ni vikubwa na matokeo yake ni halisi

  • Ombi hilo ni wazi ("niambie kila kitu kuhusu ...") 😵💫

  • Hakuna msingi, hakuna hatua ya uthibitishaji, hakuna ukaguzi wa kibinadamu

  • mfumo hufanya kazi kwa kujiamini kwa chaguo-msingi [2]

Mfano wenye kasoro kidogo: kutegemea AI isiyothibitishwa kwa maamuzi magumu ni kama kula sushi ambayo imekuwa ikikaa juani… inaweza kuwa sawa, lakini tumbo lako linacheza kamari ambayo hukujisajili.


11) Maelezo ya Kufunga na Muhtasari wa Haraka 🧃✅

Kwa hivyo, AI ni Sahihi Kiasi Gani?
AI inaweza kuwa sahihi sana - lakini tu kuhusiana na kazi iliyoainishwa, mbinu ya kipimo, na mazingira ambayo imetumika . Na kwa AI ya kuzalisha, "usahihi" mara nyingi hauhusu alama moja bali zaidi kuhusu muundo wa mfumo unaoaminika : msingi, urekebishaji, ufunikaji, ufuatiliaji, na tathmini ya uaminifu. [1][2][5]

Muhtasari wa Haraka 🎯

  • "Usahihi" si alama moja - ni usahihi, urekebishaji, uthabiti, uaminifu, na (kwa ajili ya AI ya kuzalisha) ukweli. [1][2][3]

  • Vigezo husaidia, lakini tathmini ya matumizi inakufanya uwe mwaminifu. [5]

  • Ikiwa unahitaji uaminifu wa ukweli, ongeza msingi + hatua za uthibitishaji + tathmini kujiepusha. [2]

  • Tathmini ya mzunguko wa maisha ni mbinu ya mtu mzima… hata kama si ya kusisimua sana kuliko picha ya skrini ya ubao wa wanaoongoza. [1]


Marejeleo

[1] NIST AI RMF 1.0 (NIST AI 100-1): Mfumo wa vitendo wa kutambua, kutathmini, na kudhibiti hatari za AI katika mzunguko mzima wa maisha. soma zaidi
[2] Wasifu wa AI wa Kuzalisha wa NIST (NIST AI 600-1): Wasifu mwenza wa AI RMF unaozingatia masuala ya hatari maalum kwa mifumo ya AI ya kuzalisha. soma zaidi
[3] Guo et al. (2017) - Urekebishaji wa Mitandao ya Kisasa ya Neural: Karatasi ya msingi inayoonyesha jinsi nyavu za kisasa za neva zinavyoweza kubadilishwa vibaya, na jinsi urekebishaji unavyoweza kuboreshwa. soma zaidi
[4] Koh et al. (2021) - Kiwango cha WILDS: Seti ya vipimo iliyoundwa kujaribu utendaji wa modeli chini ya mabadiliko ya usambazaji wa ulimwengu halisi. soma zaidi
[5] Liang et al. (2023) - HELM (Tathmini Kamili ya Mifumo ya Lugha): Mfumo wa kutathmini mifumo ya lugha katika hali na vipimo ili kuibua mabadiliko halisi. soma zaidi

Pata AI ya Hivi Punde kwenye Duka Rasmi la Msaidizi wa AI

Kuhusu Sisi

Rudi kwenye blogu