Ikiwa unaunda, kununua, au hata kutathmini tu mifumo ya AI, utaingia kwenye swali moja rahisi la udanganyifu & hifadhidata ya AI ni nini na kwa nini ni muhimu sana? Toleo fupi: ni mafuta, kitabu cha kupikia, na wakati mwingine dira ya modeli yako.
Makala unayoweza kupenda kusoma baada ya hii:
🔗 Jinsi AI inavyotabiri mienendo
Huchunguza jinsi AI huchambua ruwaza ili kutabiri matukio na tabia za siku zijazo.
🔗 Jinsi ya kupima utendaji wa AI
Vipimo na mbinu za kutathmini usahihi, ufanisi na uaminifu wa mfano.
🔗 Jinsi ya kuzungumza na AI
Mwongozo wa kuunda mwingiliano bora ili kuboresha majibu yanayotokana na AI.
🔗 AI inaongoza nini
Muhtasari wa jinsi vidokezo vinavyounda matokeo ya AI na ubora wa jumla wa mawasiliano.
Seti ya data ya AI ni nini? Ufafanuzi wa haraka 🧩
Seti ya data ya AI ni nini? Ni mkusanyiko wa mifano ambayo mtindo wako unajifunza kutoka au unatathminiwa. Kila mfano una:
-
Ingizo - vipengele ambavyo muundo huona, kama vile vijisehemu vya maandishi, picha, sauti, safu mlalo za jedwali, usomaji wa vitambuzi, grafu.
-
Malengo - lebo au matokeo ambayo mtindo unapaswa kutabiri, kama kategoria, nambari, upana wa maandishi, vitendo, au wakati mwingine kutofanya chochote kabisa.
-
Metadata - muktadha kama vile chanzo, mbinu ya ukusanyaji, mihuri ya muda, leseni, maelezo ya idhini na madokezo kuhusu ubora.
Ifikirie kama kisanduku cha chakula cha mchana kilichopakiwa kwa uangalifu kwa muundo wako: viungo, lebo, ukweli wa lishe, na ndio, noti inayonata inayosema "usile sehemu hii." 🍱
Kwa kazi zinazosimamiwa, utaona ingizo zikiwa zimeoanishwa na lebo chafu. Kwa kazi zisizosimamiwa, utaona ingizo bila lebo. Kwa mafunzo ya kuimarisha, data mara nyingi huonekana kama vipindi au matukio yenye hali, vitendo, zawadi. Kwa kazi ya multimodal, mifano inaweza kuchanganya maandishi + picha + sauti katika rekodi moja. Sauti ya dhana; zaidi ni mabomba.
Vitangulizi na mazoezi muhimu: Wazo la Lahajedwali za Seti za Data husaidia timu kueleza kilicho ndani na jinsi kinapaswa kutumiwa [1], na Kadi za Muundo hukamilisha uhifadhi wa data kwenye upande wa mfano [2].

Kinachofanya Seti Nzuri ya Hifadhidata ya AI ✅
Wacha tuwe waaminifu, mifano mingi hufaulu kwa sababu hifadhidata haikuwa mbaya. Seti ya data "nzuri" ni:
-
Mwakilishi wa kesi za matumizi halisi, sio tu hali ya maabara.
-
Imewekwa lebo kwa usahihi , yenye miongozo iliyo wazi na uamuzi wa mara kwa mara. Vipimo vya Makubaliano (km, hatua za mtindo wa kappa) husaidia uthabiti-kuangalia uthabiti.
-
Kamili na uwiano wa kutosha ili kuepuka kushindwa kimya kwenye mkia mrefu. Usawa ni kawaida; uzembe sio.
-
Wazi katika asili , kwa idhini, leseni, na vibali vilivyoandikwa. Makaratasi ya kuchosha yanazuia mashtaka ya kusisimua.
-
Imerekodiwa vyema kwa kutumia kadi za data au hifadhidata zinazoelezea matumizi yaliyokusudiwa, vikomo, na hali za kushindwa zinazojulikana [1]
-
Inatawaliwa na matoleo, mabadiliko, na idhini. Ikiwa huwezi kuzalisha tena hifadhidata, huwezi kuzalisha tena mfano. Mwongozo kutoka kwa Mfumo wa Usimamizi wa Hatari wa AI wa NIST huchukulia ubora wa data na uhifadhi kama maswala ya daraja la kwanza [3].
Aina za Seti za Data za AI, kulingana na kile unachofanya 🧰
Kwa kazi
-
Uainishaji - kwa mfano, barua taka dhidi ya si taka, kategoria za picha.
-
Kurudi nyuma - tabiri thamani inayoendelea kama bei au halijoto.
-
Uwekaji lebo wa mlolongo - vyombo vilivyotajwa, sehemu za hotuba.
-
Kizazi - muhtasari, tafsiri, maelezo ya picha.
-
Mapendekezo - mtumiaji, bidhaa, mwingiliano, muktadha.
-
Ugunduzi wa hitilafu - matukio adimu katika mfululizo wa saa au kumbukumbu.
-
Kujifunza kwa kuimarisha - hali, hatua, malipo, mlolongo wa hali inayofuata.
-
Urejeshaji - hati, maswali, hukumu za umuhimu.
Kwa mtindo
-
Jedwali - safu wima kama umri, mapato, churn. Imepunguzwa sana, yenye ufanisi kikatili.
-
Maandishi - hati, mazungumzo, nambari, machapisho ya jukwaa, maelezo ya bidhaa.
-
Picha - picha, scans za matibabu, tiles za satelaiti; na au bila vinyago, masanduku, vitu muhimu.
-
Sauti - fomu za wimbi, nakala, vitambulisho vya msemaji.
-
Video - muafaka, maelezo ya muda, lebo za vitendo.
-
Grafu - nodi, kingo, sifa.
-
Mfululizo wa wakati - sensorer, fedha, telemetry.
Kwa usimamizi
-
Imewekewa lebo (dhahabu, fedha, yenye lebo kiotomatiki), yenye lebo dhaifu , isiyo na lebo , ya syntetisk . Mchanganyiko wa keki ya duka inaweza kuwa ya heshima - ikiwa unasoma kisanduku.
Ndani ya kisanduku: muundo, migawanyiko, na metadata 📦
Seti thabiti ya data kawaida hujumuisha:
-
Schema - mashamba yaliyochapishwa, vitengo, maadili yanayoruhusiwa, utunzaji usiofaa.
-
Mgawanyiko - treni, uthibitisho, mtihani. Weka data ya jaribio ikiwa imefungwa-itende kama kipande cha mwisho cha chokoleti.
-
Mpango wa sampuli - jinsi ulivyochora mifano kutoka kwa idadi ya watu; epuka sampuli za urahisi kutoka eneo moja au kifaa.
-
Augmentations - flips, mazao, kelele, paraphrases, masks. Nzuri wakati mwaminifu; madhara wanapovumbua mifumo ambayo haitokei porini.
-
Inabadilisha - seti ya data v0.1, v0.2… ikiwa na kumbukumbu za mabadiliko zinazoelezea delta.
-
Leseni na idhini - haki za matumizi, ugawaji upya, na mtiririko wa kufuta. Vidhibiti vya kitaifa vya ulinzi wa data (kwa mfano, ICO ya Uingereza) hutoa orodha hakiki za uchakataji halali [4].
Mzunguko wa maisha wa seti ya data, hatua kwa hatua 🔁
-
Fafanua uamuzi - mtindo utaamua nini, na nini kinatokea ikiwa ni makosa.
-
Vipengele vya upeo na lebo - vinavyoweza kupimika, vinavyoonekana, vyema vya kukusanya.
-
Data ya chanzo - vyombo, kumbukumbu, tafiti, shirika la umma, washirika.
-
Idhini na kisheria - arifa za faragha, kuchagua kutoka, kupunguza data. Tazama mwongozo wa kidhibiti kwa "kwa nini" na "vipi" [4].
-
Kusanya na kuhifadhi - hifadhi salama, ufikiaji kulingana na jukumu, utunzaji wa PII.
-
Lebo - wachambuzi wa ndani, umati wa watu, wataalam; kudhibiti ubora kwa kazi za dhahabu, ukaguzi na vipimo vya makubaliano.
-
Safisha na urekebishe - dedupe, shughulikia ukosefu, sawazisha vitengo, rekebisha usimbaji. Boring, kazi ya kishujaa.
-
Kugawanyika na kuthibitisha - kuzuia kuvuja; kuweka matabaka pale inapobidi; pendelea mgawanyiko unaojua wakati kwa data ya muda; na utumie uthibitisho mtambuka kwa makadirio thabiti [5].
-
Hati - hifadhidata au kadi ya data; matumizi yaliyokusudiwa, tahadhari, vikwazo [1].
-
Fuatilia na usasishe - ugunduzi wa kuteleza, onyesha upya mwanguko, mipango ya machweo. NIST's AI RMF inaunda kitanzi hiki kinachoendelea cha utawala [3].
Kidokezo cha haraka, cha ulimwengu halisi: timu mara nyingi "hushinda onyesho" lakini hukwama katika uzalishaji kwa sababu mkusanyiko wao wa data hutoa laini mpya za bidhaa, sehemu iliyobadilishwa jina au sera iliyobadilishwa. Rahisi mabadiliko + pasi ya ufafanuzi wa mara kwa mara huepusha maumivu hayo mengi.
Ubora na tathmini ya data - si nyepesi jinsi inavyosikika 🧪
Ubora una pande nyingi:
-
Usahihi - lebo ni sawa? Tumia vipimo vya makubaliano na uamuzi wa mara kwa mara.
-
Ukamilifu - funika nyanja na madarasa unayohitaji kweli.
-
Uthabiti - epuka lebo zinazopingana kwa pembejeo sawa.
-
Muda muafaka - data stale fossilizes mawazo.
-
Haki & upendeleo - uenezi katika idadi ya watu, lugha, vifaa, mazingira; anza na ukaguzi wa maelezo, kisha vipimo vya mkazo. Mbinu za uwekaji hati kwanza (laha data, kadi za kielelezo) hufanya ukaguzi huu uonekane [1], na mifumo ya utawala inazisisitiza kama vidhibiti vya hatari [3].
Kwa tathmini ya muundo, tumia migawanyiko inayofaa na ufuatilie vipimo vya wastani na vipimo vya vikundi vibaya zaidi. Wastani wa kung'aa unaweza kuficha crater. Misingi ya uthibitishaji mtambuka imefunikwa vyema katika hati za kawaida za zana za ML [5].
Maadili, faragha, na utoaji leseni - kanuni za ulinzi 🛡️
Data ya kimaadili sio mtetemo, ni mchakato:
-
Kizuizi cha idhini na madhumuni - kuwa wazi kuhusu matumizi na misingi ya kisheria [4].
-
Ushughulikiaji wa PII - punguza, fanya utambulisho, au ficha kama inafaa; zingatia teknolojia ya kuimarisha faragha wakati hatari ziko juu.
-
Uwasilishaji na leseni - heshimu vizuizi vya ushiriki sawa na matumizi ya kibiashara.
-
Upendeleo na madhara - ukaguzi wa uunganisho wa uwongo ("mchana = salama" utachanganyikiwa sana usiku).
-
Rekebisha - kujua jinsi ya kuondoa data unapoomba na jinsi ya kurudisha mifano iliyofunzwa juu yake (andika hii katika hifadhidata yako) [1].
Ukubwa wa kutosha ni kiasi gani? Ukubwa na ishara-kwa-kelele 📏
Kanuni ya kidole gumba: mifano zaidi kwa kawaida husaidia ikiwa ni muhimu na si karibu-nakala. Lakini wakati mwingine ni bora kutumia chache, safi zaidi, zilizo na lebo bora kuliko na milima iliyochafuka.
Tazama kwa:
-
Mikondo ya kujifunza - utendakazi wa njama dhidi ya saizi ya sampuli ili kuona kama unatumia data au kufuata mfano.
-
Ufunikaji wa mkia mrefu - madarasa adimu lakini muhimu mara nyingi yanahitaji mkusanyiko unaolengwa, sio tu wingi zaidi.
-
Lebo ya kelele - kipimo, kisha kupunguza; kidogo huvumilika, wimbi la mawimbi halivumilii.
-
Kuhama kwa usambazaji - data ya mafunzo kutoka eneo moja au chaneli haiwezi kujumlisha hadi nyingine; thibitisha data ya jaribio kama lengwa [5].
Unapokuwa na shaka, endesha marubani wadogo na upanue. Ni kama kitoweo-ongeza, onja, rekebisha, rudia.
Mahali pa kupata na kudhibiti seti za data 🗂️
Nyenzo maarufu na zana (hakuna haja ya kukariri URL hivi sasa):
-
Hifadhidata za Uso wa Kukumbatiana - upakiaji wa programu, usindikaji, kushiriki.
-
Utafutaji wa Google Dataset - meta-search kwenye wavuti.
-
UCI ML Repository - Classics zilizoratibiwa kwa misingi na mafundisho.
-
OpenML - kazi + hifadhidata + inaendeshwa na asili.
-
Data Huria ya AWS / Seti za Data za Umma za Wingu la Google - shirika lililopangishwa na la kiwango kikubwa.
Kidokezo cha Pro: usipakue tu. Soma leseni na hifadhidata , kisha uandike nakala yako mwenyewe kwa nambari za toleo na asili [1].
Kuweka lebo na ufafanuzi - ambapo ukweli hujadiliwa ✍️
Ufafanuzi ndipo mwongozo wako wa lebo ya kinadharia hushindana na ukweli:
-
Ubunifu wa kazi - andika maagizo wazi na mifano na mifano ya kupingana.
-
Mafunzo ya wachambuzi - mbegu yenye majibu ya dhahabu, endesha mizunguko ya urekebishaji.
-
Udhibiti wa ubora - tumia vipimo vya makubaliano, mbinu za makubaliano, na ukaguzi wa mara kwa mara.
-
Vifaa - chagua zana zinazotekeleza uthibitishaji wa schema na foleni za kukagua; hata lahajedwali zinaweza kufanya kazi na sheria na hundi.
-
Mizunguko ya maoni - kunasa maelezo ya kichambuzi na makosa ya kielelezo ili kuboresha mwongozo.
Ikionekana kama kuhariri kamusi na marafiki watatu ambao hawakubaliani kuhusu koma… hiyo ni kawaida. 🙃
Uhifadhi wa data - kufanya ujuzi kamili kuwa wazi 📒
Hifadhidata nyepesi au kadi ya data inapaswa kufunika:
-
Nani aliikusanya, jinsi gani, na kwa nini.
-
Matumizi yaliyokusudiwa na matumizi ya nje ya upeo.
-
Mapengo yanayojulikana, upendeleo, na njia za kushindwa.
-
Itifaki ya kuweka lebo, hatua za QA, na takwimu za makubaliano.
-
Leseni, idhini, mawasiliano kwa masuala, mchakato wa kuondolewa.
Violezo na mifano: Laha za Data za Seti za Data na Kadi za Muundo hutumika sana sehemu za kuanzia [1].
Iandike unapojenga, sio baada. Kumbukumbu ni njia dhaifu ya kuhifadhi.
Jedwali la Kulinganisha - mahali pa kupata au kupangisha seti za data za AI 📊
Ndio, hii ni maoni kidogo. Na maneno hayafanani kidogo kwa makusudi. Ni sawa.
| Chombo / Repo | Hadhira | Bei | Kwa nini inafanya kazi katika mazoezi |
|---|---|---|---|
| Seti za Data za Uso wa Kukumbatiana | Watafiti, wahandisi | Kiwango cha bure | Upakiaji wa haraka, utiririshaji, hati za jamii; hati bora; seti za data zilizotolewa |
| Utafutaji wa Hifadhidata ya Google | Kila mtu | Bure | Eneo la uso pana; kubwa kwa ugunduzi; wakati mwingine metadata haiendani tho |
| Hazina ya UCI ML | Wanafunzi, waelimishaji | Bure | Classics zilizoratibiwa; ndogo lakini nadhifu; nzuri kwa misingi na mafundisho |
| OpenML | Watafiti wa repro | Bure | Kazi + seti za data + huendesha pamoja; njia nzuri za asili |
| AWS Fungua Usajili wa Data | Wahandisi wa data | Zaidi ya bure | Kukaribisha kwa kiwango cha Petabyte; ufikiaji wa asili wa wingu; kuangalia gharama za egress |
| Kaggle Datasets | Watendaji | Bure | Kushiriki kwa urahisi, maandishi, mashindano; ishara za jumuiya husaidia kuchuja kelele |
| Seti za Data za Umma za Wingu la Google | Wachambuzi, timu | Bure + wingu | Inapangishwa karibu na compute; ushirikiano wa BigQuery; makini na bili |
| Milango ya kitaaluma, maabara | Wataalam wa Niche | Inatofautiana | Maalumu sana; wakati mwingine chini ya kumbukumbu-bado thamani ya kuwinda |
(Ikiwa seli inaonekana kuwa na gumzo, hiyo ni makusudi.)
Kuunda yako ya kwanza - vifaa vya kuanza vya vitendo 🛠️
Unataka kuhama kutoka "seti ya data ya AI ni nini" hadi "Nilitengeneza, inafanya kazi." Jaribu njia hii ndogo:
-
Andika uamuzi na kipimo - kwa mfano, punguza makosa ya usaidizi unaoingia kwa kutabiri timu sahihi. Kipimo: macro-F1.
-
Orodhesha mifano 5 chanya na 5 hasi - sampuli za tikiti halisi; usitengeneze.
-
Rasimu ya mwongozo wa lebo - ukurasa mmoja; sheria wazi za ujumuishaji/kutengwa.
-
Kusanya sampuli ndogo, halisi - tiketi mia chache katika kategoria; ondoa PII hauitaji.
-
Gawanya na ukaguzi wa kuvuja - weka ujumbe wote kutoka kwa mteja sawa katika mgawanyiko mmoja; tumia uthibitisho mtambuka kukadiria tofauti [5].
-
Annotate na QA - wachambuzi wawili kwenye kitengo kidogo; kutatua kutokubaliana; sasisha mwongozo.
-
Funza msingi rahisi - vifaa kwanza (kwa mfano, mifano ya mstari au transfoma ya kompakt). Jambo ni kujaribu data, sio kushinda medali.
-
Kagua makosa - inashindwa wapi na kwa nini; sasisha seti ya data, sio mfano tu.
-
Hati - hifadhidata ndogo: chanzo, kiungo cha mwongozo wa lebo, migawanyiko, mipaka inayojulikana, leseni [1].
-
Panga upya upya - kategoria mpya, misimu mpya, vikoa vipya hufika; panga sasisho ndogo, za mara kwa mara [3].
Utajifunza zaidi kutoka kwa kitanzi hiki kuliko kutoka kwa matukio elfu moja ya joto. Pia, weka chelezo. Tafadhali.
Mitego ya kawaida ambayo huzikumba timu 🪤
-
Uvujaji wa data - jibu huingizwa kwenye vipengele (kwa mfano, kutumia sehemu za utatuzi wa baada ya kutabiri matokeo). Anahisi kama kudanganya kwa sababu ni.
-
Utofauti wa kina - jiografia moja au kifaa hujifanya kuwa cha kimataifa. Majaribio yatafunua muundo wa njama.
-
Lebo drift - vigezo hubadilika baada ya muda lakini mwongozo wa lebo haubadiliki. Andika na utoe toleo lako la ontolojia.
-
Malengo ambayo hayajabainishwa - ikiwa huwezi kufafanua utabiri mbaya, data yako pia haitafanya hivyo.
-
Leseni mbaya - kufuta sasa, kuomba msamaha baadaye, sio mkakati.
-
Kuongeza zaidi - data ya syntetisk ambayo inafundisha vizalia vya uhalisia, kama vile kumfundisha mpishi juu ya matunda ya plastiki.
Maswali Yanayoulizwa Mara kwa Mara kuhusu kifungu chenyewe ❓
-
"Seti ya data ya AI ni nini?" jambo la ufafanuzi tu? Mara nyingi, lakini pia ni ishara kwamba unajali bits za boring ambazo hufanya mifano ya kuaminika.
-
Je, ninahitaji lebo kila wakati? Hapana. Kutosimamiwa, kujisimamia, na usanidi wa RL mara nyingi huruka lebo chafu, lakini uratibu bado ni muhimu.
-
Je, ninaweza kutumia data ya umma kwa lolote? Hapana. Heshimu leseni, sheria na masharti ya jukwaa na wajibu wa faragha [4].
-
Kubwa au bora? Wote, walau. Ikiwa ni lazima uchague, chagua bora zaidi kwanza.
Hotuba za Mwisho - Unachoweza kupiga skrini 📌
Ikiwa mtu atakuuliza ni nini hifadhidata ya AI , sema: ni mkusanyiko ulioratibiwa, uliorekodiwa wa mifano ambayo hufundisha na kujaribu kielelezo, kilichofungwa katika utawala ili watu waweze kuamini matokeo. Seti bora za data ni wakilishi, zilizo na lebo vizuri, safi kisheria, na zinadumishwa kila mara. Zilizosalia ni maelezo-maelezo muhimu-kuhusu muundo, migawanyiko, na zile linda ndogo zote zinazozuia wanamitindo kurandaranda kwenye trafiki. Wakati mwingine mchakato unahisi kama bustani na lahajedwali; wakati mwingine kama saizi za ufugaji. Vyovyote iwavyo, wekeza kwenye data, na miundo yako itafanya mambo ya ajabu sana. 🌱🤖
Marejeleo
[1] Laha za Data za Seti za Data - Gebru et al., arXiv. Kiungo
[2] Kadi za Mfano za Kuripoti Mfano - Mitchell et al., arXiv. Kiungo
[3] Mfumo wa Usimamizi wa Hatari wa Upelelezi wa NIST (AI RMF 1.0) . Kiungo
[4] Miongozo na nyenzo za GDPR ya Uingereza - Ofisi ya Kamishna wa Habari (ICO). Kiungo
[5] Uthibitishaji mtambuka: kutathmini utendakazi wa mkadiriaji - scikit-learn Mwongozo wa Mtumiaji. Kiungo