ni nini maono ya kompyuta katika AI

Maono ya Kompyuta ni nini katika AI?

Iwapo umewahi kufungua simu yako kwa kutumia uso wako, kuchanganua risiti, au kutazama kamera ya kujilipia ukijiuliza ikiwa inahukumu parachichi lako, umefanya kinyume na mwonekano wa kompyuta. Kwa ufupi, Maono ya Kompyuta katika AI ni jinsi mashine hujifunza kuona na kuelewa picha na video vizuri vya kutosha kufanya maamuzi. Inafaa? Kabisa. Wakati mwingine inashangaza? Pia ndiyo. Na mara kwa mara ni ya kutisha kidogo ikiwa sisi ni waaminifu. Kwa ubora wake, hugeuza saizi zenye fujo kuwa vitendo vya vitendo. Katika hali mbaya zaidi, inakisia na kutetemeka. Wacha tuchimbe ipasavyo.

Makala unayoweza kupenda kusoma baada ya hii:

🔗 Upendeleo wa AI ni nini
Jinsi upendeleo hutokea katika mifumo ya AI na njia za kuugundua na kuupunguza.

🔗 AI ya ubashiri ni nini
Jinsi AI ya ubashiri hutumia data kutazamia mitindo na matokeo.

🔗 mkufunzi wa AI ni zipi
zinazotumiwa na wataalamu wanaofunza AI.

🔗 Je,
Muhtasari wa Google Vertex AI wa jukwaa la AI la Google kwa ajili ya kujenga na kusambaza miundo.


Maono ya Kompyuta ni nini katika AI, haswa? 📸

Maono ya Kompyuta katika AI ni tawi la akili bandia ambalo hufundisha kompyuta kutafsiri na kusababu kuhusu data inayoonekana. Ni bomba kutoka kwa pikseli mbichi hadi kwa maana iliyoundwa: "hii ni ishara ya kuacha," "hao ni watembea kwa miguu," "weld ina kasoro," "jumla ya ankara iko hapa." Inashughulikia kazi kama vile uainishaji, utambuzi, sehemu, ufuatiliaji, ukadiriaji wa kina, OCR, na zilizounganishwa zaidi na miundo ya kujifunza muundo. Sehemu rasmi inahusu jiometri ya kawaida hadi mafunzo ya kina ya kisasa, ukiwa na vitabu vya vitendo unavyoweza kunakili na kurekebisha. [1]

Hadithi ya haraka: fikiria mstari wa ufungaji na kamera ya 720p ya kawaida. Kigunduzi chepesi huweka vifuniko, na kifuatiliaji rahisi huthibitisha kuwa zimepangwa kwa fremu tano mfululizo kabla ya kuwasha chupa kwa kijani. Sio dhana-lakini bei nafuu, haraka, na inapunguza rework.


Ni nini hufanya Maono ya Kompyuta katika AI kuwa muhimu? ✅

  • Mtiririko wa mawimbi hadi hatua : Ingizo la kutazama linakuwa matokeo yanayoweza kutekelezeka. Dashibodi ndogo, uamuzi zaidi.

  • Ujumla : Kwa data sahihi, modeli moja hushughulikia aina mbalimbali za picha. Sio kikamilifu - wakati mwingine inashtua vizuri.

  • Kiwango cha data : Kamera ni nafuu na kila mahali. Maono hugeuza bahari hiyo ya saizi kuwa maarifa.

  • Kasi : Miundo inaweza kuchakata fremu kwa wakati halisi kwenye maunzi ya kawaida-au karibu na wakati halisi, kulingana na kazi na azimio.

  • Utunzi : Weka hatua rahisi katika mifumo inayotegemeka: ugunduzi → ufuatiliaji → udhibiti wa ubora.

  • Mfumo ikolojia : Zana, miundo iliyofunzwa awali, vigezo, na usaidizi wa jumuiya-baza moja inayosambaa ya msimbo.

Hebu tuwe waaminifu, mchuzi wa siri sio siri: data nzuri, tathmini ya nidhamu, kupelekwa kwa makini. Mengine ni mazoezi... na labda kahawa. ☕


Jinsi Maono ya Kompyuta katika AI hufanya kazi, katika bomba moja lenye akili timamu 🧪

  1. za kupata picha
    , vichanganuzi, ndege zisizo na rubani, simu. Chagua kwa uangalifu aina ya vitambuzi, mwangaza, lenzi na kasi ya fremu. Takataka ndani, nk.

  2. Inachakata Kabla
    Badilisha ukubwa, punguza, rekebisha, tia ukungu au punguza sauti ikihitajika. Wakati mwingine mabadiliko madogo ya utofautishaji husogeza milima. [4]

  3. Lebo na seti za data
    Sanduku zinazofunga, poligoni, vitu muhimu, vipindi vya maandishi. Sawazisha, lebo za uwakilishi-au kielelezo chako hujifunza tabia potofu.

  4. Kuiga

    • Uainishaji : "Kategoria gani?"

    • Ugunduzi : "Vitu viko wapi?"

    • Segmentation : "Pikseli zipi ni za kitu gani?"

    • Viini na mkao : "Viungo au alama muhimu ziko wapi?"

    • OCR : "Ni maandishi gani kwenye picha?"

    • Kina & 3D : "Kila kitu kiko umbali gani?"
      Usanifu hutofautiana, lakini nyavu za ubadilishaji na mifano ya mtindo wa kibadilishaji hutawala. [1]

  5. wa Mafunzo
    , rekebisha vigezo, rekebisha, ongeza. Kusimama mapema kabla ya kukariri mandhari.

  6. Tathmini
    Tumia vipimo vinavyofaa kazi kama vile mAP, IoU, F1, CER/WER kwa OCR. Usichague cherry. Linganisha kwa haki. [3]

  7. Usambazaji
    Boresha kwa lengo: kazi za kundi la wingu, makisio ya kifaa, seva za makali. Kufuatilia drift. Jifunze tena wakati ulimwengu unabadilika.

Nyavu za kina zilichochea mrukaji wa ubora mara tu hifadhidata kubwa na kukokotoa kugonga uzito muhimu. Vigezo kama vile changamoto ya ImageNet zilifanya maendeleo hayo kuonekana-na bila kuchoka. [2]


Kazi kuu utakazotumia (na lini) 🧩

  • Uainishaji wa picha : Lebo moja kwa kila picha. Tumia kwa vichujio vya haraka, triage, au milango ya ubora.

  • Utambuzi wa kitu : Sanduku karibu na vitu. Uzuiaji wa upotevu wa rejareja, utambuzi wa gari, hesabu za wanyamapori.

  • Mgawanyiko wa matukio : Silhouette zinazolingana na pikseli kwa kila kitu. Kasoro za utengenezaji, zana za upasuaji, agritech.

  • Sehemu za kisemantiki : Daraja kwa kila pikseli bila kutenganisha matukio. Matukio ya barabara za mijini, kifuniko cha ardhi.

  • Utambuzi wa mambo muhimu na mkao : Viungo, alama muhimu, vipengele vya uso. Uchambuzi wa michezo, ergonomics, AR.

  • Kufuatilia : Fuata vitu kwa wakati. Logistics, trafiki, usalama.

  • OCR & hati AI : Uchimbaji wa maandishi na uchanganuzi wa mpangilio. ankara, risiti, fomu.

  • Kina & 3D : Uundaji upya kutoka kwa mitazamo mingi au alama za monocular. Roboti, Uhalisia Pepe, uchoraji wa ramani.

  • Manukuu yanayoonekana : Fanya muhtasari wa matukio katika lugha asilia. Upatikanaji, utafutaji.

  • Miundo ya lugha ya maono : Mawazo ya hali nyingi, maono yaliyoongezwa urejeshaji, QA yenye msingi.

Vibe ya kesi ndogo: katika maduka, detector bendera kukosa rafu inakabiliwa; tracker inazuia kuhesabu mara mbili kama restock ya wafanyikazi; sheria rahisi huelekeza muafaka wa imani ya chini kwa ukaguzi wa kibinadamu. Ni okestra ndogo ambayo mara nyingi hukaa sawa.


Jedwali la kulinganisha: zana za kusafirisha haraka 🧰

Upole quirky kwa makusudi. Ndiyo, nafasi ni isiyo ya kawaida - najua.

Chombo / Mfumo Bora zaidi kwa Leseni/Bei Kwa nini inafanya kazi katika mazoezi
FunguaCV Inachakata mapema, CV ya kawaida, POC za haraka Bure - chanzo wazi Sanduku kubwa la zana, API thabiti, zilizojaribiwa kwa vita; wakati mwingine wote unahitaji. [4]
PyTorch Mafunzo ya kirafiki ya utafiti Bure Grafu zinazobadilika, mfumo mkubwa wa ikolojia, mafunzo mengi.
TensorFlow/Keras Uzalishaji kwa kiwango Bure Chaguo za huduma za watu wazima, nzuri kwa simu ya rununu na makali pia.
Ultralytics YOLO Utambuzi wa haraka wa kitu Viongezeo vya bure + vinavyolipishwa Kitanzi rahisi cha mafunzo, usahihi wa kasi ya ushindani, maoni lakini ya kufurahisha.
Detectron2 / MMDetection Misingi yenye nguvu, mgawanyiko Bure Miundo ya daraja la marejeleo yenye matokeo yanayoweza kuzaliana.
OpenVINO / ONNX Runtime Uboreshaji wa makisio Bure Finya muda wa kusubiri, sambaza kwa upana bila kuandika upya.
Tesseract OCR kwenye bajeti Bure Inafanya kazi kwa heshima ikiwa unasafisha picha… wakati mwingine unapaswa kufanya hivyo.

Ni nini huendesha ubora katika Maono ya Kompyuta katika AI 🔧

  • Chanjo ya data : Mabadiliko ya taa, pembe, asili, kesi za makali. Ikiwa inaweza kutokea, jumuisha.

  • Ubora wa lebo : Sanduku zisizolingana au hujuma ya poligoni hafifu huharibu ramani. QA kidogo huenda mbali.

  • Uongezaji wa Smart : Punguza, zungusha, mwangaza wa jitter, ongeza kelele ya syntetisk. Kuwa wa kweli, sio machafuko ya nasibu.

  • Uteuzi wa muundo unaofaa : Tumia utambuzi ambapo utambuzi unahitajika-usilazimishe kiainishaji kukisia maeneo.

  • Vipimo vinavyolingana na athari : Ikiwa hasi zisizo za kweli zitaumiza zaidi, boresha kumbukumbu. Ikiwa chanya za uwongo huumiza zaidi, usahihi kwanza.

  • Kitanzi cha maoni thabiti : Kushindwa kwa kumbukumbu, kuweka lebo upya, fanya mazoezi tena. Suuza, kurudia. Kidogo boring-wildly ufanisi.

Kwa ugunduzi/ugawaji, kiwango cha jumuiya ni Usahihi Wastani unaokadiriwa katika vizingiti vya IoU-aka COCO-style maAP . Kujua jinsi IoU na AP@{0.5:0.95} zinavyokokotolewa huzuia madai ya ubao wa wanaoongoza yasikuchangamshe kwa desimali. [3]


Matukio ya matumizi ya ulimwengu halisi ambayo si ya dhahania 🌍

  • Rejareja : Uchanganuzi wa rafu, kuzuia hasara, ufuatiliaji wa foleni, kufuata planogram.

  • Utengenezaji : Utambuzi wa kasoro ya uso, uthibitishaji wa mkusanyiko, mwongozo wa roboti.

  • Huduma ya afya : Utatuaji wa radiolojia, utambuzi wa chombo, mgawanyiko wa seli.

  • Uhamaji : ADAS, kamera za trafiki, umiliki wa maegesho, ufuatiliaji wa micromobility.

  • Kilimo : Kuhesabu mazao, kugundua magonjwa, utayari wa mavuno.

  • Bima na Fedha : Tathmini ya uharibifu, ukaguzi wa KYC, alama za ulaghai.

  • Ujenzi na Nishati : Kuzingatia usalama, kugundua uvujaji, ufuatiliaji wa kutu.

  • Maudhui na Ufikivu : Manukuu ya kiotomatiki, udhibiti, utafutaji wa kuona.

Muundo utagundua: badilisha utambazaji wa mtu mwenyewe na uchanganuzi kiotomatiki, kisha uenee hadi kwa wanadamu imani inapopungua. Sio ya kupendeza - lakini ina mizani.


Data, lebo na vipimo muhimu 📊

  • Uainishaji : Usahihi, F1 kwa usawa.

  • Ugunduzi : MAP kwenye vizingiti vya IoU; kagua kwa kila darasa AP na ndoo za ukubwa. [3]

  • Sehemu : mIoU, Kete; angalia makosa ya kiwango cha mfano pia.

  • Kufuatilia : MOTA, IDF1; ubora wa utambulisho ni shujaa aliye kimya.

  • OCR : Kiwango cha Hitilafu ya Wahusika (CER) na Kiwango cha Hitilafu ya Neno (WER); kushindwa kwa mpangilio mara nyingi hutawala.

  • Majukumu ya urekebishaji : Kina au mkao tumia makosa kabisa/jamaa (mara nyingi kwenye mizani ya kumbukumbu).

Andika itifaki yako ya tathmini ili wengine waweze kuiiga. Haipendezi-lakini inakufanya uendelee kuwa mwaminifu.


Jenga dhidi ya kununua-na wapi pa kuendeshwa 🏗️

  • Wingu : Rahisi zaidi kuanza, bora kwa mzigo wa kazi wa kundi. Tazama gharama za egress.

  • Vifaa vya makali : Muda wa chini wa kusubiri na faragha bora. Utajali kuhusu quantization, kupogoa, na kuongeza kasi.

  • Simu iliyo kwenye kifaa : Inashangaza inapofaa. Boresha miundo na betri ya saa.

  • Mseto : Kichujio cha awali kwenye ukingo, kuinua nzito kwenye wingu. Maelewano mazuri.

Mlundikano wa kuchosha sana: mfano na PyTorch, fundisha kigunduzi cha kawaida, hamisha hadi ONNX, ongeza kasi ukitumia OpenVINO/ONNX Runtime, na utumie OpenCV kwa kuchakata mapema na jiometri (kusawazisha, homografia, mofolojia). [4]


Hatari, maadili, na sehemu ngumu kuzungumzia ⚖️

Mifumo ya maono inaweza kurithi upendeleo wa seti ya data au sehemu zisizo wazi za kufanya kazi. Tathmini za kujitegemea (km, NIST FRVT) zimepima tofauti za idadi ya watu katika viwango vya makosa ya utambuzi wa nyuso katika kanuni na masharti. Hiyo sio sababu ya kuogopa, lakini ni sababu ya kujaribu kwa uangalifu, mapungufu ya hati, na kufuatilia kila wakati katika uzalishaji. Ukituma utambulisho- au kesi za matumizi zinazohusiana na usalama, jumuisha ukaguzi wa kibinadamu na mbinu za kukata rufaa. Faragha, idhini na uwazi sio ziada ya hiari. [5]


Ramani ya kuanza haraka unaweza kufuata 🗺️

  1. Bainisha uamuzi Je,
    mfumo unapaswa kuchukua hatua gani baada ya kuona picha? Hii hukuzuia kuboresha vipimo vya ubatili.

  2. Kusanya mkusanyiko wa data chakavu
    Anza na mamia ya picha zinazoakisi mazingira yako halisi. Weka lebo kwa uangalifu-hata kama ni wewe na madokezo matatu yanayonata.

  3. Chagua kielelezo cha msingi
    Chagua uti wa mgongo rahisi na uzani uliofundishwa mapema. Usifuate usanifu wa kigeni bado. [1]

  4. Treni, weka kumbukumbu, tathmini
    vipimo vya Ufuatiliaji, sehemu za mkanganyiko na hali za kushindwa. Weka daftari la "kesi za ajabu" -theluji, mwangaza, uakisi, fonti zisizo za kawaida.

  5. Kaza kitanzi
    Ongeza hasi kali, rekebisha mteremko wa lebo, rekebisha nyongeza, na rekebisha vizingiti. Marekebisho madogo yanaongeza. [3]

  6. Sambaza toleo jembamba
    Kadirisha na uhamishe. Pima muda wa kusubiri/kupitia katika mazingira halisi, si alama ya kuchezea.

  7. Fuatilia na rudia
    Kusanya mioto mibaya, weka lebo upya, fanya mazoezi upya. Ratibu tathmini za mara kwa mara ili kielelezo chako kisichobadilika.

Kidokezo cha kitaalamu: fafanua kipindi kidogo kilichowekwa na mwenzako mdharau sana. Ikiwa hawawezi kuchimba mashimo ndani yake, labda uko tayari.


Mambo ya kawaida ambayo ungependa kuepuka 🧨

  • Mafunzo juu ya picha safi za studio, zinazotumwa kwenye ulimwengu halisi na mvua kwenye lenzi.

  • Kuboresha ramani ya jumla wakati unajali sana darasa moja muhimu. [3]

  • Kupuuza usawa wa darasa na kisha kushangaa kwa nini matukio adimu hutoweka.

  • Inazidisha zaidi hadi mtindo ujifunze mabaki ya bandia.

  • Inaruka urekebishaji wa kamera na kisha kupambana na hitilafu za mtazamo milele. [4]

  • Kuamini nambari za ubao wa wanaoongoza bila kuiga usanidi halisi wa tathmini. [2][3]


Vyanzo vinavyostahili kualamishwa 🔗

Ikiwa unapenda nyenzo za msingi na vidokezo vya kozi, hizi ni dhahabu kwa misingi, mazoezi na vigezo. Tazama Marejeleo kwa viungo: madokezo ya CS231n, karatasi ya changamoto ya ImageNet, seti ya data/hati za tathmini ya COCO, hati za OpenCV, na ripoti za NIST FRVT. [1][2][3][4][5]


Maneno ya mwisho - au Marefu Sana, Hayakusoma 🍃

Maono ya Kompyuta katika AI hubadilisha saizi kuwa maamuzi. Inang'aa unapooanisha kazi inayofaa na data sahihi, kupima vitu vinavyofaa, na kurudia kwa nidhamu isiyo ya kawaida. Uwekaji zana ni wa ukarimu, vigezo viko hadharani, na njia kutoka kwa mfano hadi uzalishaji ni fupi sana ikiwa utazingatia uamuzi wa mwisho. Sawazisha lebo zako, chagua vipimo vinavyolingana na athari, na uruhusu miundo inyanyue vitu vizito. Na ikiwa sitiari husaidia-ifikirie kama kumfundisha mwanafunzi wa haraka sana lakini halisi ili kuona ni nini muhimu. Unaonyesha mifano, sahihisha makosa, na hatua kwa hatua uiamini kwa kazi halisi. Sio kamili, lakini karibu vya kutosha kuweza kubadilisha. 🌟


Marejeleo

  1. CS231n: Kujifunza kwa Kina kwa Maono ya Kompyuta (maelezo ya kozi) - Chuo Kikuu cha Stanford.
    soma zaidi

  2. ImageNet Changamoto Kubwa ya Utambuzi wa Visual (karatasi) - Russakovsky et al.
    soma zaidi

  3. Seti ya Data ya COCO na Tathmini - Tovuti rasmi (ufafanuzi wa kazi na kanuni za mAP/IoU).
    soma zaidi

  4. Hati za OpenCV (v4.x) - Moduli za usindikaji wa awali, urekebishaji, mofolojia, n.k.
    soma zaidi

  5. NIST FRVT Sehemu ya 3: Athari za Kidemografia (NISTIR 8280) - Tathmini huru ya usahihi wa utambuzi wa nyuso katika demografia.
    soma zaidi

Pata AI ya Hivi Punde kwenye Duka Rasmi la Msaidizi wa AI

Kuhusu Sisi

Rudi kwenye blogu