Kama umewahi kufungua simu yako kwa uso wako, kuchanganua risiti, au kutazama kamera ya kujilipia ukijiuliza kama inahukumu parachichi yako, umepingana na maono ya kompyuta. Kwa ufupi, Maono ya Kompyuta katika AI ni jinsi mashine zinavyojifunza kuona na kuelewa picha na video vizuri vya kutosha kufanya maamuzi. Muhimu? Hakika. Wakati mwingine inashangaza? Pia ndiyo. Na wakati mwingine ni jambo la kutisha kidogo ikiwa tuko waaminifu. Katika ubora wake, hubadilisha pikseli chafu kuwa vitendo vya vitendo. Katika ubaya wake, hukisia na kuyumba. Hebu tuchunguze kwa makini.
Makala ambazo unaweza kupenda kusoma baada ya hii:
🔗 Upendeleo wa AI ni nini?
Jinsi upendeleo unavyojitokeza katika mifumo ya AI na njia za kuugundua na kuupunguza.
🔗 AI ya utabiri ni nini?
Jinsi AI ya utabiri inavyotumia data kutabiri mitindo na matokeo.
🔗 Mkufunzi wa AI ni nini?
Majukumu, ujuzi, na zana zinazotumiwa na wataalamu wanaofundisha AI.
🔗
Muhtasari wa AI ya Google Vertex ya jukwaa la Google la umoja la AI la kujenga na kusambaza mifumo ni nini
Maono ya Kompyuta katika akili bandia (AI) ni nini hasa? 📸
Maono ya Kompyuta katika AI ni tawi la akili bandia linalofundisha kompyuta kutafsiri na kusababu kuhusu data inayoonekana. Ni mtiririko kutoka pikseli mbichi hadi maana iliyopangwa: "hii ni ishara ya kusimama," "hao ni watembea kwa miguu," "kulehemu kuna kasoro," "jumla ya ankara iko hapa." Inashughulikia kazi kama vile uainishaji, ugunduzi, mgawanyiko, ufuatiliaji, makadirio ya kina, OCR, na zaidi-zilizoshonwa pamoja na mifumo ya kujifunza muundo. Sehemu rasmi inahusisha jiometri ya kawaida hadi ujifunzaji wa kina wa kisasa, ukiwa na vitabu vya michezo vya vitendo unavyoweza kunakili na kurekebisha. [1]
Hadithi ya haraka: fikiria mstari wa vifungashio vyenye kamera ya kawaida ya 720p. Kigunduzi chepesi huweka vifuniko, na kifuatiliaji rahisi huthibitisha kuwa vimepangwa kwa fremu tano mfululizo kabla ya kuwasha chupa kwa kijani kibichi. Sio ya kifahari - lakini ya bei rahisi, ya haraka, na hupunguza urekebishaji.
Ni nini hufanya Maono ya Kompyuta katika AI kuwa muhimu? ✅
-
Mtiririko wa ishara hadi kitendo : Ingizo la kuona linakuwa matokeo yanayoweza kutekelezwa. Dashibodi kidogo, uamuzi zaidi.
-
Ujumla : Kwa data sahihi, modeli moja hushughulikia aina mbalimbali za picha. Sio kikamilifu - wakati mwingine inashangaza.
-
Kivutio cha data : Kamera ni za bei nafuu na kila mahali. Maono hubadilisha bahari hiyo ya pikseli kuwa maarifa.
-
Kasi : Mifumo inaweza kuchakata fremu kwa wakati halisi kwenye vifaa vya kawaida au karibu wakati halisi, kulingana na kazi na azimio.
-
Utangamano : Unganisha hatua rahisi katika mifumo inayoaminika: kugundua → kufuatilia → udhibiti wa ubora.
-
Mfumo ikolojia : Zana, mifumo iliyoandaliwa tayari, vigezo, na usaidizi wa jamii - soko kubwa la msimbo.
Tuwe wakweli, mchuzi wa siri si siri: data nzuri, tathmini yenye nidhamu, uwekaji makini. Mengine ni mazoezi... na labda kahawa. ☕
Jinsi Maono ya Kompyuta katika AI inavyofanya kazi, katika njia moja timamu 🧪
-
Upataji wa picha
Kamera, vitambazaji, ndege zisizo na rubani, simu. Chagua aina ya vitambuzi, mfiduo, lenzi, na kasi ya fremu kwa uangalifu. Takataka ndani, n.k. -
Usindikaji wa Mapema
Badilisha ukubwa, punguza, rekebisha, ondoa kelele au ondoa kelele inapohitajika. Wakati mwingine mabadiliko madogo ya utofautishaji husogeza milima. [4] -
Lebo na seti za data
Visanduku vinavyofungamana, poligoni, sehemu muhimu, nafasi za maandishi. Lebo zenye usawazishaji na uwakilishi - au modeli yako hujifunza tabia zilizopinda. -
Uundaji wa modeli
-
Uainishaji : "Aina gani?"
-
Ugunduzi : "Vitu viko wapi?"
-
Ugawaji : "Pikseli zipi ni za kitu gani?"
-
Pointi muhimu na pozi : "Viungo au alama kuu ziko wapi?"
-
OCR : "Ni maandishi gani yaliyo kwenye picha?"
-
Kina na 3D : "Kila kitu kiko umbali gani?"
Usanifu hutofautiana, lakini nyavu za convolutional na modeli za mtindo wa transfoma zinatawala. [1]
-
-
Mafunzo
Gawanya data, rekebisha vigezo vya hyper, rekebisha, ongeza. Simama mapema kabla ya kukariri mandhari. -
Tathmini
Tumia vipimo vinavyofaa kazi kama vile mAP, IoU, F1, CER/WER kwa OCR. Usichague kwa njia ya kupenda. Linganisha kwa usawa. [3] -
Utekelezaji
Boresha kwa ajili ya shabaha: kazi za kundi la wingu, makadirio ya kifaa, seva za pembezoni. Fuatilia mkondo. Jifunze tena wakati ulimwengu unabadilika.
Mitandao ya kina ilichochea kiwango cha ubora mara tu seti kubwa za data na hesabu zilipofikia kiwango muhimu. Vigezo kama changamoto ya ImageNet vilifanya maendeleo hayo yaonekane waziwazi na bila kuchoka. [2]
Kazi kuu utakazotumia (na wakati utakapozitumia) 🧩
-
Uainishaji wa picha : Lebo moja kwa kila picha. Tumia kwa vichujio vya haraka, triage, au malango ya ubora.
-
Kugundua vitu : Masanduku yanayozunguka vitu. Kuzuia upotevu wa rejareja, kugundua magari, idadi ya wanyamapori.
-
Ugawaji wa mifano : Silhouette sahihi za pikseli kwa kila kitu. Kasoro za utengenezaji, vifaa vya upasuaji, teknolojia ya kilimo.
-
Mgawanyiko wa kisemantiki : Darasa kwa kila pikseli bila kutenganisha mifano. Mandhari ya barabara za mijini, kifuniko cha ardhi.
-
Ugunduzi na mkao wa sehemu muhimu : Viungo, alama muhimu, vipengele vya uso. Uchanganuzi wa michezo, ergonomics, AR.
-
Ufuatiliaji : Fuata vitu baada ya muda. Usafirishaji, trafiki, usalama.
-
OCR na AI ya hati : Uchanganuzi wa maandishi na mpangilio. Ankara, risiti, fomu.
-
Kina na 3D : Uundaji upya kutoka kwa mitazamo mingi au viashiria vya monocular. Robotics, AR, ramani.
-
Manukuu ya picha : Fupisha matukio kwa lugha asilia. Upatikanaji, utafutaji.
-
Mifumo ya lugha ya maono : Hoja za aina nyingi, maono yaliyoongezwa na urejeshaji, QA iliyoimarishwa.
Mtazamo mdogo wa kesi: madukani, kigunduzi kinaashiria nyuso za rafu zisipopatikana; kifuatiliaji huzuia kuhesabiwa mara mbili huku wafanyakazi wakiweka tena vitu; sheria rahisi huelekeza fremu za kujiamini kwa ukaguzi wa kibinadamu. Ni okestra ndogo ambayo kwa kiasi kikubwa hubaki katika mpangilio.
Jedwali la kulinganisha: zana za kusafirisha haraka zaidi 🧰
Ni jambo la ajabu kidogo kwa makusudi. Ndiyo, nafasi ni ya ajabu - najua.
| Zana / Mfumo | Bora zaidi kwa | Leseni/Bei | Kwa nini inafanya kazi katika mazoezi |
|---|---|---|---|
| FunguaCV | Usindikaji wa awali, CV ya kawaida, POC za haraka | Bure - chanzo huria | Kisanduku kikubwa cha zana, API thabiti, zilizojaribiwa vitani; wakati mwingine unahitaji tu. [4] |
| PyTorch | Mafunzo rafiki kwa utafiti | Bure | Grafu zinazobadilika, mfumo ikolojia mkubwa, mafunzo mengi. |
| Mtiririko wa Tensor/Keras | Uzalishaji kwa kiwango | Bure | Chaguo za huduma za watu wazima, nzuri kwa simu na pia kwa matumizi ya nje. |
| Ultralytics YOLO | Ugunduzi wa haraka wa kitu | Nyongeza za bure + zinazolipishwa | Kitanzi rahisi cha mafunzo, usahihi wa kasi ya ushindani, maoni ya mtu binafsi lakini ni starehe. |
| Ugunduzi wa Detectron2 / MM | Misingi imara, mgawanyiko | Bure | Mifumo ya daraja la marejeleo yenye matokeo yanayoweza kurudiwa. |
| Muda wa Kuendesha wa OpenVINO / ONNX | Uboreshaji wa makadirio | Bure | Bandika muda wa kusubiri, sambaza kwa wingi bila kuandika upya. |
| Tesseract | OCR kwa bajeti | Bure | Inafanya kazi vizuri ukisafisha picha… wakati mwingine unapaswa kuisafisha. |
Ni nini kinachochochea ubora katika Computer Vision katika AI 🔧
-
Ufikiaji wa data : Mabadiliko ya mwangaza, pembe, mandharinyuma, visanduku vya pembeni. Ikiwa inaweza kutokea, ijumuishe.
-
Ubora wa lebo : Masanduku yasiyolingana au poligoni zisizo na mpangilio huharibu mAP. QA kidogo husaidia sana.
-
Uboreshaji mahiri : Punguza, zungusha, ongeza mwangaza, ongeza kelele za sintetiki. Kuwa wa kweli, si machafuko ya nasibu.
-
Ufaa wa uteuzi wa modeli : Tumia ugunduzi ambapo ugunduzi unahitajika-usilazimishe kiainishaji kukisia maeneo.
-
Vipimo vinavyolingana na athari : Ikiwa alama hasi zisizo sahihi zinaumiza zaidi, boresha urejeshaji. Ikiwa alama chanya zisizo sahihi zinaumiza zaidi, usahihi kwanza.
-
Mzunguko mgumu wa maoni : Kushindwa kwa kumbukumbu, kuweka lebo mpya, fanya mazoezi upya. Suuza, rudia. Inachosha kidogo-ina ufanisi mkubwa.
Kwa ajili ya kugundua/kugawanya, kiwango cha jumuiya ni wastani wa Usahihi wa Wastani unaopimwa katika vizingiti vya IoU-pia inajulikana kama COCO-style mAP . Kujua jinsi IoU na AP@{0.5:0.95} zinavyohesabiwa huzuia madai ya ubao wa wanaoongoza kukushangaza kwa desimali. [3]
Matumizi halisi ambayo si ya kufikirika 🌍
-
Rejareja : Uchanganuzi wa rafu, kuzuia upotevu, ufuatiliaji wa foleni, kufuata planogramu.
-
Utengenezaji : Kugundua kasoro za uso, uthibitishaji wa mkusanyiko, mwongozo wa roboti.
-
Huduma ya Afya : Upimaji wa X-ray, ugunduzi wa vifaa, mgawanyiko wa seli.
-
Uhamaji : ADAS, kamera za trafiki, idadi ya watu wanaoegesha magari, ufuatiliaji wa uhamaji mdogo.
-
Kilimo : Kuhesabu mazao, kugundua magonjwa, utayari wa mavuno.
-
Bima na Fedha : Tathmini ya uharibifu, hundi za KYC, bendera za ulaghai.
-
Ujenzi na Nishati : Uzingatiaji wa usalama, ugunduzi wa uvujaji, ufuatiliaji wa kutu.
-
Maudhui na Ufikiaji : Manukuu otomatiki, udhibiti, utafutaji wa kuona.
Muundo utakaouona: badilisha uchanganuzi wa mikono na ujaribu kiotomatiki, kisha ugeuke hadi kwa wanadamu wakati kujiamini kunapungua. Sio kuvutia - lakini huongezeka.
Data, lebo, na vipimo muhimu 📊
-
Uainishaji : Usahihi, F1 kwa usawa.
-
Ugunduzi : mAP katika vizingiti vya IoU; kagua kwa kila darasa AP na ndoo za ukubwa. [3]
-
Ugawaji : mIoU, Kete; angalia pia makosa ya kiwango cha mfano.
-
Ufuatiliaji : MOTA, IDF1; ubora wa utambuzi upya ndiye shujaa kimya.
-
OCR : Kiwango cha Hitilafu ya Herufi (CER) na Kiwango cha Hitilafu ya Neno (WER); hitilafu za mpangilio mara nyingi hutawala.
-
Kazi za urejeshaji : Kina au mkao hutumia makosa kamili/yanayohusiana (mara nyingi kwenye mizani ya kumbukumbu).
Andika itifaki yako ya tathmini ili wengine waweze kuiga. Sio ya kuvutia - lakini inakufanya uwe mkweli.
Jenga dhidi ya nunua-na wapi pa kuiendesha 🏗️
-
Wingu : Rahisi zaidi kuanza, nzuri kwa mzigo wa kazi wa kundi. Tazama gharama za kushuka.
-
Vifaa vya pembeni : Ucheleweshaji mdogo na faragha bora. Utajali kuhusu upimaji, upogoaji, na viongeza kasi.
-
Simu ya mkononi iliyo kwenye kifaa : Inapendeza inapofaa. Boresha mifumo na betri ya saa.
-
Mchanganyiko : Chuja mapema pembeni, unyanyuaji mzito winguni. Maelewano mazuri.
Mrundiko unaoaminika na usiochosha: mfano ukitumia PyTorch, fundisha kigunduzi cha kawaida, safirisha hadi ONNX, ongeza kasi ukitumia OpenVINO/ONNX Runtime, na tumia OpenCV kwa ajili ya usindikaji wa awali na jiometri (urekebishaji, homografia, mofolojia). [4]
Hatari, maadili, na sehemu ngumu kuzungumzia ⚖️
Mifumo ya kuona inaweza kurithi upendeleo wa seti ya data au sehemu zisizoonekana za uendeshaji. Tathmini huru (km, NIST FRVT) zimepima tofauti za idadi ya watu katika viwango vya makosa ya utambuzi wa uso katika algoriti na hali. Hiyo si sababu ya hofu, lakini ni sababu ya kujaribu kwa makini, kuandika mapungufu, na kufuatilia kila mara katika uzalishaji. Ukitumia visa vya matumizi vinavyohusiana na utambulisho au usalama, jumuisha utaratibu wa ukaguzi na rufaa wa kibinadamu. Faragha, ridhaa, na uwazi si nyongeza za hiari. [5]
Ramani ya mwanzo wa haraka unayoweza kufuata 🗺️
-
Fafanua uamuzi
Mfumo unapaswa kuchukua hatua gani baada ya kuona picha? Hii inakuzuia kuboresha vipimo vya ubatili. -
Kusanya seti ya data iliyochakaa
Anza na picha mia chache zinazoakisi mazingira yako halisi. Weka lebo kwa uangalifu - hata kama ni wewe na noti tatu zinazonata. -
Chagua mfumo wa msingi
Chagua uti wa mgongo rahisi wenye uzito uliofunzwa tayari. Usifuate usanifu wa kigeni bado. [1] -
Zoeza, andika, tathmini
Fuatilia vipimo, sehemu za kuchanganyikiwa, na hali za kushindwa. Weka daftari la "kesi za ajabu" - theluji, mwangaza, tafakari, fonti zisizo za kawaida. -
Kaza kitanzi
Ongeza hasi kali, rekebisha mabadiliko ya lebo, rekebisha nyongeza, na urekebishe vizingiti. Marekebisho madogo yanaongezeka. [3] -
Tumia toleo jembamba
Pima na uhamishe. Pima muda wa kuchelewa/ujazo katika mazingira halisi, si kipimo cha kuchezea. -
Fuatilia na urudie
Kusanya makosa, lebo mpya, fanya mazoezi upya. Panga tathmini za mara kwa mara ili modeli yako isibadilike kuwa ya zamani.
Ushauri wa kitaalamu: andika maelezo kuhusu seti ndogo ya wachezaji wenzako wanaokuchukia sana. Ikiwa hawawezi kutoboa, labda uko tayari.
Mambo ya kawaida ambayo utahitaji kuepuka 🧨
-
Mafunzo kuhusu picha safi za studio, kusambaza katika ulimwengu halisi huku mvua ikiwa kwenye lenzi.
-
Kuboresha mAP kwa ujumla unapojali sana darasa moja muhimu. [3]
-
Kupuuza usawa wa kitabaka na kisha kujiuliza kwa nini matukio adimu hutoweka.
-
Kuongeza nguvu kupita kiasi hadi modeli ijifunze mabaki bandia.
-
Kuruka urekebishaji wa kamera na kisha kupambana na makosa ya mtazamo milele. [4]
-
Kuamini nambari za ubao wa wanaoongoza bila kuiga mpangilio halisi wa tathmini. [2][3]
Vyanzo vinavyostahili kualamishwa 🔗
Ukipenda nyenzo za msingi na maelezo ya kozi, haya ni dhahabu kwa misingi, mazoezi, na vigezo. Tazama Marejeleo kwa viungo: maelezo ya CS231n, karatasi ya changamoto ya ImageNet, seti ya data/hati za tathmini za COCO, hati za OpenCV, na ripoti za NIST FRVT. [1][2][3][4][5]
Maneno ya mwisho - au Marefu Sana, Hayakusomwa 🍃
Maono ya Kompyuta katika AI hubadilisha pikseli kuwa maamuzi. Hung'aa unapounganisha kazi sahihi na data sahihi, kupima vitu sahihi, na kurudia kwa nidhamu isiyo ya kawaida. Uundaji wa zana ni wa ukarimu, vigezo ni vya umma, na njia kutoka kwa mfano hadi uzalishaji ni fupi sana ikiwa unazingatia uamuzi wa mwisho. Weka lebo zako sawa, chagua vipimo vinavyolingana na athari, na uache mifano ifanye kazi nzito. Na ikiwa sitiari inasaidia - fikiria kama kumfundisha mwanafunzi wa haraka sana lakini halisi kutambua kinachohitajika. Unaonyesha mifano, hurekebisha makosa, na polepole unaiamini kwa kazi halisi. Sio kamili, lakini karibu vya kutosha kuwa na mabadiliko. 🌟
Marejeleo
-
CS231n: Kujifunza kwa Kina kwa Maono ya Kompyuta (maelezo ya kozi) - Chuo Kikuu cha Stanford.
soma zaidi -
Changamoto ya Utambuzi wa Picha kwa Kiwango Kikubwa (karatasi) - Russakovsky et al.
soma zaidi -
Seti ya Data na Tathmini ya COCO - Tovuti rasmi (ufafanuzi wa kazi na kanuni za mAP/IoU).
soma zaidi -
Nyaraka za OpenCV (v4.x) - Moduli za usindikaji wa awali, urekebishaji, mofolojia, n.k.
soma zaidi -
Sehemu ya 3 ya NIST FRVT: Athari za Idadi ya Watu (NISTIR 8280) - Tathmini huru ya usahihi wa utambuzi wa uso katika idadi ya watu.
Soma zaidi