Jibu fupi: Upandishaji wa AI hufanya kazi kwa kufunza modeli kwenye picha zenye ubora wa chini na wa juu zilizounganishwa, kisha kuitumia kutabiri pikseli za ziada zinazoaminika wakati wa upandishaji wa modeli. Ikiwa modeli imeona umbile au nyuso zinazofanana katika mafunzo, inaweza kuongeza maelezo ya kushawishi; la sivyo, inaweza "kudanganya" vitu vya kale kama vile halos, ngozi kama nta, au kung'aa kwenye video.
Mambo muhimu ya kuzingatia:
Utabiri : Mfano huu hutoa maelezo yanayowezekana, si ujenzi mpya wa uhalisia uliohakikishwa.
Chaguo la mfumo : CNN huwa na utulivu zaidi; GAN zinaweza kuonekana kuwa kali zaidi lakini zikihatarisha uvumbuzi wa vipengele.
Ukaguzi wa vitu vya kale : Angalia miwani ya duara, umbile linalojirudia, "karibu herufi", na nyuso zenye umbo la plastiki.
Uthabiti wa video : Tumia mbinu za muda au utaona mng'ao na kuteleza kwa fremu kutoka fremu hadi fremu.
Matumizi ya manufaa makubwa : Ikiwa usahihi ni muhimu, onyesha usindikaji na uchukue matokeo kama kielelezo.

Huenda umewahi kuiona: picha ndogo, yenye mkunjo hugeuka kuwa kitu kizuri cha kutosha kuchapisha, kutiririsha, au kuachia kwenye uwasilishaji bila kushtuka. Inahisi kama kudanganya. Na - kwa njia bora - ni kama 😅
Kwa hivyo, Jinsi AI Upscaling inavyofanya kazi inategemea kitu maalum zaidi kuliko "kompyuta huboresha maelezo" (kwa mkono) na karibu na "modeli hutabiri muundo unaowezekana wa ubora wa juu kulingana na mifumo ambayo ilijifunza kutoka kwa mifano mingi" ( Deep Learning for Image Super-resolution: A Survey ). Hatua hiyo ya utabiri ndiyo mchezo mzima - na ndiyo maana upscaling ya AI inaweza kuonekana ya kushangaza… au plastiki kidogo… au kama paka wako alikua na masharubu ya bonasi.
Makala ambazo unaweza kupenda kusoma baada ya hii:
🔗 Jinsi AI inavyofanya kazi
Jifunze misingi ya mifumo, data, na hitimisho katika AI.
🔗 Jinsi AI inavyojifunza
Tazama jinsi data ya mafunzo na maoni yanavyoboresha utendaji wa modeli baada ya muda.
🔗 Jinsi AI inavyogundua kasoro
Elewa misingi ya ruwaza na jinsi AI inavyoashiria tabia isiyo ya kawaida haraka.
🔗 Jinsi AI inavyotabiri mienendo
Chunguza mbinu za utabiri zinazoonyesha ishara na kutabiri mahitaji ya siku zijazo.
Jinsi Upandishaji wa AI unavyofanya kazi: wazo kuu, kwa maneno ya kila siku 🧩
Kuongeza ukubwa kunamaanisha kuongeza ubora: pikseli zaidi, picha kubwa zaidi. Kuongeza ukubwa wa kawaida (kama vile bicubic) kimsingi hunyoosha pikseli na kulainisha mabadiliko ( interpolation ya Bicubic ). Ni sawa, lakini haiwezi kuvumbua mapya - huingiliana tu.
Upanuzi wa akili bandia (AI) hujaribu kitu chenye ujasiri zaidi (pia hujulikana kama "ubora wa hali ya juu" katika ulimwengu wa utafiti) ( Deep Learning for Image Super-resolution: A Survey ):
-
Inaangalia ingizo la resi ya chini
-
Hutambua mifumo (kingo, umbile, sura za uso, mipigo ya maandishi, ufumaji wa kitambaa…)
-
Hutabiri jinsi toleo la ubora wa juu linapaswa kuonekana
-
Huzalisha data ya pikseli ya ziada inayolingana na mifumo hiyo
Sio "kurejesha ukweli kikamilifu," zaidi kama "kufanya nadhani inayoaminika sana" ( Image Super-Resolution Using Deep Convolutional Networks (SRCNN) ). Ikiwa hilo linasikika kama la kutiliwa shaka kidogo, hujakosea - lakini pia ndiyo maana inafanya kazi vizuri sana 😄
Na ndiyo, hii ina maana kwamba kuongeza ukubwa wa akili bandia (AI) kimsingi ni uzushi unaodhibitiwa… lakini kwa njia yenye tija, inayoheshimu pikseli.
Ni nini kinachofanya toleo zuri la upandishaji wa akili bandia (AI) kuwa bora? ✅🛠️
Ukiamua kama mtaalamu wa akili bandia (AI) ndiye anayefanya kazi vizuri zaidi (au mpangilio uliowekwa awali), haya ndiyo mambo yanayowavutia zaidi:
-
Urejeshaji wa kina bila kupikwa kupita kiasi.
Upanuzi mzuri huongeza ukali na muundo, si kelele kali au vinyweleo bandia. -
Nidhamu ya ukingo
Mistari safi hubaki safi. Mifumo mibaya hufanya kingo zitetemeke au kuota kwa halo. -
Uhalisia wa Umbile
Nywele hazipaswi kuwa kama brashi ya rangi. Matofali hayapaswi kuwa muhuri wa muundo unaojirudia. -
Ushughulikiaji wa Kelele na Mgandamizo
Picha nyingi za kila siku hubadilishwa kuwa JPEG hadi kufa. Msanii mzuri wa hali ya juu hazidishi uharibifu huo ( Real-ESRGAN ). -
Ufahamu wa uso na maandishi
Nyuso na maandishi ndio sehemu rahisi zaidi za kugundua makosa. Mifano mizuri huyashughulikia kwa upole (au yana njia maalum). -
Uthabiti katika fremu (kwa video)
Ikiwa maelezo yanabadilisha fremu kutoka fremu hadi fremu, macho yako yatapiga kelele. Video hupandisha au kufa kutokana na uthabiti wa muda ( BasicVSR (CVPR 2021) ). -
Vidhibiti vyenye mantiki
Unataka vitelezi vinavyoelekeza kwenye matokeo halisi: denoise, deblur, kuondolewa kwa vipengee, uhifadhi wa chembe, kunoa… mambo ya vitendo.
Sheria tulivu inayodumu: uongezaji wa "ukubwa" bora mara nyingi ndio ambao hujui sana. Inaonekana tu kama ulikuwa na kamera bora zaidi mwanzoni 📷✨
Jedwali la Ulinganisho: chaguo maarufu za kuongeza ukubwa wa akili bandia (na faida zake) 📊🙂
Hapa chini kuna ulinganisho wa vitendo. Bei ni ngumu kimakusudi kwa sababu zana hutofautiana kulingana na leseni, vifurushi, gharama za hesabu, na mambo yote ya kufurahisha.
| Zana / Mbinu | Bora zaidi kwa | Mtazamo wa bei | Kwa nini inafanya kazi (kwa takriban) |
|---|---|---|---|
| Watengenezaji wa hali ya juu wa kompyuta za mezani wa mtindo wa topazi ( Picha ya topazi , Video ya topazi ) | Picha, video, mtiririko rahisi wa kazi | Kulipwa | Mifumo imara ya jumla + marekebisho mengi, huwa "inafanya kazi tu" ... zaidi |
| Vipengele vya aina ya Adobe "Super Resolution" ( Adobe Enhance > Super Resolution ) | Wapiga picha tayari wako katika mfumo huo wa ikolojia | Usajili | Uundaji upya wa maelezo thabiti, kwa kawaida ni wa kihafidhina (usio na msisimko mwingi) |
| Lahaja za Real-ESRGAN / ESRGAN ( Real-ESRGAN , ESRGAN ) | DIY, watengenezaji, kazi za kundi | Bure (lakini inagharimu muda) | Nzuri katika umbile lake, inaweza kuwa na viungo kwenye nyuso ikiwa hujali |
| Hali za kuongeza ukubwa zinazotegemea uenezaji ( SR3 ) | Kazi ya ubunifu, matokeo yaliyopangwa | Imechanganywa | Anaweza kuunda maelezo mazuri - pia anaweza kubuni upuuzi, kwa hivyo ... ndio |
| Wachezaji wa hali ya juu wa mchezo (mtindo wa DLSS/FSR) ( NVIDIA DLSS , AMD FSR 2 ) | Michezo ya video na uigizaji wa wakati halisi | Imeunganishwa | Hutumia data ya mwendo na mambo ya awali yaliyojifunza - ushindi wa utendaji laini 🕹️ |
| Huduma za kuongeza wingu | Urahisi, ushindi wa haraka | Lipa kwa kila matumizi | Haraka + inaweza kupanuliwa, lakini unabadilisha udhibiti na wakati mwingine ujanja |
| Watengenezaji wakubwa wa AI wanaolenga video ( BasicVSR , Video ya Topaz ) | Video za zamani, anime, kumbukumbu | Kulipwa | Mbinu za muda za kupunguza kung'aa kwa mifumo ya video maalum |
| Simu/matunzio "mahiri" ya kupandisha skeli | Matumizi ya kawaida | Imejumuishwa | Mifumo nyepesi iliyorekebishwa kwa ajili ya matokeo ya kupendeza, si ukamilifu (bado ni rahisi) |
Kuunda ukiri wa ajabu: "Paid-ish" inafanya kazi nyingi katika jedwali hilo. Lakini unaelewa 😅
Siri kubwa: wanamitindo hujifunza ramani kutoka kwa ubora wa chini hadi ubora wa juu 🧠➡️🖼️
Katikati ya upandishaji wa juu wa akili bandia (AI) kuna usanidi wa ujifunzaji unaosimamiwa ( Image Super-Resolution Using Deep Convolutional Networks (SRCNN) ):
-
Anza na picha zenye ubora wa hali ya juu ("ukweli")
-
Zipunguze hadi matoleo yenye ubora wa chini ("pembejeo")
-
Jifunze modeli ya kujenga upya ubora wa juu wa asili kutoka kwa ubora wa chini
Baada ya muda, modeli hujifunza uhusiano kama vile:
-
"Aina hii ya ukungu kuzunguka jicho kwa kawaida ni ya kope"
-
"Kundi hili la pikseli mara nyingi huonyesha maandishi ya serif"
-
"Mteremko huu wa ukingo unaonekana kama mstari wa paa, si kelele ya nasibu"
Sio kukariri picha maalum (kwa maana rahisi), ni kujifunza muundo wa takwimu ( Kujifunza kwa Kina kwa Ubora wa Picha: Utafiti ). Fikiria kama kujifunza sarufi ya umbile na kingo. Sio sarufi ya ushairi, zaidi kama… sarufi ya mwongozo ya IKEA 🪑📦 (sitiari isiyoeleweka, lakini karibu vya kutosha).
Vidokezo na Vidokezo: kinachotokea wakati wa makadirio (unapofanya vizuri) ⚙️✨
Unapoingiza picha kwenye programu ya AI ya hali ya juu, kwa kawaida huwa na mfumo kama huu:
-
Usindikaji wa awali
-
Badilisha nafasi ya rangi (wakati mwingine)
-
Rekebisha thamani za pikseli
-
Weka vigae kwenye vipande ikiwa ni vikubwa (angalia uhalisia wa VRAM 😭) ( Real-ESRGAN repo (chaguo za vigae) )
-
-
Uchimbaji wa vipengele
-
Tabaka za mapema hugundua kingo, pembe, na gradients
-
Tabaka za kina hugundua mifumo: umbile, maumbo, vipengele vya uso
-
-
Ujenzi Upya
-
Mfano huu hutoa ramani ya vipengele vya ubora wa juu
-
Kisha hubadilisha hiyo kuwa matokeo halisi ya pikseli
-
-
Baada ya usindikaji
-
Kunoa kwa hiari
-
Denoise ya hiari
-
Ukandamizaji wa hiari wa vitu vya kale (mlio, halos, kizuizi)
-
Maelezo moja madogo: zana nyingi huwekwa kwenye vigae vya hali ya juu, kisha huchanganya mishono. Zana nzuri huficha mipaka ya vigae. Zana za Meh huacha alama hafifu za gridi ukiziba macho. Na ndio, utaziba macho, kwa sababu wanadamu hupenda kukagua kasoro ndogo kwa kukuza 300% kama gremlins wadogo 🧌
Familia kuu za modeli zinazotumika kwa ajili ya kuongeza ukubwa wa akili bandia (na kwa nini zinahisi tofauti) 🤖📚
1) Ubora wa hali ya juu unaotegemea CNN (kazi ya kawaida)
Mitandao ya neva ya convolutional ni mizuri katika mifumo ya ndani: kingo, umbile, miundo midogo ( Image Super-Resolution Using Deep Convolutional Networks (SRCNN) ).
-
Faida: haraka-kama, thabiti, mshangao mdogo
-
Hasara: inaweza kuonekana "imechakatwa" kidogo ikiwa imesukumwa kwa nguvu
2) Upanuzi wa kiwango unaotegemea GAN (mtindo wa ESRGAN) 🎭
GAN (Mitandao ya Upinzani wa Kizazi) hufunza jenereta kutoa picha zenye ubora wa juu ambazo kibaguzi hawezi kutofautisha na zile halisi ( Mitandao ya Upinzani wa Kizazi ).
-
Faida: maelezo ya kuvutia, umbile la kuvutia
-
Hasara: inaweza kubuni maelezo ambayo hayakuwepo - wakati mwingine si sahihi, wakati mwingine ya ajabu ( SRGAN , ESRGAN )
GAN inaweza kukupa ukali unaostahili mshangao. Inaweza pia kumpa mhusika wako picha nyusi za ziada. Kwa hivyo… chagua vita vyako 😬
3) Upanuzi wa kiwango unaotegemea usambazaji (kadi ya ubunifu) 🌫️➡️🖼️
Mifumo ya uenezaji huondoa kelele hatua kwa hatua na inaweza kuongozwa ili kutoa maelezo ya ubora wa juu ( SR3 ).
-
Faida: inaweza kuwa nzuri sana katika maelezo yanayowezekana, hasa kwa kazi ya ubunifu
-
Hasara: inaweza kupotoka kutoka kwa utambulisho/muundo wa asili ikiwa mipangilio ni ya fujo ( SR3 )
Hapa ndipo "kuongeza ukubwa" huanza kuchanganyika na "kufikiria upya." Wakati mwingine ndivyo hasa unavyotaka. Wakati mwingine sivyo.
4) Kuongeza ukubwa wa video kwa uthabiti wa muda 🎞️
Kuongeza ukubwa wa video mara nyingi huongeza mantiki inayozingatia mwendo:
-
Hutumia fremu za jirani ili kuimarisha maelezo ( BasicVSR (CVPR 2021) )
-
Hujaribu kuepuka vitu vinavyoweza kung'aa na kutambaa
-
Mara nyingi huchanganya ubora wa hali ya juu na denoise na deinterlacing ( Topaz Video )
Ikiwa kuongeza ukubwa wa picha ni kama kurejesha uchoraji mmoja, kuongeza ukubwa wa video ni kama kurejesha kitabu cha picha bila kufanya pua ya mhusika ibadilishe umbo kila ukurasa. Ambayo ni ... ngumu kuliko inavyosikika.
Kwa nini upandishaji wa akili bandia wakati mwingine huonekana kama bandia (na jinsi ya kuutambua) 👀🚩
Upandishaji wa akili bandia (AI) hushindwa kutambulika kwa njia zinazotambulika. Ukishajifunza mifumo hiyo, utaiona kila mahali, kama vile kununua gari jipya na ghafla kugundua modeli hiyo kila mtaa 😵💫
Mazungumzo ya kawaida:
-
Ngozi ya nta kwenye nyuso (kupunguza kelele kupita kiasi + kulainisha)
-
Halo zenye ncha kali kupita kiasi kuzunguka kingo (eneo la kawaida la "kuzidisha") ( Utafsiri wa Bicubic )
-
Maumbile yanayorudiwa (kuta za matofali huwa mifumo ya kunakili-kubandika)
-
Tofauti ndogo ndogo inayopiga kelele "algorithm"
-
Kuharibika kwa maandishi ambapo herufi huwa karibu herufi (aina mbaya zaidi)
-
Mtiririko wa kina ambapo vipengele vidogo hubadilika kwa njia fiche, hasa katika mtiririko wa kazi wa usambazaji ( SR3 )
Sehemu ngumu: wakati mwingine vitu hivi vya kale huonekana "bora zaidi" kwa mtazamo wa kwanza. Ubongo wako unapenda ukali. Lakini baada ya muda mfupi, unahisi ... haupo sawa.
Mbinu nzuri ni kuongeza ukubwa wa picha na kuangalia kama inaonekana ya asili kwa umbali wa kawaida wa kutazama. Ikiwa inaonekana nzuri kwa 400% tu, hiyo si ushindi, hiyo ni burudani 😅
Jinsi Upandishaji wa AI unavyofanya kazi: upande wa mafunzo, bila maumivu ya kichwa cha hesabu 📉🙂
Mafunzo ya mifumo ya ubora wa juu kwa kawaida huhusisha:
-
Seti za data zilizooanishwa (pembejeo ya ubora wa chini, shabaha ya ubora wa juu) ( Ubora wa Picha kwa Kutumia Mitandao ya Kina ya Kubadilisha (SRCNN) )
-
Vipengele vya upotevu vinavyoadhibu ujenzi upya usiofaa ( SRGAN )
Aina za kawaida za hasara:
-
Kupoteza pikseli (L1/L2)
Huhimiza usahihi. Inaweza kutoa matokeo laini kidogo. -
Upotevu wa utambuzi
Hulinganisha vipengele vya ndani zaidi (kama "hii inaonekana sawa") badala ya pikseli halisi ( Upotevu wa utambuzi (Johnson et al., 2016) ). -
Upotevu wa wapinzani (GAN)
Huhimiza uhalisia, wakati mwingine kwa gharama ya usahihi halisi ( SRGAN , Mitandao ya Upinzani ya Uzalishaji ).
Kuna vita vya mara kwa mara:
-
Ifanye iwe mwaminifu kwa asili
dhidi ya -
Ifanye iwe ya kupendeza macho
Zana tofauti huangukia katika sehemu tofauti kwenye wigo huo. Na unaweza kupendelea moja kulingana na kama unarejesha picha za familia au unaandaa bango ambapo "mwonekano mzuri" ni muhimu zaidi kuliko usahihi wa kiuchunguzi.
Mtiririko wa kazi kwa vitendo: picha, skani za zamani, anime, na video 📸🧾🎥
Picha (picha, mandhari, picha za bidhaa)
Mbinu bora kwa kawaida ni:
-
Kwanza, kelele kidogo (ikiwa inahitajika)
-
Imeboreshwa kwa mipangilio ya kihafidhina
-
Ongeza nafaka tena ikiwa mambo yanahisi laini sana (ndio, kweli)
Nafaka ni kama chumvi. Chakula cha jioni kimeharibika sana, lakini hakuna hata kimoja kinachoweza kuwa laini kidogo 🍟
Skani za zamani na picha zilizobanwa sana
Hizi ni ngumu zaidi kwa sababu modeli inaweza kutibu vizuizi vya mgandamizo kama "muundo."
Jaribu:
-
Kuondoa au kuondoa kizuizi cha vitu bandia
-
Kisha ya hali ya juu
-
Kisha mwanga unanoa (sio sana ... najua, kila mtu anasema hivyo, lakini bado)
Anime na sanaa ya mstari
Sanaa ya mstari ina faida kutoka:
-
Mifano inayohifadhi kingo safi
-
Umbile lililopunguzwa la ndoto
Kuongeza ukubwa wa Anime mara nyingi huonekana vizuri kwa sababu maumbo ni rahisi na thabiti. (Bahati nzuri.)
Video
Video inaongeza hatua za ziada:
-
Kelele ya Denoise
-
Deinterlace (kwa vyanzo fulani)
-
Kipana
-
Kulainisha au kutuliza kwa muda ( BasicVSR (CVPR 2021) )
-
Uanzishaji upya wa nafaka kwa ajili ya mshikamano wa hiari
Ukiruka uthabiti wa muda, unapata sehemu hiyo inayong'aa ikibadilika. Ukiiona, huwezi kuiondoa. Kama kiti kinacholia katika chumba tulivu 😖
Kuchagua mipangilio bila kubahatisha kwa njia isiyo ya kawaida (karatasi ndogo ya kudanganya) 🎛️😵💫
Hapa kuna mawazo mazuri ya kuanzia:
-
Ikiwa nyuso zinaonekana za plastiki
Punguza kelele, punguza kunoa, jaribu modeli au hali inayohifadhi uso. -
Ikiwa umbile linaonekana kali sana.
Vitelezi vya "uboreshaji wa maelezo" au "rejesha maelezo", ongeza chembe ndogo baada ya hapo. -
Ikiwa kingo zinang'aa,
punguza kunoa, angalia chaguo za kukandamiza halo. -
Ikiwa picha inaonekana "AI" sana,
fanya mambo ya kihafidhina zaidi. Wakati mwingine hatua bora ni ... kidogo tu.
Pia: usitumie 8x ya hali ya juu kwa sababu tu unaweza. 2x safi au 4x mara nyingi ndio sehemu nzuri. Zaidi ya hapo, unamwomba modeli aandike hadithi za mashabiki kuhusu pikseli zako 📖😂
Maadili, uhalisia, na swali gumu la "ukweli" 🧭😬
Kuongeza ukubwa wa akili bandia (AI) kunafifisha mstari:
-
Urejesho unamaanisha kurejesha kile kilichokuwapo
-
Uboreshaji unamaanisha kuongeza kile ambacho hakikuwa
Kwa picha za kibinafsi, kwa kawaida ni sawa (na nzuri). Kwa uandishi wa habari, ushahidi wa kisheria, picha za kimatibabu, au kitu chochote kinachohusu uaminifu... unahitaji kuwa mwangalifu ( OSAC/NIST: Mwongozo wa Kawaida wa Usimamizi wa Picha za Kidijitali za Kiuchunguzi , Miongozo ya SWGDE ya Uchambuzi wa Picha za Kiuchunguzi ).
Kanuni rahisi:
-
Ikiwa hatari ni kubwa, chukulia uongezaji wa AI kama kielelezo , si cha uhakika.
Pia, ufichuzi ni muhimu katika miktadha ya kitaaluma. Si kwa sababu AI ni mbaya, bali kwa sababu hadhira inastahili kujua kama maelezo yalijengwa upya au yalinaswa. Hiyo ni heshima tu.
Maelezo ya kumalizia na muhtasari mfupi 🧡✅
Kwa hivyo, Jinsi Upandishaji wa AI unavyofanya kazi ni hivi: modeli hujifunza jinsi maelezo ya ubora wa juu yanavyohusiana na ruwaza za ubora wa chini, kisha hutabiri pikseli za ziada zinazoaminika wakati wa upandishaji wa ubora ( Deep Learning for Image Super-resolution: A Survey ). Kulingana na familia ya modeli (CNN, GAN, diffusion, video-temporal), utabiri huo unaweza kuwa wa kihafidhina na wa uaminifu… au wa ujasiri na wakati mwingine usio na kikwazo 😅
Muhtasari wa haraka
-
Pikseli za kawaida za kunyoosha kwa kiwango cha juu ( Kiingilio cha Bicubic )
-
Upanuzi wa AI hutabiri maelezo yanayokosekana kwa kutumia mifumo iliyojifunza ( Image Super-Resolution Using Deep Convolutional Networks (SRCNN) )
-
Matokeo mazuri hutokana na mfumo sahihi + kizuizi
-
Tazama halo, nyuso zenye nta, umbile linalojirudia, na kung'aa kwenye video ( BasicVSR (CVPR 2021) )
-
Kuongeza ukubwa mara nyingi ni "ujenzi unaowezekana," si ukweli kamili ( SRGAN , ESRGAN )
Ukitaka, niambie unachoongeza ukubwa (nyuso, picha za zamani, video, anime, maandishi yaliyochanganuliwa), nami nitapendekeza mkakati wa mipangilio unaoelekea kuepuka mitego ya kawaida ya "mwonekano wa AI" 🎯🙂
Maswali Yanayoulizwa Mara kwa Mara
Kuongeza ukubwa wa akili bandia na jinsi inavyofanya kazi
Upanuzi wa akili bandia (mara nyingi huitwa "ubora wa hali ya juu") huongeza ubora wa picha kwa kutabiri maelezo yasiyo na ubora wa hali ya juu kutoka kwa mifumo iliyojifunza wakati wa mafunzo. Badala ya kunyoosha tu pikseli kama vile uingiliaji kati wa bicubic, modeli huchunguza kingo, umbile, nyuso, na mipigo kama maandishi, kisha hutoa data mpya ya pikseli inayolingana na mifumo hiyo iliyojifunza. Ni "kurejesha uhalisia" kidogo zaidi bali "kufanya kisio linaloaminika" linalosomeka kama la asili.
Kuongeza ukubwa wa akili bandia dhidi ya kupunguza ukubwa wa bicubic au wa kitamaduni
Mbinu za kitamaduni za kuongeza ukubwa (kama vile bicubic) huingiliana hasa kati ya pikseli zilizopo, na kulainisha mabadiliko bila kuunda maelezo mapya halisi. Kuongeza ukubwa wa akili bandia (AI) kunalenga kujenga upya muundo unaowezekana kwa kutambua ishara za kuona na kutabiri jinsi matoleo ya ishara hizo zenye ubora wa juu yanavyoonekana. Ndiyo maana matokeo ya akili bandia yanaweza kuhisi kuwa makali zaidi, na pia kwa nini yanaweza kuanzisha mabaki au "kuvumbua" maelezo ambayo hayakuwepo kwenye chanzo.
Kwa nini nyuso zinaweza kuonekana kama nta au laini kupita kiasi
Nyuso zenye nta kwa kawaida hutokana na kuondoa kelele kwa nguvu na kulainisha pamoja na kunoa kunakoondoa umbile asilia la ngozi. Vifaa vingi hushughulikia kelele na umbile laini vivyo hivyo, kwa hivyo "kusafisha" picha kunaweza kufuta vinyweleo na maelezo madogo. Mbinu ya kawaida ni kupunguza kuondoa kelele na kunoa, tumia hali ya kuhifadhi uso ikiwa inapatikana, kisha rudisha mguso wa chembe ili matokeo yasionekane ya plastiki sana na ya picha zaidi.
Mabaki ya kawaida ya kuongeza ukubwa wa akili bandia ya kutazama
Vielelezo vya kawaida hujumuisha halo zinazozunguka kingo, mifumo inayorudiwa ya umbile (kama vile matofali ya kunakili-kubandika), utofautishaji mdogo unaoganda, na maandishi ambayo hubadilika kuwa "karibu herufi." Katika mtiririko wa kazi unaotegemea uenezaji, unaweza pia kuona mkondo wa maelezo ambapo vipengele vidogo hubadilika kwa upole. Kwa video, maelezo yanayopeperuka na kutambaa kwenye fremu ni bendera kubwa nyekundu. Ikiwa inaonekana nzuri tu katika ukuzaji uliokithiri, mipangilio labda ni kali sana.
Jinsi GAN, CNN, na watangazaji wapya wanavyotofautiana katika matokeo
Ubora wa juu unaotegemea CNN huwa thabiti na unaotabirika zaidi, lakini unaweza kuonekana "umechakatwa" ukisukumwa kwa nguvu. Chaguo zinazotegemea GAN (mtindo wa ESRGAN) mara nyingi hutoa umbile lenye nguvu zaidi na ukali unaoonekana, lakini zinaweza kufichua maelezo yasiyo sahihi, haswa kwenye nyuso. Upanuzi unaotegemea usambazaji unaweza kutoa maelezo mazuri na yanayowezekana, lakini unaweza kupotoka kutoka kwa muundo wa asili ikiwa mipangilio ya mwongozo au nguvu ni imara sana.
Mkakati wa mipangilio ya vitendo ya kuepuka mwonekano wa "AI sana"
Anza kwa mtindo wa kihafidhina: 2× au 4× ya hali ya juu kabla ya kufikia mambo yaliyokithiri. Ikiwa nyuso zinaonekana kama plastiki, piga kelele nyuma na kunoa na ujaribu hali inayotambua uso. Ikiwa umbile linazidi kuwa kali, punguza uboreshaji wa maelezo na fikiria kuongeza chembe ndogo baadaye. Ikiwa kingo zinang'aa, punguza kunoa na angalia ukandamizaji wa halo au bandia. Katika mifumo mingi, "chini" hushinda kwa sababu huhifadhi uhalisia unaoaminika.
Kushughulikia skani za zamani au picha zilizobanwa sana na JPEG kabla ya kuongeza ukubwa
Picha zilizobanwa ni ngumu kwa sababu mifumo inaweza kutibu mabaki ya vitalu kama umbile halisi na kuyaongeza. Mtiririko wa kazi wa kawaida ni kuondoa au kuondoa vizuizi vya mabaki kwanza, kisha kuongeza ukubwa, kisha kunoa mwangaza tu inapohitajika. Kwa uchanganuzi, usafishaji mpole unaweza kusaidia mfumo kuzingatia muundo halisi badala ya uharibifu. Lengo ni kupunguza "viashiria bandia vya umbile" ili mtaalamu asilazimike kufanya ubashiri wa kujiamini kutokana na ingizo zenye kelele.
Kwa nini kuongeza ukubwa wa video ni vigumu kuliko kuongeza ukubwa wa picha
Upandishaji wa video lazima uwe sawa katika fremu, si mzuri tu kwenye picha moja tuli. Ikiwa maelezo yanabadilika kutoka fremu hadi fremu, matokeo yake yanavuruga haraka. Mbinu zinazolenga video hutumia taarifa za muda kutoka kwa fremu za jirani ili kuimarisha ujenzi upya na kuepuka mabaki yanayong'aa. Mifumo mingi ya kazi pia inajumuisha denoise, deinterlacing kwa vyanzo fulani, na uanzishaji upya wa nafaka hiari ili mfuatano mzima uhisike kuwa na mshikamano badala ya kuwa mkali bandia.
Wakati kuongeza ukubwa wa akili bandia (AI) si sahihi au ni hatari kutegemea
Kuongeza ukubwa wa akili bandia (AI) huchukuliwa vyema kama uboreshaji, si uthibitisho. Katika miktadha mikubwa kama vile uandishi wa habari, ushahidi wa kisheria, upigaji picha wa kimatibabu, au kazi ya uchunguzi wa kimatibabu, kutoa pikseli "zinazoaminika" kunaweza kupotosha kwa sababu kunaweza kuongeza maelezo ambayo hayakunaswa. Muundo salama zaidi ni kuutumia kwa njia ya kielelezo na kufichua kwamba mchakato wa akili bandia uliunda upya maelezo. Ikiwa uaminifu ni muhimu, hifadhi asili na uandike kila hatua na mpangilio wa usindikaji.
Marejeleo
-
arXiv - Kujifunza kwa Kina kwa Ubora wa Picha: Utafiti - arxiv.org
-
arXiv - Ubora wa Picha kwa Kutumia Mitandao ya Kina ya Ubadilishaji (SRCNN) - arxiv.org
-
arXiv - Real-ESRGAN - arxiv.org
-
arXiv - ESRGAN - arxiv.org
-
arXiv - SR3 - arxiv.org
-
Msanidi Programu wa NVIDIA - NVIDIA DLSS - developer.nvidia.com
-
AMD GPUOpen - FidelityFX Super Resolution 2 - gpuopen.com
-
Wakfu wa Maono ya Kompyuta (CVF) Ufikiaji Huria - BasicVSR: Utafutaji wa Vipengele Muhimu katika Ubora wa Video (CVPR 2021) - openaccess.thecvf.com
-
arXiv - Mitandao ya Upinzani Inayozalisha - arxiv.org
-
arXiv - SRGAN - arxiv.org
-
arXiv - Upotevu wa Utambuzi (Johnson et al., 2016) - arxiv.org
-
GitHub - Repo Halisi ya ESRGAN (chaguo za vigae) - github.com
-
Wikipedia - Tafsiri ya Bicubic - wikipedia.org
-
Maabara ya Topaz - Picha ya Topaz - topazlabs.com
-
Maabara ya Topaz - Video ya Topaz - topazlabs.com
-
Kituo cha Usaidizi cha Adobe - Adobe Enhance > Super Resolution - helpx.adobe.com
-
NIST / OSAC - Mwongozo wa Kawaida wa Usimamizi wa Picha za Kidijitali za Kiuchunguzi (Toleo la 1.0) - nist.gov
-
SWGDE - Miongozo ya Uchambuzi wa Picha za Kiuchunguzi - swgde.org