Ugunduzi wa anomali ni shujaa wa kimya wa shughuli za data - kengele ya moshi ambayo hunong'ona kabla ya vitu kuwaka moto.
Kwa maneno rahisi: AI hujifunza jinsi "kawaida-ish" inavyoonekana, hupa matukio mapya alama isiyo ya kawaida , na kisha huamua kama atamtambulisha mwanadamu (au kumzuia kiotomatiki) kulingana na kizingiti . Shetani yuko katika jinsi unavyofafanua "kawaida-ish" wakati data yako ni ya msimu, yenye fujo, inapotoka, na wakati mwingine inakudanganya. [1]
Makala unayoweza kupenda kusoma baada ya hii:
🔗 Kwa nini AI inaweza kuwa na madhara kwa jamii.
Huchunguza hatari za kimaadili, kiuchumi, na kijamii za kupitishwa kwa AI kwa wingi.
🔗 Kiasi gani cha maji ambacho mifumo ya akili bandia hutumia.
Inaelezea upoezaji wa kituo cha data, mahitaji ya mafunzo, na athari ya maji katika mazingira.
🔗 Seti ya data ya AI ni nini na kwa nini ni muhimu.
Hufafanua seti za data, uwekaji lebo, vyanzo, na jukumu lao katika utendaji wa modeli.
🔗 Jinsi AI inavyotabiri mitindo kutoka kwa data changamano
Hushughulikia utambuzi wa ruwaza, mifumo ya kujifunza kwa mashine, na matumizi ya utabiri wa ulimwengu halisi.
"Je, AI Hugundua Vipi Vibaya?"
Jibu zuri linapaswa kufanya zaidi ya algoriti za orodha. Linapaswa kuelezea utaratibu na jinsi zinavyoonekana unapozitumia kwenye data halisi na isiyokamilika. Maelezo bora zaidi:
-
Onyesha viambato vya msingi: vipengele , misingi , alama , na vizingiti . [1]
-
Tofautisha familia za vitendo: umbali, msongamano, tabaka moja, kutengwa, uwezekano, ujenzi upya. [1]
-
Shughulikia tabia zisizo za kawaida za mfululizo wa wakati: "kawaida" inategemea wakati wa siku, siku ya wiki, matoleo, na likizo. [1]
-
Chukulia tathmini kama kikwazo halisi: kengele za uwongo si za kuudhi tu - zinachoma uaminifu. [4]
-
Jumuisha utafsiri + binadamu-ndani-ya-mzunguko, kwa sababu "ni ajabu" sio chanzo kikuu. [5]
Mitambo ya Msingi: Misingi, Alama, Vizingiti 🧠
Mifumo mingi isiyo ya kawaida, iwe ya kupendeza au la, imegawanywa katika sehemu tatu zinazosonga:
1) Uwakilishi (pia inajulikana kama: kile ambacho modeli inaona )
Ishara mbichi mara chache hutoshi. Unaweza kuhandisha vipengele (takwimu zinazozunguka, uwiano, ucheleweshaji, delta za msimu) au kujifunza uwakilishi (upachikaji, nafasi ndogo, ujenzi upya). [1]
2) Kufunga (pia inajulikana kama: hii ni "ya ajabu" kiasi gani?)
Mawazo ya kawaida ya kupata alama ni pamoja na:
-
Kulingana na umbali : mbali na majirani = kutiliwa shaka. [1]
-
Kulingana na msongamano : msongamano mdogo wa ndani = wa kutiliwa shaka (LOF ndiye mtoto wa bango). [1]
-
Mipaka ya darasa moja : jifunze "kawaida," onyesha kile kinachoanguka nje. [1]
-
Uwezekano : uwezekano mdogo chini ya modeli iliyowekwa = ya kutiliwa shaka. [1]
-
Hitilafu ya ujenzi upya : ikiwa modeli iliyofunzwa katika hali ya kawaida haiwezi kuijenga upya, labda imezimwa. [1]
3) Kizingiti (pia inajulikana kama: wakati wa kupiga kengele)
Vizingiti vinaweza kuwa visivyobadilika, kulingana na kiasi, kwa kila sehemu, au kulingana na gharama - lakini vinapaswa kupimwa dhidi ya bajeti za tahadhari na gharama za chini, si hisia. [4]
Maelezo moja ya vitendo sana: vigunduzi vya nje/vipya vya scikit-learn hufichua alama ghafi na kisha hutumia kizingiti (mara nyingi hudhibitiwa kupitia dhana ya mtindo wa uchafuzi) ili kubadilisha alama kuwa maamuzi ya ndani/nje. [2]
Ufafanuzi wa Haraka Unaozuia Maumivu Baadaye 🧯
Tofauti mbili zinazokuokoa kutokana na makosa madogo:
-
Ugunduzi wa nje : data yako ya mafunzo inaweza kuwa tayari inajumuisha nje; algoriti inajaribu kuiga "eneo la kawaida lenye mnene" hata hivyo.
-
Ugunduzi wa riwaya : data ya mafunzo inadhaniwa kuwa safi; unahukumu ikiwa mpya unaendana na muundo wa kawaida uliojifunza. [2]
Pia: ugunduzi wa riwaya mara nyingi huwekwa kama uainishaji wa darasa moja - uundaji wa mifano ya kawaida kwa sababu mifano isiyo ya kawaida ni michache au haijafafanuliwa. [1]

Kazi Zisizosimamiwa Utakazozitumia 🧰
Wakati lebo ni chache (ambayo kimsingi huwa hivyo kila wakati), hizi ndizo zana zinazoonekana katika mifumo halisi:
-
Msitu wa Isolation : chaguo-msingi kali katika visa vingi vya jedwali, linalotumika sana katika vitendo na kutekelezwa katika scikit-learn. [2]
-
SVM ya Daraja Moja : inaweza kuwa na ufanisi lakini ni nyeti kwa marekebisho na dhana; scikit-learn inaonyesha wazi hitaji la marekebisho ya hyperparameter kwa uangalifu. [2]
-
Kipengele cha Nje cha Eneo (LOF) : alama ya kawaida inayotegemea msongamano; nzuri wakati "kawaida" si kidonge kizuri. [1]
Timu za vitendo za gotcha hugundua upya kila wiki: LOF hutenda tofauti kulingana na kama unafanya ugunduzi wa nje kwenye seti ya mafunzo dhidi ya ugunduzi wa uhalisia kwenye data mpya - scikit-learn hata inahitaji uhalisia=True ili kupata pointi zisizoonekana kwa usalama. [2]
Msingi Imara Ambao Bado Hufanya Kazi Wakati Data Ni Fupi 🪓
Ukiwa katika hali ya "tunahitaji tu kitu ambacho hakitupigi kwenye usahaulifu", takwimu thabiti hazijapewa kipaumbele.
ya z iliyorekebishwa hutumia wastani na MAD (mkengeuko kamili wa wastani) ili kupunguza unyeti kwa thamani zilizokithiri. Kitabu cha mwongozo cha EDA cha NIST kinaandika umbo la alama ya z iliyorekebishwa na kinabainisha sheria ya kidole gumba inayotumika sana ya "uwezekano wa nje" kwa thamani kamili zaidi ya 3.5 . [3]
Hii haitatatua kila tatizo lisilo la kawaida - lakini mara nyingi ni safu ya kwanza imara ya ulinzi, hasa kwa vipimo vya kelele na ufuatiliaji wa hatua za mwanzo. [3]
Ukweli wa Mfululizo wa Wakati: "Kawaida" Inategemea Wakati ⏱️📈
Makosa ya mfululizo wa wakati ni magumu kwa sababu muktadha ndio jambo kuu: ongezeko la saa sita mchana linaweza kutarajiwa; ongezeko lile lile saa 3 asubuhi linaweza kumaanisha kuwa kuna kitu kinawaka. Kwa hivyo, mifumo mingi ya vitendo huonyesha uhalisia kwa kutumia vipengele vinavyozingatia wakati (kuchelewa, delta za msimu, madirisha yanayozunguka) na kupotoka kwa alama ikilinganishwa na muundo unaotarajiwa. [1]
Ukikumbuka sheria moja tu: gawanya msingi wako (saa/siku/eneo/ngazi ya huduma) kabla ya kutangaza nusu ya trafiki yako kuwa "isiyo ya kawaida." [1]
Tathmini: Mtego wa Matukio Adimu 🧪
Ugunduzi wa anomali mara nyingi huwa "sindano kwenye rundo la nyasi," jambo ambalo hufanya tathmini kuwa ya ajabu:
-
Mikunjo ya ROC inaweza kuonekana kuwa sawa kwa udanganyifu wakati chanya ni nadra.
-
Maoni ya ukumbusho sahihi mara nyingi huwa na taarifa zaidi kwa mipangilio isiyo na usawa kwa sababu yanalenga utendaji kwenye darasa chanya. [4]
-
Kiutendaji, unahitaji pia bajeti ya tahadhari : ni tahadhari ngapi kwa saa ambazo wanadamu wanaweza kujaribu bila kuacha hasira? [4]
Kujaribu tena kwenye madirisha yanayozunguka hukusaidia kubaini hali ya kawaida ya kushindwa: "inafanya kazi vizuri sana ... kwenye usambazaji wa mwezi uliopita." [1]
Ufafanuzi na Sababu ya Msingi: Onyesha Kazi Yako 🪄
Kutoa tahadhari bila maelezo ni kama kupata kadi ya posta ya fumbo. Ina manufaa, lakini inakatisha tamaa.
Zana za utafsiri zinaweza kusaidia kwa kuashiria ni vipengele vipi vilivyochangia zaidi alama isiyo ya kawaida, au kwa kutoa maelezo ya mtindo wa "ni nini kingehitaji kubadilika ili hili lionekane la kawaida?". Kujifunza kwa Mashine Kinachoweza Kutafsiriwa ni mwongozo thabiti na muhimu wa mbinu za kawaida (ikiwa ni pamoja na sifa za mtindo wa SHAP) na mapungufu yake. [5]
Lengo si tu faraja ya wadau - ni upimaji wa haraka na matukio machache yanayojirudia.
Usambazaji, Uendeshaji, na Mizunguko ya Maoni 🚀
Wanamitindo hawaishi kwenye slaidi. Wanaishi kwenye mabomba.
Hadithi ya kawaida ya "mwezi wa kwanza katika uzalishaji": kigunduzi mara nyingi huashiria utumaji, kazi za kundi, na data inayokosekana ... ambayo bado ni muhimu kwa sababu inakulazimisha kutenganisha "matukio ya ubora wa data" na "makosa ya kibiashara."
Kwa vitendo:
-
Fuatilia mkondo na jifunze upya/rekebisha kadri tabia inavyobadilika. [1]
-
Ingizo la alama za kumbukumbu + toleo la modeli ili uweze kunakili kwa nini kitu kimeorodheshwa. [5]
-
Nasa maoni ya binadamu (arifa muhimu dhidi ya kelele) ili kurekebisha vizingiti na sehemu baada ya muda. [4]
Pembe ya Usalama: IDS na Uchanganuzi wa Tabia 🛡️
Timu za usalama mara nyingi huchanganya mawazo yasiyo ya kawaida na ugunduzi unaotegemea sheria: misingi ya "tabia ya kawaida ya mwenyeji," pamoja na sahihi na sera za mifumo mibaya inayojulikana. SP 800-94 (Final) ya NIST inabaki kuwa fremu inayotajwa sana ya kuzingatia kugundua uvamizi na mfumo wa kuzuia; pia inabainisha kuwa rasimu ya 2012 "Rev. 1" haikuwahi kuwa ya mwisho na baadaye ilistaafu. [3]
Tafsiri: tumia ML pale inaposaidia, lakini usitupe sheria zinazochosha - zinachosha kwa sababu zinafanya kazi.
Jedwali la Ulinganisho: Mbinu Maarufu kwa Muhtasari 📊
| Chombo / Mbinu | Bora Kwa | Kwa nini inafanya kazi (kivitendo) |
|---|---|---|
| Alama za z zilizoimarika / zilizorekebishwa | Vipimo rahisi, misingi ya haraka | Pasi ya kwanza yenye nguvu unapohitaji "nzuri ya kutosha" na kengele chache za uongo. [3] |
| Msitu wa Kutengwa | Jedwali, vipengele mchanganyiko | Utekelezaji thabiti chaguo-msingi na hutumika sana katika vitendo. [2] |
| SVM ya Daraja Moja | Maeneo "ya kawaida" madogo | Ugunduzi wa ubunifu unaotegemea mipaka; urekebishaji ni muhimu sana. [2] |
| Kipengele cha Nje cha Eneo | Kawaida nyingi | Tofauti ya msongamano dhidi ya majirani hugundua mambo ya ajabu ya eneo husika. [1] |
| Hitilafu ya ujenzi upya (km, mtindo wa kiencoder otomatiki) | Mifumo ya vipimo vya juu | Treni katika hali ya kawaida; makosa makubwa ya ujenzi yanaweza kuashiria kupotoka. [1] |
Nambari ya udanganyifu: anza na misingi imara + njia isiyo na usimamizi inayochosha, kisha ongeza ugumu pale tu inapolipa kodi.
Kitabu Kidogo cha Michezo: Kuanzia Zero hadi Arifa 🧭
-
Fafanua "ajabu" kiutendaji (ucheleweshaji, hatari ya ulaghai, uharibifu wa CPU, hatari ya hesabu).
-
Anza na msingi (takwimu imara au vizingiti vilivyogawanywa). [3]
-
Chagua modeli moja isiyosimamiwa kama njia ya kwanza ya kupitisha (Msitu wa Isolation / LOF / SVM ya Daraja Moja). [2]
-
Weka vizingiti kwa bajeti ya tahadhari , na tathmini kwa mawazo ya mtindo wa PR ikiwa chanya ni nadra. [4]
-
Ongeza maelezo + kumbukumbu ili kila tahadhari iweze kurudiwa na kutatuliwa. [5]
-
Jaribio la nyuma, safirisha, jifunze, rekebisha - kuteleza ni kawaida. [1]
Unaweza kufanya hivi ndani ya wiki moja… tukidhani alama zako za muda hazijashikiliwa pamoja na mkanda wa mfereji na matumaini. 😅
Hotuba za Mwisho - Ndefu Sana, Sikuisoma🧾
AI hugundua kasoro kwa kujifunza picha halisi ya "kawaida," kupata alama za kupotoka, na kuashiria kile kinachovuka kizingiti. Mifumo bora hushinda si kwa kuwa ya kuvutia, bali kwa kurekebishwa : misingi iliyogawanywa, bajeti za arifa, matokeo yanayoweza kutafsiriwa, na mzunguko wa maoni unaobadilisha kengele zenye kelele kuwa ishara inayoaminika. [1]
Marejeleo
-
Pimentel et al. (2014) - Mapitio ya ugunduzi wa vitu vipya (PDF, Chuo Kikuu cha Oxford) soma zaidi
-
Nyaraka za kujifunza scikit - Ugunduzi Mpya na wa Nje soma zaidi
-
Kitabu cha kielektroniki cha NIST/SEMATECH - Ugunduzi wa Vitu Visivyo vya Kawaida soma zaidi na NIST CSRC - SP 800-94 (Mwisho): Mwongozo wa Mifumo ya Kugundua na Kuzuia Uvamizi (IDPS) soma zaidi
-
Saito & Rehmsmeier (2015) - Kielelezo cha Kukumbuka kwa Usahihi Kinaelimisha Zaidi kuliko Kielelezo cha ROC Wakati wa Kutathmini Viainishi vya Binary kwenye Seti za Data Zisizo na Usawa (PLOS ONE) soma zaidi
-
Molnar - Kujifunza kwa Mashine Kuweza Kutafsiriwa (kitabu cha wavuti) soma zaidi