tutorial

Klasipikasyon sa Mga Algorithma sa Pagkat-on sa Machine: Pag-ikog sa Pagkaguba, Pagklasipikar ug Pag-kumpol

Ang Pagkat-on sa Machine adunay daghang kaamgohan sa pag-optimize sa matematika, nga naghatag mga pamaagi, teorya ug mga domain nga aplikasyon. 

Ang pagkat-on sa makina giporma ingon nga "mga problema sa pagkunhod" sa usa ka pagkawala sa gimbuhaton batok sa usa ka gihatag nga hugpong sa mga pananglitan (set sa pagbansay). Ang kini nga bahin nagpahayag sa pagkabahinbahin tali sa mga kantidad nga gitagna sa modelo nga gibansay ug ang gipaabut nga mga kantidad sa matag panig-ingnan nga panig-ingnan. 

Ang labing katapusang katuyoan mao ang pagtudlo sa modelo sa kaarang sa pagtagna sa husto sa usa ka hugna nga mga higayon nga wala diha sa set sa paghanas.

Ang usa ka pamaagi sumala sa diin posible nga mailhan ang lainlaing mga kategorya sa algorithm mao ang tipo sa output nga gipaabut gikan sa usa ka piho nga sistema sa. pagkat-on sa makina

Lakip sa mga nag-unang mga kategorya nga atong nahibal-an:

  • La klasipikasyon: ang mga pag-input gibahin sa duha o daghan pa nga mga klase ug ang sistema sa pagkat-on kinahanglan maghimo usa ka modelo nga makahimo sa pag-assign sa usa o daghan pang mga klase sa mga magamit sa usa ka input.Kini nga mga matang sa mga buluhaton kasagaran nga gitumong gamit ang mga pamaagi sa pagkat-on nga gidumala. 

    Usa ka pananglitan sa pagklasipikar mao ang buluhaton sa usa o daghan pang mga label sa usa ka imahe nga gipasukad sa mga butang o hilisgutan nga adunay sulud niini;

  • La pagkahuman: parehas nga parehas sa klasipikasyon sa kalainan nga ang output adunay usa ka makanunayon ug dili pagpihig nga domain.Kasagaran kini gidumala uban sa pagdumala nga pagkat-on. 

    Usa ka ehemplo sa pagkalipay mao ang pagbanabana sa giladmon sa usa ka talan-awon gikan sa kini nga representasyon sa porma sa usa ka kolor nga imahe. 

    Sa tinuud, ang domain sa output nga gikuwestiyon halos wala’y katapusan, ug dili limitado sa usa ka piho nga hugpong nga posibilidad;

  • Il Clustering: asa mana usa ka hugpong sa datos gibahin sa mga grupo nga, bisan pa, dili sama sa pag-uuri, wala mailhi usa ka prioriya.Ang kinaiyahan sa mga problema nga nahisakop sa kini nga kategorya kasagaran naghimo kanila nga dili mabantay nga mga buluhaton sa pagkat-on.
Yano nga linear regression nga modelo

Ang linear regression mao angkaylap nga gigamit nga modelo aron mabantalaan ang tinuud nga mga hiyas sama sa:

  • gasto sa mga balay,
  • gidaghanon sa mga tawag,
  • total nga pagbaligya matag tawo,

ug nagsunod sa kriter sa padayon nga mga variable:

  • Metro kwadrado,
  • suskrisyon sa us aka us aka account,
  • edukasyon sa tawo

Sa linear nga regression, ang usa ka relasyon tali sa mga independente nga variable ug mga dependencies variable nga gisundan pinaagi sa usa ka linya nga kasagaran nagrepresentar sa relasyon tali sa duha nga mga variable.

Ang angay nga linya nailhan nga linya sa regression ug girepresentahan sa usa ka linear equation sa type Y = a * X + b.

Ang pormula gibase sa interpolating data aron maiuugnay ang duha o daghan pa nga mga kinaiya sa usag usa. Kung gihatagan nimo ang algorithm usa ka kinaiyahan sa input, ang regression nagbalik sa ubang kinaiya.

Daghang modelo sa linear regression

Kung kita adunay labaw pa sa usa nga independente nga variable, nan nagsulti kami sa daghang mga linear regression, nga naghunahuna nga usa ka modelo sama sa mosunod:


y=b0 + b1x1 + b2x2 +… + Bnxn

  • y mao ang tubag sa mga kantidad, ie kini nagrepresentar sa resulta nga gitagna sa modelo;
  • b0 mao ang intercept, kana ang kantidad sa y kung xi parehas silang tanan sa 0;
  • ang una nga kinaiya b1 ang koepisyente sa x1;
  • bisan pa usa ka bahin nga bn ang koepisyente sa xn;
  • x1,x2, ..., Xn ang mga independente nga variable sa modelo.

Kasagaran ang ekwasyon nagpatin-aw sa relasyon tali sa usa ka padayon nga nagsalig nga variable (y) ug duha o labaw pa nga independensya nga variable (x1, x2, x3…). 

Pananglitan, kung gusto namon nga banabanaon ang pagpagawas sa CO2 sa usa ka awto (pagsalig variable y) nga gikonsiderar ang kusog sa makina, ang gidaghanon sa mga cylinders ug ang konsumo sa gasolina. Kini nga mga hinungdan nga hinungdan mao ang mga independente nga variable x1, x2 ug x3. Ang mga constant bi mga tinuud nga numero ug gitawag nga gibanabana nga coefficient sa pagkabalanse sa modelo.Y mao ang padayon nga pagsalig nga variable, i.e. nga ang kantidad sa b0, b1 x1, b2 x2, etc. y mahimong tinuud nga numero.

Ang ubay-ubay nga pagsusi sa regression usa ka pamaagi nga gigamit aron mahibal-an ang epekto nga adunay independensya nga mga variable sa usa ka dependant variable.

Ang nahibal-an kung giunsa ang pagbag-o nga pagbag-o nga pagbag-o ingon ang pagbag-o nga independensya nga variable nagtugot kanato sa pagtagna sa mga epekto o epekto sa mga pagbag-o sa tinuod nga mga kahimtang.

Gamit ang daghang linear regression posible nga mahibal-an kung giunsa ang pagbag-o sa presyon sa dugo sama sa pagbag-o sa index sa lawas sa lawas nga gikonsiderar ang mga hinungdan sama sa edad, sekso, ug uban pa, sa ingon naghunahuna kung unsa ang mahimo nga mahitabo.

Uban sa daghang pagpasig-uli mahimo’g makuha ang mga gibanabana sa mga uso sa presyo, sama sa umaabot nga dagan sa lana o bulawan.

Sa katapusan, daghang mga linear regression ang nakakaplag labi ka interes sa natad sa pagkat-on sa makina ug artipisyal nga paniktik tungod kay gitugotan niini ang pagkuha sa mga modelo sa pagkat-on bisan pa sa kaso sa daghang mga rekord nga pag-analisar.

Model sa Logistic Regression

Ang logistic regression usa ka himan sa estadistika nga nagtumong sa pag-modelo sa usa ka binomial nga resulta nga adunay usa o daghan pa nga nagpatin-aw nga mga variable.

Kasagaran kini gigamit alang sa mga problema sa binary, diin adunay duha ra nga klase, pananglitan Oo o Dili, 0 o 1, lalaki o babaye ug uban pa ...

Sa kini nga paagi posible nga ihulagway ang mga datos ug ipasabut ang relasyon tali sa usa ka variable nga nagsalig sa binary ug usa o daghan nga independente nga mga variable sa nominal o ordinal.

Ang resulta determinado salamat sa paggamit sa usa ka logistic function, nga nagbanabana sa usa ka kalagmitan ug unya definagtapos sa labing duol nga klase (positibo o negatibo) sa nakuha nga kantidad sa kalagmitan.

Mahimo naton isipon ang logistic regression ingon usa ka pamaagi sa pagklasipikar sa pamilya ni nagdumala nga mga algorithm sa pagkat-on.

Gamit ang mga pamaagi sa estadistika, ang pagtugot sa logistic nagtugot sa paghimo og usa ka resulta diin, sa tinuud, nagrepresentar sa usa ka posibilidad nga ang usa ka gihatag nga kantidad sa input nahisakop sa usa ka gihatag nga klase.

Sa mga problema sa reserbasyon sa logom sa binomial, ang posibilidad nga ang output naapil sa usa ka klase nga P, samtang kini sakop sa ubang klase nga 1-P (kung diin ang P usa ka numero tali sa 0 ug 1 tungod kay nagpahayag kini usa ka posibilidad).

Ang binomial logistic regression maayo kaayo sa tanan nga mga kaso diin ang variable nga atong gisulayan nga gitagna mao ang binary, nga mao, mahimo’g duha ra ang makuhaan: ang kantidad 1 nga nagrepresentar sa positibo nga klase, o ang kantidad 0 nga nagrepresentar sa negatibo nga klase.

Ang mga ehemplo sa mga problema nga masulbad pinaagi sa logistic regression mao ang:

  • ang usa ka e-mail mao ang spam o dili;
  • ang usa ka online nga pagpalit bakak o dili, pagtimbang-timbang sa mga kondisyon sa pagpalit;
  • ang usa ka pasyente adunay bali pinaagi sa pagtimbang-timbang sa radii.

Sa pag-reperensya sa lohikal nga mahimo naton mahibal-an nga pagtuki, pagsukod sa relasyon tali sa gusto naton matagna (pagsalig nga variable) ug usa o daghan nga independente nga mga variable, mga kinaiya sa i.e. Ang pagbanabana sa posibilidad nahimo pinaagi sa usa ka paglihok sa logistic.

Ang mga sangputanan sa ulahi gibag-o ngadto sa mga kantidad sa binary, ug aron mahimo nga katinuod ang forecast, ang sangputanan gihatagan sa klase nga nahisakop niini, pinasukad sa kung kini ba hapit sa klase mismo.

Pananglitan, kung ang aplikasyon sa pag-andar sa logistic mobalik sa 0,85, nan kini gipasabut nga ang pag-input nakahatag usa ka positibo nga klase pinaagi sa paghatag niini sa klase 1. Sa baylo kung nakakuha kini usa ka kantidad sama sa 0,4 o labi pa sa kinatibuk-an nga <0,5 ..

newsletter sa kabag-ohan
Ayaw kalimti ang labing hinungdanon nga balita sa kabag-ohan. Pag-sign up aron madawat sila pinaagi sa email.

Ang logistic nga regression gigamit ang logistic function aron masuta ang klasipikasyon sa mga kantidad sa input.

Ang function sa logistic, nga gitawag usab sigmoid, usa ka kurba nga makahimo sa pagkuha sa bisan unsang gidaghanon sa tinuud nga kantidad ug pag-mapa sa usa ka kantidad tali sa 0 ug 1, wala’y labut sa mga grabe. Ang function mao:

asa na:

  • e: base sa natural nga logarithms (numero sa Euler, o excel function exp ())
  • b0 + b1 * x: ang tinuud nga kantidad sa numero nga gusto nimong usbon.

Ang representasyon nga gigamit alang sa reperensya sa logistic

Ang logistic nga regression gigamit ang usa ka equation ingon usa ka representasyon, sama sa linear regression

Ang mga kantidad sa input (x) magkahiusa nga gihiusa gamit ang mga gibug-aton o koepisyente nga mga kantidad, aron makatagna sa usa ka kantidad sa output (y). Ang usa ka hinungdanon nga kalainan gikan sa linear regression mao nga ang modelo nga output nga kantidad usa ka binulan nga kantidad (0 o 1) kaysa usa ka numero sa numero.

Ania ang usa ka panig-ingnan sa usa ka sulud sa pagkabahinbahin sa logistic:

y = e^(b0 + b1 * x) / (1 + e^(b0 + b1 * x))

Dove:

  • y mao ang nagsalig nga variable, i.e. ang gitagna nga kantidad;
  • Ang b0 mao ang polariseysyon o intercept term;
  • Ang b1 mao ang koepisyent alang sa us aka bili nga input (x).

Ang matag kolum sa data sa pag-input adunay kaakibat nga koepisyent (usa ka makanunayon nga tinuud nga bili) nga kinahanglan mahibal-an gikan sa data sa pagbansay.

Ang tinuud nga representasyon sa modelo nga imong ibutang sa panumduman o sa usa ka file mao ang mga koepisyente sa ekwasyon (ang beta o bili sa bili).

Ang logistic nga regression nagtagna sa mga probabilidad (teknikal nga hanay)

Ang mga modelo nga regression sa logistic ang posibilidad sa default nga klase.

Ingon usa ka pananglitan, hunahunaon naton nga kita adunay modelo sa sex sa mga tawo ingon lalaki o babaye gikan sa ilang gitas-on, ang una nga klase mahimong lalaki, ug ang modelo sa logistic nga regression mahimong isulat ingon nga posibilidad nga mahimong lalaki nga gihatagan ang gitas-on sa usa ka tawo, o daghan pa. pormal:

P (sex = lalaki | taas)

Gisulat sa laing paagi, kita nagmodelo sa kalagmitan nga ang usa ka input (X) iya sa klase predefinite (Y = 1), mahimo natong isulat kini nga:

P(X) = P(Y = 1 | X)

Ang kalagmitan sa panagna kinahanglan nga mausab ngadto sa mga bili nga binili (0 o 1) aron sa tinuud makahimo sa usa ka posibilidad nga panagna.

Ang logistic regression usa ka linear nga pamaagi, apan ang mga panagna gibag-o gamit ang logistic function. Ang epekto niini mao nga dili na naton mahangpan ang mga panagna ingon usa ka linear nga kombinasyon sa mga inputs sama sa atong mahimo sa linear regression, pananglitan, nagpadayon gikan sa itaas, ang modelo mahimong ipahayag ingon:

p(X) = e ^ (b0 + b1 * X) / (1 + e ^ (b0 + b1 * X))

Karon mahimo naton balihon ang ekwasyon sama sa mga musunud. Aron mabalik kini mahimo naton nga magpadayon pinaagi sa pagtangtang sa e sa usa ka bahin pinaagi sa pagdugang sa usa ka natural nga logarithm sa pikas nga daplin.

ln (p (X) / 1 - p (X)) = b0 + b1 * X

Niini nga paagi nakuha naton ang kamatuoran nga ang pagtandi sa output sa tuo mao usab ang linear (sama sa linear regression), ug ang input sa wala usa ka logarithm sa posibilidad sa default nga klase.

Ang mga posibilidad gikalkulo ingon usa ka ratio sa kalagmitan sa panghitabo nga gibahin sa kalagmitan nga wala’y panghitabo, e.g. 0,8 / (1-0,8) kansang resulta mao ang 4. Mao nga mahimo naton isulat:

ln (mga odds) = b0 + b1 * X

Tungod kay ang mga probabilidad nausab nga pag-usab, gitawag namon kini sa wala nga bahin nga log-odds o probit.

Mahimo naton ibalik ang exponent sa tuo ug isulat kini sama sa:

kalagmitan = e ^ (b0 + b1 * X)

Kining tanan makatabang kanato nga masabtan nga sa pagkatinuod ang modelo usa gihapon ka linear nga kombinasyon sa mga input, apan kini nga linear nga kombinasyon nagtumong sa log probabilities sa pre class.definita.

Pagkat-on nga modelo sa logistic regression

Ang mga coefficients (beta o b mga kantidad) sa logistic regression algorithm gibanabana sa yugto sa pagkat-on. Aron mahimo kini, gigamit namon ang labing kadako nga pagtantiya.

Ang labing taas nga banabana sa posibilidad usa ka algorithm sa pagkat-on nga gigamit sa daghang mga algorithm sa pagkat-on sa makina. Ang mga coefficient nga resulta sa modelo nagtagna sa usa ka bili nga duol kaayo sa 1 (pananglitan lalaki) alang sa pre-school nga klasedefinite ug usa ka bili nga duol kaayo sa 0 (e.g. babaye) para sa laing klase. Ang labing taas nga posibilidad alang sa logistic regression usa ka pamaagi sa pagpangita sa mga kantidad alang sa mga coefficients (Beta o ob values) nga nagpamenos sa sayup sa mga probabilities nga gitagna sa modelo nga may kalabotan sa mga naa sa datos (eg probability 1 kung ang datos mao ang panguna nga klase) .

Gamiton namon ang usa ka minimization algorithm aron ma-optimize ang labing kaayo nga mga bili sa koepisyent alang sa data sa pagbansay. Kanunay kini gipatuman sa praktis gamit ang usa ka hapsay nga numerical optimization algorithm.

Ercole Palmeri


newsletter sa kabag-ohan
Ayaw kalimti ang labing hinungdanon nga balita sa kabag-ohan. Pag-sign up aron madawat sila pinaagi sa email.

Bag-ong mga artikulo

Gipakita sa Veeam ang labing komprehensibo nga suporta alang sa ransomware, gikan sa proteksyon hangtod sa pagtubag ug pagbawi

Ang Coveware ni Veeam magpadayon sa paghatag serbisyo sa pagtubag sa insidente sa cyber extortion. Magtanyag ang Coveware og mga kapabilidad sa forensics ug remediation…

23 Abril 2024

Green ug Digital nga Rebolusyon: Giunsa Pagbag-o sa Pagmentinar sa Pagtagna ang Industriya sa Langis ug Gas

Ang prediktibo nga pagmentinar nagbag-o sa sektor sa lana ug gas, nga adunay usa ka bag-o ug aktibo nga pamaagi sa pagdumala sa tanum.…

22 Abril 2024

Ang regulator sa antitrust sa UK nagpataas sa alarma sa BigTech sa GenAI

Ang UK CMA nagpagula usa ka pasidaan bahin sa pamatasan sa Big Tech sa merkado sa artipisyal nga paniktik. didto…

18 Abril 2024

Casa Green: rebolusyon sa enerhiya alang sa malungtarong kaugmaon sa Italya

Ang "Green Houses" Decree, nga gimugna sa European Union aron mapalambo ang energy efficiency sa mga bilding, nagtapos sa proseso sa lehislatibo niini sa…

18 Abril 2024