Tutorial

Klassifikaasje fan algoritmen foar masine-learen: Lineêre regression, klassifikaasje en klustering

Machine Learning hat grutte oerienkomsten mei wiskundige optimalisaasje, dy't metoaden, teoryen en domeinen foar tapassing leveret. 

Masine-learen wurdt formuleare as "minimisaasjeproblemen" fan in ferliesfunksje tsjin in gegeven set foarbylden (training set). Dizze funksje drukt de diskrepânsje út tusken de wearden foarsein troch it model dat wurdt traind en de ferwachte wearden foar elke eksimplaar fan foarbyld. 

It úteinlike doel is it model de mooglikheid te learen om korrekt te foarsizzen op in set eksimplaren dy't net oanwêzich binne yn 'e trainingsset.

In metoade wêrmei't it mooglik is om ferskate kategoryen fan algoritme te ûnderskieden is it type útfier dat ferwachte wurdt fan in bepaald systeem fan masine learen

Under de haadkategoryen fine wy:

  • La klassifikaasje: de ynputen binne ferdield yn twa of mear klassen en it learsysteem moat in model produsearje dat ien of meardere klassen kin tawize ûnder dyjingen dy't beskikber binne foar in ynfier.Dizze soarten taken wurde typysk oanpakt mei behearde leartechniken. 

    In foarbyld fan klassifikaasje is de tawizing fan ien of mear labels oan in ôfbylding basearre op de objekten of ûnderwerpen dêryn;

  • La regression: konseptueel gelyk oan klassifikaasje mei it ferskil dat de útfier in trochgeand en net-diskret domein hat.It wurdt typysk beheard mei begeliede learen. 

    In foarbyld fan regresje is de skatting fan 'e djipte fan in sêne út' e fertsjinwurdiging dêrfan yn 'e foarm fan in kleurôfbylding. 

    Yn feite is it domein fan 'e ynfierde kwestje frijwol ûneinich, en net beheind ta in bepaalde diskrete set mooglikheden;

  • Il klusterjen: wêr is it in set gegevens is ferdield yn groepen dy't lykwols, yn tsjinstelling ta de klassifikaasje, a priori net bekend binne.De heul aard fan 'e problemen dy't ta dizze kategory hearre, makket se typysk sûnder tafersjoch oer leartaken.
Ienfâldich lineêr regressionmodel

Lineêre regression is ambreed brûkt model dat brûkt wurdt om echte wearden te skatten, lykas:

  • kosten fan huzen,
  • oantal petearen,
  • totale ferkeap per persoan,

en folget it kritearium fan trochgeande fariabelen:

  • fjouwerkante meters,
  • abonnemint op in aktueel akkount,
  • oplieding fan 'e persoan

Yn lineêre regression wurdt in relaasje tusken ûnôfhinklike fariabelen en ôfhinklike fariabelen folge fia in line dy't normaal de relaasje tusken de twa fariabelen fertsjintwurdiget.

De fitline wurdt bekend as de regression line en wurdt fertsjintwurdige troch in lineêre fergeliking fan it type Y = a * X + b.

De formule is basearre op gegevens ynterpolearje om twa of mear skaaimerken mei elkoar te assosjearjen. As jo ​​it algoritme in ynfierkarakteristyk jouwe, jout de regresje de oare karakteristyk werom.

Meardere lineêre regresjemodel

As wy mear dan ien ûnôfhinklike fariabele hawwe, dan sprekke wy fan meardere lineêre regression, oannommen fan in model lykas it folgjende:


y=b0 + b1x1 + b2x2 +… + Bnxn

  • y is it antwurd op 'e wearden, dat is, it fertsjintwurdiget it resultaat dat is foarsizze troch it model;
  • b0 is de yntercept, dat is de wearde fan y as xi se binne allegear gelyk oan 0;
  • de earste karakteristyk b1 is de koëffisjint fan x1;
  • noch in oare funksje bn is de koëffisjint fan xn;
  • x1,x2,…, Xn binne de ûnôfhinklike fariabelen fan it model.

Yn prinsipe ferklearret de fergeliking de relaasje tusken in trochgeande ôfhinklike fariabele (y) en twa as mear ûnôfhinklike fariabelen (x1, x2, x3 ...). 

As wy bygelyks de CO2-útstjit fan in auto (de ôfhinklike fariabele y) wolle skatte, sjoen de motorkrêft, it oantal silinders en it brânstofferbrûk. Dizze lêste faktoaren binne de ûnôfhinklike fariabelen x1, x2 en x3. De konstanten bi binne reële getallen en wurde de skatte regressionskoeffisjinten fan it model neamd. Y is de trochgeande ôfhinklike fariabele, dat wol sizze de som fan b0, b1 x1, b2 x2, ensfh. y sil in echt getal wêze.

Meardere regressy-analyse is in metoade dy't brûkt wurdt om it effekt te identifisearjen dat ûnôfhinklike fariabelen hawwe op in ôfhinklike fariabele.

Begripen fan hoe't de ôfhinklike fariabele feroaret as de ûnôfhinklike fariabelen feroarje, kinne wy ​​de effekten of ynfloed fan feroaringen yn echte situaasjes foarsizze.

Mei help fan meardere lineêre regression is it mooglik te begripen hoe bloeddruk feroaret as de lichemsmassa-yndeks feroaret troch faktoaren lykas leeftyd, geslacht, ensfh te beskôgjen, sadat wy oannimme wat koe barre.

Mei meardere regression kinne wy ​​rûzingen krije oer priistrends, lykas de takomstige trend foar oalje of goud.

Uteinlik is meardere lineêre regression in gruttere belangstelling te finen op it mêd fan masine-learen en keunstmjittige yntelliginsje, om't it mooglik makket learende modellen te krijen, sels yn gefal fan in grut oantal records te analysearjen.

Logistysk regressionmodel

Logistyske regression is in statistysk ark dat as doel hat in binomiaal resultaat te modellen mei ien as mear ferklearjende fariabelen.

It wurdt algemien brûkt foar binêre problemen, wêr't d'r mar twa klassen binne, bygelyks Ja of Nee, 0 of 1, manlik as froulik ensfh ...

Op dizze manier is it mooglik de gegevens te beskriuwen en de relaasje te ferklearjen tusken in binêre ôfhinklike fariabele en ien of mear nominale as ordinale unôfhinklike fariabelen.

It resultaat wurdt bepaald troch it brûken fan in logistyske funksje, dy't in kâns skat en dan defieiniget de tichtste klasse (posityf of negatyf) oan de krigen kâns wearde.

Wy kinne logistyske regression beskôgje as in metoade foar klassifikaasje fan 'e famylje fan tafersjoch op learalgoritmen.

Mei help fan statistyske metoaden makket logistyske regression in resultaat te generearjen dat, yn feite, in kâns fertsjintwurdiget dat in opjûne ynfierwearde ta in bepaalde klasse heart.

Yn binomiale logistike regresjeproblemen sil de kâns dat de útfier ta de iene klasse heart P wêze, wylst dat ta de oare klasse 1-P heart (wêr P in getal is tusken 0 en 1 omdat it in kâns utdrukt).

De binomiale logistike regression wurket goed yn al dy gefallen wêryn de fariabele dy't wy besykje te foarsizzen binêr is, dat is, it kin allinich twa wearden oannimme: de wearde 1 dy't de positive klasse fertsjinwurdiget, of de wearde 0 dy't de negative klasse fertsjintwurdiget.

Foarbylden fan problemen dy't kinne wurde oplost troch logistyske regression binne:

  • in e-post is spam as net;
  • in online oankeap is frauduleus of net, evalueart de oankeapbetingsten;
  • in pasjint hat in fraktuer, evalueart syn radii.

Mei logistyske regression kinne wy ​​foarsizzende analyze dwaan, de relaasje mjitte tusken wat wy wolle foarsizze (ôfhinklike fariabele) en ien as mear ûnôfhinklike fariabelen, d.w.s. de skaaimerken. Skatting fan wierskynlikens wurdt dien fia in logistike funksje.

De kâns wurdt neitiid omfoarme ta binêre wearden, en om de foarsizzing reëel te meitsjen wurdt dit resultaat tawiisd oan 'e klasse wêr't it ta heart, basearre op of it tichtby de klasse sels is of net.

As de tapassing fan 'e logistike funksje bygelyks 0,85 werombringt, dan betsjuttet it dat de ynput in positive klasse generearre troch dizze ta te kennen oan klasse 1. Oarsom as it in wearde hie krigen lykas 0,4 of mear yn it algemien <0,5 ..

Ynnovaasje nijsbrief
Mis it wichtichste nijs oer ynnovaasje net. Meld jo oan om se fia e-post te ûntfangen.

Logistyske regression brûkt de logistike funksje om de klassifikaasje fan 'e ynfierwearden te evaluearjen.

De logistike funksje, ek wol sigmoid neamd, is in kromme dy't in oantal reële wearde kin nimme en dizze mappe nei in wearde tusken 0 en 1, útsein ekstremen. De funksje is:

wêr is it:

  • e: basis fan natuerlike logaritmen (Nûmer fan Euler, as excelfunksje exp ())
  • b0 + b1 * x: is de eigentlike numerike wearde dy't jo wolle transformearje.

Fertsjintwurdiging brûkt foar logistyske regression

Logistyske regression brûkt in fergeliking as fertsjintwurdiging, krekt as lineêre regression

De ynfierwearden (x) wurde lineêr kombineare mei gewichten as koeffizientwearden, om in útfierwearde (y) te foarsizzen. In kaai ferskil fan lineêre regression is dat de modeleare útfierwearde in binaire wearde is (0 of 1) ynstee fan in numerike wearde.

Hjir is in foarbyld fan in logistyske regresjegelyk:

y = e^(b0 + b1 * x) / (1 + e^(b0 + b1 * x))

Do:

  • y is de ôfhinklike fariabele, dat wol sizze de foarsizzende wearde;
  • b0 is de polarisaasje as ynterceptive term;
  • b1 is de koëffisjint foar de inkelde ynfierwearde (x).

Elke kolom yn 'e ynfiergegevens hat in assosjeare b-koëffisjint (in konstante echte wearde) dy't moat leard wurde fan' e trainingsgegevens.

De eigentlike fertsjinwurdiging fan it model dat jo yn it ûnthâld as in bestân sille opslaan binne de koeffizienten yn 'e fergeliking (de beta- as b-wearde).

Logistyske regression foarsizze kâns (technysk berik)

Logistyske regression modelt de kâns fan 'e standertklasse.

Litte wy as foarbyld nimme dat wy it geslacht fan minsken modellerje as manlik as froulik út har hichte, de earste klasse soe manlik wêze kinne, en it logistike regresjemodel koe wurde skreaun as de kâns dat manlik wurdt as in hichte fan in persoan, of mear. formeel:

P (seks = manlik | hichte)

Op in oare manier skreaun, modellearje wy de kâns dat in ynfier (X) heart ta de klasse predefinite (Y = 1), kinne wy ​​it skriuwe as:

P(X) = P(Y = 1 | X)

De kâns foarsizzing moat wurde omfoarme ta binêre wearden (0 of 1) om feitlik in kânsfoarsizzing te meitsjen.

Logistike regression is in lineêre metoade, mar foarsizzingen wurde omfoarme mei de logistike funksje. De ynfloed hjirfan is dat wy foarsizzingen net mear kinne begripe as in lineêre kombinaasje fan ynput, lykas wy kinne mei lineêre regression, bygelyks, trochgean fan boppen, kin it model útdrukt wurde as:

p(X) = e ^ (b0 + b1 * X) / (1 + e ^ (b0 + b1 * X))

No kinne wy ​​de fergeliking as folgjend omkeare. Om it werom te kearen, kinne wy ​​trochgean troch it e oan 'e iene kant te ferwiderjen troch in natuerlike logaritme oan' e oare kant ta te foegjen.

ln (p (X) / 1 - p (X)) = b0 + b1 * X

Op dizze manier krije wy it feit dat de berekkening fan 'e útfier nei rjochts wer linear is (krekt lykas lineêre regression), en de ynfier links is in logaritme fan' e kâns fan 'e standertklasse.

De kâns wurdt berekkene as in ferhâlding fan 'e kâns op it barren ferdield troch de kâns op gjin evenemint, bgl. 0,8 / (1-0,8) waans resultaat 4. Dat wy koenen ynstee skriuwe:

ln (kânsen) = b0 + b1 * X

Sûnt kâns wurde log-transformeare, neame wy dizze loftsidige log-odds as probit.

Wy kinne de eksponent nei rjochts werombringe en it skriuwe as:

kâns = e ^ (b0 + b1 * X)

Dit alles helpt ús om te begripen dat it model yndie noch in lineêre kombinaasje fan 'e ynputen is, mar dat dizze lineêre kombinaasje ferwiist nei de logkânsen fan 'e pre-klassedefinita.

Learje fan it logistyske regresjemodel

De koeffizienten (beta- as b-wearden) fan it logistike regresjealgoritme wurde yn 'e learfase rûsd. Om dit te meitsjen brûke wy maksimale skatting fan kâns.

Skatting fan maksimale kâns is in learalgoritme dat wurdt brûkt troch ferskate masine-learalgoritmen. De koeffizienten dy't ûntsteane út it model foarsizze in wearde hiel ticht by 1 (bgl. Male) foar de foarklassedefinite en in wearde hiel ticht by 0 (bgl. female ) foar de oare klasse. Maksimale kâns foar logistyske regression is in proseduere foar it finen fan wearden foar koeffizienten (Beta- as ob-wearden) dy't de flater yn 'e kânsen foarsein troch it model minimearje relatyf oan dy yn' e gegevens (bygelyks kâns 1 as de gegevens de primêre klasse binne) .

Wy sille in minimalisearingsalgoritme brûke om de bêste koeffizientwearden foar de trainingsgegevens te optimalisearjen. Dit wurdt faaks ymplementearre yn 'e praktyk mei in effisjint numeryk optimisaasjealgoritme.

Ercole Palmeri


Ynnovaasje nijsbrief
Mis it wichtichste nijs oer ynnovaasje net. Meld jo oan om se fia e-post te ûntfangen.

Recent articles

De takomst is hjir: hoe't de skipfeartsektor de wrâldekonomy revolúsjonearret

De marinesektor is in wiere wrâldwide ekonomyske macht, dy't navigearre is nei in merk fan 150 miljard ...

1 mei 2024

Utjouwers en OpenAI tekenje oerienkomsten om de stream fan ynformaasje te regeljen ferwurke troch Artificial Intelligence

Ofrûne moandei kundige de Financial Times in deal oan mei OpenAI. FT lisinsje har sjoernalistyk fan wrâldklasse ...

30 april 2024

Online betellingen: Hjir is hoe streamingtsjinsten jo foar altyd betelje

Miljoenen minsken betelje foar streamingtsjinsten, beteljen moanlikse abonnemintskosten. It is gewoane miening dat jo ...

29 april 2024

Veeam hat de meast wiidweidige stipe foar ransomware, fan beskerming oant antwurd en herstel

Coveware troch Veeam sil trochgean mei it leverjen fan antwurdtsjinsten foar cyberafpersing ynsidint. Coveware sil forensyske en sanearjen mooglikheden oanbiede ...

23 april 2024