juhendaja

Masinõppe algoritmide klassifitseerimine: lineaarne regressioon, klassifitseerimine ja klasterdamine

Masinõppel on palju sarnasusi matemaatilise optimeerimisega, mis pakub meetodeid, teooriaid ja rakenduse domeene.

Masinõpe on sõnastatud kui kaotusfunktsiooni "minimeerimisprobleemid" antud näidete komplekti (koolituskomplekti) suhtes. See funktsioon väljendab erinevust koolitatava mudeli ennustatud väärtuste ja iga näiteootuse eeldatavate väärtuste vahel.

Lõppeesmärk on õpetada mudelile võimet ennustada õigesti eksemplare, mis treeningkomplektis puuduvad.

Meetod, mille järgi on võimalik eristada erinevaid algoritmide kategooriaid, on väljundi tüüp, mida teatud süsteemilt oodatakse. masinõpe.

Peamiste kategooriate hulgast leiame:

La klassifikatsioon: sisendid jagunevad kaheks või enamaks klassiks ja õppesüsteem peab looma mudeli, mille abil saab sisendiks saadaolevate klasside vahel määrata ühe või mitu klassi.Seda tüüpi ülesannetega tegeletakse tavaliselt juhendatud õppetehnikate abil.
Klassifikatsiooni näide on ühe või mitme sildi omistamine pildile, mis põhineb sellel sisalduvatel objektidel või objektidel;
La regressioon: kontseptuaalselt sarnane klassifitseerimisega selle erinevusega, et väljundil on pidev ja mittediskreetne domeen.Tavaliselt juhitakse seda juhendatud õppega.
Regressiooni näide on stseeni sügavuse hindamine selle kujutise põhjal värvipildi kujul.

Tegelikult on vaadeldava väljundi valdkond praktiliselt lõpmatu ega piirdu teatud diskreetsete võimaluste kogumiga;
Il Klastrite loomine: kus see on Andmekogum jagatakse rühmadesse, mida erinevalt klassifikatsioonist aga a priori ei teata.Sellesse kategooriasse kuuluvate probleemide olemus muudab nad tavaliselt juhendamata õppeülesanneteks.

Lihtne lineaarse regressiooni mudel

Lineaarne regressioon on amlaialdaselt kasutatav mudel, mida kasutatakse tegelike väärtuste hindamiseks, näiteks:

majade maksumus,
kõnede arv,
kogumüük inimese kohta,

ja järgib pidevate muutujate kriteeriumi:

ruutmeetrit,
arvelduskonto tellimine,
inimese haridus

Lineaarse regressiooni korral järgitakse suhet sõltumatute ja sõltuvate muutujate vahel läbi joone, mis tavaliselt tähistab kahe muutuja vahelist suhet.

Sobivat joont nimetatakse regressioonisirgeks ja seda esindab tüüpi Y = a * X + b lineaarvõrrand.

Valem põhineb andmete interpoleerimisel, et seostada omavahel kaks või enam tunnust. Kui annate algoritmile sisendkarakteristiku, tagastab regressioon teise tunnuse.

Mitme lineaarse regressiooni mudel

Kui meil on rohkem kui üks sõltumatu muutuja, siis räägime mitmest lineaarsest regressioonist, eeldades järgmist mudelit:

y=b₀ + b₁x₁ + b₂x₂ +… + B_nx_n

y on vastus väärtustele, st see tähistab mudeli ennustatud tulemust
b₀ on pealtkuulamine, st y väärtus, kui x on_inad kõik on võrdsed 0-ga;
esimene tunnusjoon b₁ on x koefitsient₁;
veel üks omadus b_n on x koefitsient_n;
x₁,x₂,…, X_n on mudeli sõltumatud muutujad.

Põhimõtteliselt selgitab võrrand seost pideva sõltuva muutuja (y) ja kahe või enama sõltumatu muutuja (x1, x2, x3…) vahel.

Näiteks kui tahaksime hinnata auto süsinikdioksiidi emissiooni (sõltuv muutuja y), võttes arvesse mootori võimsust, silindrite arvu ja kütusekulu. Need viimased tegurid on sõltumatud muutujad x2, x1 ja x2. Konstandid bi on reaalarvud ja neid nimetatakse mudeli hinnangulisteks regressioonikoefitsientideks.Y on pidev sõltuv muutuja, st on b3, b0 x1, b1 x2 jne summa. y on reaalarv.

Mitme regressioonanalüüsi abil saab tuvastada sõltumatute muutujate mõju sõltuvale muutujale.

Mõistmine, kuidas sõltuv muutuja muutub sõltumatute muutujatena, võimaldab meil ennustada muutuste mõjusid või mõjusid tegelikes olukordades.

Mitme lineaarse regressiooni abil on võimalik mõista, kuidas vererõhk muutub kehamassiindeksi muutumisel, võttes arvesse selliseid tegureid nagu vanus, sugu jne, eeldades seega, mis võib juhtuda.

Mitme regressiooni korral võime saada hinnanguid hinnasuundumuste kohta, näiteks nafta või kulla tuleviku trendid.

Lõpuks on mitmekordne lineaarne regressioon suurenenud huvi masinõppe ja tehisintellekti vastu, kuna see võimaldab saada toimivaid õpimudeleid isegi suure hulga analüüsitavate kirjete korral.

Logistiline regressioonimudel

Logistiline regressioon on statistiline tööriist, mille eesmärk on modelleerida binoomitulem ühe või mitme selgitava muutujaga.

Seda kasutatakse tavaliselt binaarsete probleemide korral, kus on ainult kaks klassi, näiteks jah või ei, 0 või 1, mees või naine jne ...

Sel viisil on võimalik andmeid kirjeldada ja selgitada seost binaarse sõltuva muutuja ja ühe või mitme nominaalse või ordinaalse sõltumatu muutuja vahel.

Tulemus määratakse tänu logistilise funktsiooni kasutamisele, mis hindab tõenäosust ja seejärel defilõpetab saadud tõenäosusväärtusele lähima klassi (positiivne või negatiivne).

Logistlikku regressiooni saame pidada perekonna klassifitseerimise meetodiks juhendatud õppe algoritmid.

Statistilisi meetodeid kasutades võimaldab logistiline regressioon luua tulemuse, mis tegelikult kujutab tõenäosust, et antud sisendväärtus kuulub antud klassi.

Binoomsete logistiliste regressiooniprobleemide korral on tõenäosus, et väljund kuulub ühte klassi, P, samas kui see kuulub teise klassi 1-P (kus P on arv vahemikus 0 kuni 1, kuna see väljendab tõenäosust).

Binoomiline logistiline regressioon töötab hästi kõigil neil juhtudel, kui muutuja, mida proovime ennustada, on binaarne, see tähendab, et see võib eeldada ainult kahte väärtust: väärtus 1, mis tähistab positiivset klassi, või väärtus 0, mis tähistab negatiivset klassi.

Näited probleemidest, mida saab lahendada logistilise regressiooniga:

e-post on rämpspost või mitte;
veebipõhine ost on petlik või mitte, hinnates ostutingimusi;
patsiendil on luumurd, hinnates selle raadiusi.

Logistilise regressiooni abil saame teha ennustavat analüüsi, mõõtes seost ennustatava (sõltuva muutuja) ja ühe või mitme sõltumatu muutuja, st karakteristikute vahel. Tõenäosuse hindamine toimub logistilise funktsiooni kaudu.

Seejärel teisendatakse tõenäosused binaarseteks väärtusteks ja ennustuse tegelikuks muutmiseks omistatakse see tulemus klassile, kuhu ta kuulub, lähtudes sellest, kas see on klassi enda lähedal või mitte.

Näiteks kui logistilise funktsiooni rakendamine tagastab 0,85, tähendab see, et sisend on loonud positiivse klassi, määrates selle klassile 1. Vastupidi, kui see oleks saanud sellise väärtuse nagu 0,4 või üldisemalt <0,5 ..

Logistiline regressioon kasutab sisendväärtuste klassifikatsiooni hindamiseks logistilist funktsiooni.

Logistiline funktsioon, mida nimetatakse ka sigmoidiks, on kõver, mis suudab võtta suvalise arvu tegelikke väärtusi ja kaardistada see väärtuseks vahemikus 0 kuni 1, välja arvatud äärmused. Funktsioon on:

kus see on:

e: naturaalsete logaritmide baas (Euleri arv või exceli funktsioon exp ())
b0 + b1 * x: on tegelik arvväärtus, mida soovite teisendada.

Esitus, mida kasutatakse logistiliseks regressiooniks

Logistiline regressioon kasutab võrrandit esitusena, sarnaselt lineaarse regressiooniga

Sisendväärtused (x) ühendatakse lineaarselt, kasutades kaalu või koefitsientide väärtusi, et prognoosida väljundväärtust (y). Oluline erinevus lineaarsest regressioonist on see, et modelleeritud väljundväärtus on arvväärtuse asemel kahendväärtus (0 või 1).

Allpool on näide logistilise regressioonivõrrandist:

y = e^(b0 + b1 * x) / (1 + e^(b0 + b1 * x))

Tuvi:

y on sõltuv muutuja, st ennustatud väärtus;
b0 on polarisatsiooni- või pealtkuulamistermin;
b1 on ühe sisendväärtuse (x) koefitsient.

Igal sisendandmete veerul on seotud b-koefitsient (püsiv tegelik väärtus), mida tuleb koolitusandmetest õppida.

Selle mudeli tegelik esitus, mida soovite mällu või faili salvestada, on võrrandi koefitsiendid (beeta- või b-väärtus).

Logistiline regressioon ennustab tõenäosusi (tehniline ulatus)

Logistiline regressioon modelleerib vaikeklassi tõenäosust.

Oletame näiteks, et modelleerime inimeste sugu mees- või naissoost nende kõrguse järgi, esimene klass võiks olla mees ja logistiline regressioonimudel võiks olla kirjutatud kui tõenäosus, et mees on mees, arvestades inimese pikkust või rohkem. ametlikult:

P (sugu = mees | pikkus)

Teistmoodi kirjutatuna modelleerime tõenäosust, et sisend (X) kuulub klassi predefinite (Y = 1), saame selle kirjutada järgmiselt:

P(X) = P(Y = 1 | X)

Tõenäosuse ennustus tuleb teisendada binaarseteks väärtusteks (0 või 1), et tõenäosuse ennustust tegelikult teha.

Logistiline regressioon on lineaarne meetod, kuid ennustusi teisendatakse logistilist funktsiooni kasutades. Selle tagajärg on see, et me ei saa enam mõista ennustusi kui sisendite lineaarset kombinatsiooni, näiteks lineaarse regressiooniga, näiteks ülalt jätkates võib mudelit väljendada järgmiselt:

p(X) = e ^ (b0 + b1 * X) / (1 + e ^ (b0 + b1 * X))

Nüüd saame võrrandi ümber pöörata järgmiselt. Selle tagasipööramiseks võime eemaldada ühelt küljelt e, lisades teisele küljele naturaalse logaritmi.

ln (p (X) / 1 - p (X)) = b0 + b1 * X

Sel viisil saame tõsiasja, et paremal asuva väljundi arvutamine on jälle lineaarne (nagu ka lineaarne regressioon) ja vasakpoolsel sisendil on vaikeklassi tõenäosuse logaritm.

Tõenäosused arvutatakse sündmuse tõenäosuse suhtena jagatud sündmuse puudumise tõenäosusega, nt. 0,8 / (1-0,8), mille tulemus on 4. Seega võiksime selle asemel kirjutada:

ln (koefitsient) = b0 + b1 * X

Kuna tõenäosused on log-teisendatud, nimetatakse seda vasakpoolseks log-koefitsiendiks või probitiks.

Võime eksponendi paremale tagasi saata ja kirjutada järgmiselt:

tõenäosus = e ^ (b0 + b1 * X)

Kõik see aitab meil mõista, et mudel on tõepoolest ikkagi sisendite lineaarne kombinatsioon, kuid see lineaarne kombinatsioon viitab eelklassi logaritmilistele tõenäosustele.definita.

Logistilise regressioonimudeli õppimine

Logistilise regressiooni algoritmi koefitsiente (beeta- või b-väärtusi) hinnatakse õppefaasis. Selleks kasutame maksimaalse tõenäosuse hindamist.

Maksimaalse tõenäosuse hinnang on õppimisalgoritm, mida kasutavad mitmed masinõppealgoritmid. Mudelist tulenevad koefitsiendid ennustavad eelklassi jaoks 1-le väga lähedast väärtust (nt meessoost).definite ja 0-le väga lähedane väärtus (nt naissoost) teise klassi jaoks. Logistilise regressiooni maksimaalne tõenäosus on protseduur koefitsientide (beeta- või ob-väärtuste) väärtuste leidmiseks, mis minimeerivad mudeli ennustatud tõenäosuste vea võrreldes andmetes leiduvate tõenäosustega (nt tõenäosus 1, kui andmed on põhiklass). .

Treeningandmete parimate koefitsientide väärtuste optimeerimiseks kasutame minimeerimise algoritmi. Seda rakendatakse praktikas sageli tõhusa arvulise optimeerimise algoritmi abil.

Ercole Palmeri