tutorial

Clasificarea algoritmilor de învățare a mașinilor: regresie liniară, clasificare și grupare

Învățarea automată are asemănări deosebite cu optimizarea matematică, care oferă metode, teorii și domenii de aplicare. 

Învățarea automată este formulată ca „probleme de minimizare” a unei funcții de pierdere față de un set dat de exemple (set de instruire). Această caracteristică exprimă discrepanța dintre valorile preconizate de modelul instruit și valorile așteptate pentru fiecare exemplu de exemplu. 

Scopul final este de a învăța modelul capacitatea de a prezice corect pe un set de cazuri care nu sunt prezente în setul de antrenament.

O metodă conform căreia este posibil să se distingă diferite categorii de algoritm este tipul de ieșire așteptat de la un anumit sistem de masina de învățare

Printre principalele categorii regăsim:

  • La clasificare: intrările sunt împărțite în două sau mai multe clase, iar sistemul de învățare trebuie să producă un model capabil să atribuie una sau mai multe clase dintre cele disponibile pentru o intrare.Aceste tipuri de sarcini sunt de obicei abordate folosind tehnici de învățare supravegheată. 

    Un exemplu de clasificare este alocarea uneia sau a mai multor etichete unei imagini bazate pe obiectele sau subiectele conținute în ea;

  • La regresiune: conceptual similar cu clasificarea cu diferența că ieșirea are un domeniu continuu și nediscret.De obicei este gestionat cu învățare supravegheată. 

    Un exemplu de regresie este estimarea profunzimii unei scene din reprezentarea ei sub forma unei imagini color. 

    De fapt, domeniul de ieșire în cauză este practic infinit și nu se limitează la un anumit set de posibilități discrete;

  • Il clustering: unde este un set de date este împărțit în grupuri care, spre deosebire de clasificare, nu sunt cunoscute a priori.Însăși natura problemelor aparținând acestei categorii le face de obicei sarcini de învățare nesupervizate.
Model de regresie liniară simplă

Regresia liniară este ammodel utilizat pe scară largă, utilizat pentru estimarea valorilor reale, precum:

  • costul caselor,
  • numărul de apeluri,
  • vânzări totale de persoană,

și respectă criteriul variabilelor continue:

  • metri patrati,
  • abonament la un cont curent,
  • educarea persoanei

În regresia liniară, o relație între variabilele independente și variabilele dependente este urmată printr-o linie care de obicei reprezintă relația dintre cele două variabile.

Linia de potrivire este cunoscută sub numele de linia de regresie și este reprezentată de o ecuație liniară de tipul Y = a * X + b.

Formula se bazează pe interpolarea datelor pentru a asocia două sau mai multe caracteristici între ele. Când oferiți algoritmului o caracteristică de intrare, regresia returnează cealaltă caracteristică.

Model de regresie liniară multiplă

Când avem mai multe variabile independente, atunci vorbim de regresie liniară multiplă, presupunând un model precum următorul:


y=b0 + B1x1 + B2x2 +… + Bnxn

  • y este răspunsul la valori, adică reprezintă rezultatul prevăzut de model;
  • b0 este interceptul, adică valoarea lui y când xi toți sunt egali cu 0;
  • prima caracteristică b1 este coeficientul de x1;
  • încă o caracteristică bn este coeficientul de xn;
  • x1,x2,…, Xn sunt variabilele independente ale modelului.

Practic, ecuația explică relația dintre o variabilă dependentă continuă (y) și două sau mai multe variabile independente (x1, x2, x3 ...). 

De exemplu, dacă am dorit să estimăm emisia de CO2 a unei mașini (variabila y dependentă), luând în considerare puterea motorului, numărul de cilindri și consumul de combustibil. Acești din urmă factori sunt variabilele independente x1, x2 și x3. Constanțele bi sunt numere reale și se numesc coeficienții de regresie estimat ai modelului. Y este variabila dependentă continuă, adică fiind suma lui b0, b1 x1, b2 x2 etc. y va fi un număr real.

Analiza regresiei multiple este o metodă folosită pentru a identifica efectul pe care variabilele independente îl au asupra unei variabile dependente.

Înțelegerea modului în care variabila dependentă se modifică pe măsură ce variabilele independente ne permite să prezicem efectele sau impacturile schimbărilor în situații reale.

Folosind regresia liniară multiplă este posibil să înțelegem cum se modifică tensiunea arterială pe măsură ce indicele de masă corporală se modifică, luând în considerare factori precum vârsta, sexul etc., presupunând astfel ce s-ar putea întâmpla.

Cu regresie multiplă, putem obține estimări privind tendințele prețurilor, cum ar fi tendința viitoare pentru petrol sau aur.

În cele din urmă, regresia liniară multiplă prezintă un interes mai mare în domeniul învățării automate și a inteligenței artificiale, deoarece permite obținerea de modele de învățare performante, chiar și în cazul unui număr mare de înregistrări care urmează să fie analizate.

Model de regresie logistică

Regresia logistică este un instrument statistic care își propune să modeleze un rezultat binomial cu una sau mai multe variabile explicative.

Este utilizat în general pentru probleme binare, unde există doar două clase, de exemplu Da sau Nu, 0 sau 1, bărbat sau femeie etc ...

În acest fel este posibilă descrierea datelor și explicarea relației dintre o variabilă dependentă binară și una sau mai multe variabile nominale sau ordinale independente.

Rezultatul este determinat datorită utilizării unei funcții logistice, care estimează o probabilitate și apoi defiîncheie clasa cea mai apropiată (pozitivă sau negativă) de valoarea probabilității obținute.

Putem considera regresia logistică ca o metodă de clasificare a familiei algoritmi de învățare supravegheat.

Folosind metode statistice, regresia logistică permite generarea unui rezultat care, de fapt, reprezintă o probabilitate ca o anumită valoare de intrare să aparțină unei clase date.

În problemele de regresie logistică binomială, probabilitatea ca ieșirea să aparțină unei clase va fi P, în timp ce aceasta aparține celeilalte clase 1-P (unde P este un număr între 0 și 1, deoarece exprimă o probabilitate).

Regresia logistică a binomului funcționează bine în toate acele cazuri în care variabila pe care încercăm să o prezicem este binară, adică poate lua doar două valori: valoarea 1 care reprezintă clasa pozitivă sau valoarea 0 care reprezintă clasa negativă.

Exemple de probleme care pot fi rezolvate prin regresie logistică sunt:

  • un e-mail este spam sau nu;
  • o achiziție online este frauduloasă sau nu, evaluând condițiile de achiziție;
  • un pacient are o fractură, evaluându-și razele.

Cu regresia logistică putem face analize predictive, măsurând relația dintre ceea ce dorim să prezicem (variabilă dependentă) și una sau mai multe variabile independente, adică caracteristici. Estimarea probabilității are loc printr-o funcție logistică.

Probabilitățile sunt transformate ulterior în valori binare, iar pentru a face real previziunea, acest rezultat este atribuit clasei din care face parte, în funcție de faptul că este sau nu apropiat de clasa în sine.

De exemplu, dacă aplicația funcției logistice returnează 0,85, atunci înseamnă că intrarea a generat o clasă pozitivă prin atribuirea acesteia la clasa 1. În schimb, dacă a obținut o valoare precum 0,4 sau mai general <0,5 ..

Buletin informativ de inovare
Nu rata cele mai importante știri despre inovație. Înscrieți-vă pentru a le primi pe e-mail.

Regresia logistică folosește funcția logistică pentru a evalua clasificarea valorilor de intrare.

Funcția logistică, numită și sigmoid, este o curbă capabilă să ia orice număr de valoare reală și să o mapeze la o valoare între 0 și 1, excluzând extremele. Funcția este:

în cazul în care:

  • e: baza logaritmelor naturale (numărul lui Euler, sau funcția excel exp ())
  • b0 + b1 * x: este valoarea numerică reală pe care doriți să o transformați.

Reprezentare folosită pentru regresia logistică

Regresia logistică folosește o ecuație ca reprezentare, la fel ca regresia liniară

Valorile de intrare (x) sunt combinate liniar folosind ponderi sau valori ale coeficientului, pentru a prezice o valoare de ieșire (y). O diferență cheie față de regresia liniară este că valoarea de ieșire modelată este o valoare binară (0 sau 1) și nu o valoare numerică.

Iată un exemplu de ecuație de regresie logistică:

y = e^(b0 + b1 * x) / (1 + e^(b0 + b1 * x))

În cazul în care:

  • y este variabila dependentă, adică valoarea prevăzută;
  • b0 este termenul de polarizare sau de interceptare;
  • b1 este coeficientul pentru valoarea de intrare unică (x).

Fiecare coloană din datele de intrare are un coeficient b asociat (o valoare reală constantă) care trebuie învățată din datele de instruire.

Reprezentarea reală a modelului pe care l-ar fi memorat în memorie sau un fișier sunt coeficienții din ecuație (valoarea beta sau b).

Regresia logistică prezice probabilități (domeniul tehnic)

Regresia logistică modelează probabilitatea clasei implicite.

Ca exemplu, să presupunem că modelăm sexul oamenilor ca bărbat sau femeie de la înălțimea lor, prima clasă ar putea fi masculină, iar modelul de regresie logistică ar putea fi scris ca probabilitatea de a fi bărbat dat înălțimea unei persoane sau mai mult. oficial:

P (sex = bărbat | înălțime)

Scris într-un alt mod, modelăm probabilitatea ca o intrare (X) să aparțină clasei predefinite (Y = 1), îl putem scrie ca:

P(X) = P(Y = 1 | X)

Predicția de probabilitate trebuie transformată în valori binare (0 sau 1) pentru a face efectiv o predicție de probabilitate.

Regresia logistică este o metodă liniară, dar predicțiile sunt transformate folosind funcția logistică. Impactul acestui lucru este că nu mai putem înțelege predicțiile ca o combinație liniară a intrărilor, așa cum putem cu regresia liniară, de exemplu, continuând de sus, modelul poate fi exprimat ca:

p(X) = e ^ (b0 + b1 * X) / (1 + e ^ (b0 + b1 * X))

Acum putem inversa ecuația după cum urmează. Pentru a o inversa, putem proceda prin eliminarea e pe o parte adăugând un logaritm natural pe cealaltă parte.

ln (p (X) / 1 - p (X)) = b0 + b1 * X

În acest fel obținem faptul că calculul ieșirii din dreapta este din nou liniar (la fel ca regresia liniară), iar intrarea din stânga este un logaritm al probabilității clasei implicite.

Probabilitățile sunt calculate ca un raport dintre probabilitatea evenimentului împărțit la probabilitatea niciunui eveniment, de ex. 0,8 / (1-0,8) al cărui rezultat este 4. Deci, în schimb, am putea scrie:

ln (cote) = b0 + b1 * X

Întrucât probabilitățile sunt transformate în jurnal, numim această probă de log în partea stângă sau probit.

Putem returna exponentul în dreapta și scrie-l ca:

probabilitate = e ^ (b0 + b1 * X)

Toate acestea ne ajută să înțelegem că într-adevăr modelul este încă o combinație liniară a intrărilor, dar că această combinație liniară se referă la probabilitățile logare ale clasei prealabile.definita.

Învățarea modelului de regresie logistică

Coeficienții (valorile beta sau b) ale algoritmului de regresie logistică sunt estimate în faza de învățare. Pentru a face acest lucru, folosim estimarea probabilității maxime.

Estimarea probabilității maxime este un algoritm de învățare utilizat de mai mulți algoritmi de învățare automată. Coeficienții rezultați din model prezic o valoare foarte apropiată de 1 (de exemplu, Masculin) pentru clasa predefinite și o valoare foarte apropiată de 0 (de exemplu, femeie) pentru cealaltă clasă. Probabilitatea maximă pentru regresia logistică este o procedură de găsire a valorilor coeficienților (valori Beta sau ob) care minimizează eroarea probabilităților prezise de model în raport cu cele din date (de exemplu, probabilitatea 1 dacă datele sunt clasa primară) .

Vom folosi un algoritm de minimizare pentru a optimiza cele mai bune valori ale coeficientului pentru datele de instruire. Acest lucru este adesea implementat în practică utilizând un algoritm eficient de optimizare numerică.

Ercole Palmeri


Buletin informativ de inovare
Nu rata cele mai importante știri despre inovație. Înscrieți-vă pentru a le primi pe e-mail.

Articole recente

Plăți online: Iată cum serviciile de streaming vă fac să plătiți pentru totdeauna

Milioane de oameni plătesc pentru serviciile de streaming, plătind taxe lunare de abonament. Este o părere comună că tu...

Aprilie 29 2024

Veeam oferă cel mai complet suport pentru ransomware, de la protecție la răspuns și recuperare

Coveware de la Veeam va continua să ofere servicii de răspuns la incidente de extorcare cibernetică. Coveware va oferi capacități criminalistice și de remediere...

Aprilie 23 2024

Revoluția verde și digitală: cum întreținerea predictivă transformă industria petrolului și gazelor

Întreținerea predictivă revoluționează sectorul petrolului și gazelor, cu o abordare inovatoare și proactivă a managementului uzinelor...

Aprilie 22 2024

Autoritatea de reglementare antitrust din Marea Britanie ridică alarma BigTech cu privire la GenAI

CMA din Marea Britanie a emis un avertisment cu privire la comportamentul Big Tech pe piața inteligenței artificiale. Acolo…

Aprilie 18 2024