Tutorial

Classificazione di Algoritmi per l'apprendimentu di Machine: Regressione Lineale, Classificazione è Clustering

L'apprendimentu Machine hà grandi similarità cù l'ottimisazione matematica, chì furnisce i metudi, e teorie è duminii di applicazioni.

L'apprendimentu machine hè formulatu cum'è "prublemi di minimizazione" di una funzione di perdita contru un inseme di esempi (set di furmazione). Questa funzione esprime a discrepanzia trà i valori previsti da u mudellu chì hè stata furmata è i valori previsti per ogni esempiu di esempiu.

L’ultimu scopu hè d’insignà à u mudellu a capacità di predicà bè annantu à un inseme di istanze micca prisente in u furmatu.

Un metudu sicondu u quale hè pussibule distingue diverse categurie d'algoritmu hè u tipu di output previstu da un certu sistema di machine learning.

Trà e categurie principali truvamu:

La classificazione: i inputs sò divisi in duie o più classi è u sistema di apprendimentu deve pruduce un mudellu capace d’assignà una o più classi tra quelle dispunibili per un input.Sti tipi di funzioni sò tipicamente indirizzati cù tecniche di apprendimentu supervisuratu
Un esempiu di classificazione hè l'assignamentu di una o più etichete à una maghjina basata in l'oggetti o i sughjetti cuntenuti in ella;
La regressione: concettualmente simile à a classificazione cù a diffarenza chì u risultatu hà un duminiu cuntinuu è micca discreto.Hè tipicamenti amministratu cun amparera tutela.
Un esempiu di regressione hè l'estimazione di a prufundità di una scena da a so rapprisentazione in a forma di una maghjina in culore.

In fatti, u duminiu di u risultatu in quistione hè praticamente infinitu, è micca limitatu à un certu inseme discrettu di pussibulità;
Il Agrupà: induve hè un inseme di dati hè divisu in gruppi chì, però, à u cuntrariu di a classificazione, ùn sò micca cunnisciutu a priori.A natura stessa di i prublemi chì appartenenu à sta categuria tipicamente li fa compiti di apprendimentu senza cuntrolli.

Modellu di regressione lineale simplice

A regressione lineale hè ammudellu amplamente usatu per stima i valori reali cum'è:

costu di case,
numeru di chjama,
vendite totale per persona,

è seguite u criteriu di variabili cuntinui:

metri quadrati,
abbunamentu à un cuntu currente,
educazione di a persona

In regressione lineale, una relazione trà variabili indipendenti è variabili dipendenti hè seguita attraversu una linea chì ripresenta di solitu a relazione trà e duie variabili.

A linea adatta hè cunnisciuta cum'è a linea di rigressione è hè rapprisentata da una equazione lineale di u tippu Y = a * X + b.

A formula hè basata nantu à i dati interpolatori per assucià dui o più caratteristiche cù l'altri. Quandu dite à l'algoritmu una caratteristica di input, a regressione torna l'altra caratteristica.

Modellu di rigressioni lineale multiplu

Quandu avemu più di una variabile indipendente, allora parlemu di regressione lineale multiplu, assumendu un mudellu cum'è seguente:

y=b₀ + b₁x₁ + b₂x₂ + ... + B_nx_n

y hè a risposta à i valori, vale à dì chì rapprisenta u risultatu previstu da u mudellu;
b₀ hè l'intercepzione, eccu u valore di y quandu x_isò tutti uguali à 0;
a prima caratteristica b₁ hè u coefficiente di x₁;
un'altra funzione nova b_n hè u coefficiente di x_n;
x₁,x₂, ..., X_n sò e variabili indipendenti di u mudellu.

Basicamente l'equazione spiega a relazione trà una variabile dipendente cuntinua (y) è duie o più variabili indipendenti (x1, x2, x3 ...).

Per esempiu, se vuleria stimà l'emissione di CO2 di una vittura (dipendente variabile y) cunsiderendu a putenza di u mutore, u numeru di cilindri è u cunsumu di carburante. Queste ultimi fattori sò e variabili indipendenti x1, x2 è x3. I constanti bi sò numeri reali è sò chjamati coefficienti di regressione stimati di u mudellu.Y hè a variabile dipendente cuntinua, vale à dì esse a somma di b0, b1 x1, b2 x2, etc. y serà un veru numaru.

L'analisi di rigressioni multipla hè un metudu usatu per identificà l'effettu chì e variabili indipendenti anu nantu à una variabile dipendente.

A capiscitura di cume a variabile dipendente cambia cumu cambiate e variabili indipendenti ci permette di prediche l'effetti o l'impatti di i cambiamenti in situazioni reali.

Aduprendu una regressione lineale multipla hè pussibule capisce cumu cambia a pressione sanguigna mentre l'indice di massa di u corpu cambia, cunzidendu fatturi cum'è l'età, u sessu, etc., assumendu dunque ciò chì puderia succede.

Cù rigressione multipla pudemu uttene stimazioni nantu à i tendenzi di i prezzi, cum'è a tendenza futura per l'oliu o l'oru.

Infine, a regressione lineale multiplu sperimenta un interesse maiò in u campu di l'apprendimentu di machine è l'intelligenza artificiale perchè permette d'ottene mudelli di apprendimentu performanti ancu in u casu di un gran numeru di registri per esse analizati.

Modellu di rigressione logistica

A regressione logistica hè un strumentu statìsticu chì hà per scopu di mudellà un risultatu binomu cun una o più variabili spiegative.

Hè adupratu generalmente per prublemi binari, induve ci sò solu duie classi, per esempiu Sì o No, 0 o 1, maschile o femina ecc ...

In questu modu hè pussibule di descriverà e dati è spiegà a relazione trà una variabile dipendente binaria è una o più variabili indipendenti nominali o ordinali.

U risultatu hè determinatu grazia à l'usu di una funzione logistica, chì stima una probabilità è dopu defifinisce a classa più vicina (pusitiva o negativa) à u valore di probabilità ottenutu.

Pudemu cunsiderà a regressione logistica cum'è un metudu di classificà a famiglia di algoritmi di apprendimentu supervisa.

Usendu metudi statistici, a regressione logistica permette di generà un risultatu chì, in fattu, rapprisenta una probabilità chì un determinatu valore d'ingressu appartene à una classa determinata.

In i prublemi di rigressione logistica binomiale, a probabilità chì l'output appartene à una classa serà P, mentre chì appartene à l'altra classe 1-P (induve P hè un numeru trà 0 è 1 perchè esprime una probabilità).

A regressione logistica binomiale funziona bè in tutti quelli casi in chì a variabile chì vulemu predicà hè binaria, vale à dì pò solu assumerà dui valori: u valore 1 chì rapprisenta a classe positiva, o u valore 0 chì rapprisenta a classe negativa.

Esempi di prublemi chì ponu esse risolti da a regressione logistica sò:

un email hè spama o micca;
una compra in linea hè fraudulenta o micca, valutendu e cundizioni di compra;
un paziente hà una frattura, valutendu i so radii.

Cù regressione logistica si pò fà analisi predictive, misurendu a relazione trà ciò chì vulemu predichendu (variabile dipendente) è una o più variabili indipendenti, vale à dì e caratteristiche. A stima di probabilità hè fatta per mezu di una funzione logistica.

I prubabilità sò successivamente trasfurmati in valori binari, è per fà a predizione vera, stu risultatu hè attribuitu à a classa à quale appartene, secondu chì si trova vicinu o micca a classa stessa.

Per esempiu, se l'applicazione di a funzione logistica restituisce 0,85, allora significa chì l'entrata hà generatu una classe positiva attribuendula à a classe 1. Inversu s'ellu avia ottenutu un valore cum'è 0,4 o più generalmente <0,5 ..

A rigressione logistica usa a funzione logistica per evaluà a classificazione di i valori di input.

A funzione logistica, ancu chjamata sigmoid, hè una curva capace di piglià qualsiasi numeru di valore reale è di cartografà a un valore trà 0 è 1, escludendu l'estremi. A funzione hè:

induve hè:

e: basa di logaritmi naturali (numeru di Euler, o funzione excel exp ())
b0 + b1 * x: hè u valore numericu attuale chì vulete trasfurmà.

Rapprisentazione aduprata per a rigressione logistica

A regressione logistica usa una equazione cum'è una rappresentanza, assai simili à a regressione lineale

I valori di input (x) sò combinati linealmente utilizendu pesi o valori di coefficiente, per predichendu un valore di output (y). Una differenza chjave da a regressione lineale hè chì u valore di output modelatu hè un valore binariu (0 o 1) piuttostu cà un valore numericu.

Eccu un esempiu di ecuazione di rigressione logistica:

y = e^(b0 + b1 * x) / (1 + e^(b0 + b1 * x))

Dove:

y hè a variabile dipendente, vale à dì u valore previstu;
b0 hè u terminu di polarizazione o intercepzione;
b1 hè u coefficient per u valore d'entrata unica (x).

Ogni colonna in e dati di input hà un coefficiente b assuciatu (un valore reale constante) chì deve esse amparatu da i dati di furmazione.

A riprisentazione attuale di u mudellu chì guardassi in memoria o un fugliale sò i coefficienti in l'equazione (u valore beta o b).

A regressione logistica prevede prubabilità (razza tecnica)

Regressione logistiche modele a probabilità di a classe predeterminata.

Comu esempiu, supponemu chì mudifichemu u sessu di e persone cum'è maschile o femine da a so altezza, a prima classe puderia esse male, è u mudellu di rigressione logistica puderia esse scrittu cum'è a probabilità d'esse male da una altezza di una persona, o più. formalmente:

P (sessu = male | altezza)

Scrittu un altru modu, avemu modellu a probabilità chì un input (X) appartene à a classa predefinite (Y = 1), pudemu scrive cum'è:

P(X) = P(Y = 1 | X)

A predizione di probabilità deve esse trasformata in valori binari (0 o 1) per fà in realtà una predizione di probabilità.

A regressione logistica hè un metudu lineale, ma e previsioni sò trasfurmate aduprendu a funzione logistica. L'impattu di questu hè chì ùn pudemu più capisce i prediczioni cum'è una combinazione lineale di inputs cum'è possu cù regressione lineale, per esempiu, cuntinuendu da sopra, u mudellu pò esse spressu cum'è:

p(X) = e ^ (b0 + b1 * X) / (1 + e ^ (b0 + b1 * X))

Ora pudemu inverte l'equazione in seguente. Per rimpiazzallu, pudemu procederà eliminendu l'e in un latu aghjunghjendu un logaritmu naturale da l'altru latu.

ln (p (X) / 1 - p (X)) = b0 + b1 * X

In questu modu uttene u fattu chì a cumputazione di a pruduzzione à a diritta hè linearia di novu (cume a rigressione lineale), è l'input di a sinistra hè un logaritmu di a probabilità di a classe predeterminata.

I probabilitati sò calculati cum'è un ratio di a probabilità di l'avvenimentu divisu da a probabilità di nisun eventu, p.e. 0,8 / (1-0,8) chì u risultatu hè 4. Cusì puderia invece scrive:

ln (dispari) = b0 + b1 * X

Siccomu e probabilità sò trasfurmate in log, chjamemu questu log-odds log-sds o probit.

Pudemu riturnà l'esponente à a diritta è scrivu cum'è:

probabilità = e^(b0 + b1 * X)

Tuttu chistu ci aiuta à capisce chì veramente u mudellu hè sempre una cumminazione lineare di l'inputs, ma chì sta cumminazione lineale si riferisce à e probabilità log di a pre classa.definita.

Amparatu u mudellu di rigressione logistica

I coefficienti (valori beta o b) di l'algoritmu di rigressione logistica sò stimati in fase di apprendimentu. Per fà questu, usemu l'estimazione massima di probabilità.

L'estimazione di a massima probabilità hè un algoritmu di apprendimentu utilizatu da parechji algoritmi di apprendimentu automaticu. Les coefficients résultant du modèle prédisent une valeur très proche de 1 (p. ex. masculin) pour la classe préscolairedefinite è un valore assai vicinu à 0 (per esempiu, femina) per l'altra classa. A probabilità massima per a regressione logistica hè una prucedura di truvà valori per i coefficienti (valori Beta o ob) chì minimizzanu l'errore in e probabilità previste da u mudellu relative à quelli in i dati (per esempiu, a probabilità 1 se a data hè a classa primaria) .

Utilizaremu un algoritmu di minimizzazione per ottimisà i migliori valori di coefficiente per i dati di furmazione. Spessu hè implementatu in pratica utilizendu un algoritmu efficace d'ottimisazione numerica.

Ercole Palmeri