Tutorial

Classificação de Algoritmos de Aprendizado de Máquina: Regressão Linear, Classificação e Clustering

O Aprendizado de Máquina tem grandes semelhanças com a otimização matemática, que fornece métodos, teorias e domínios de aplicação.

O aprendizado de máquina é formulado como "problemas de minimização" de uma função de perda em relação a um determinado conjunto de exemplos (conjunto de treinamento). Este recurso expressa a discrepância entre os valores previstos pelo modelo sendo treinado e os valores esperados para cada exemplo de instância.

O objetivo final é ensinar ao modelo a capacidade de prever corretamente em um conjunto de instâncias não presentes no conjunto de treinamento.

Um método segundo o qual é possível distinguir diferentes categorias de algoritmo é o tipo de saída esperado de um determinado sistema de aprendizado de máquina.

Entre as categorias principais, encontramos:

La classificação: as entradas são divididas em duas ou mais classes e o sistema de aprendizagem deve produzir um modelo capaz de atribuir uma ou mais classes entre as disponíveis para uma entrada.Esses tipos de tarefas são normalmente tratados por meio de técnicas de aprendizado supervisionado.
Um exemplo de classificação é a atribuição de um ou mais rótulos a uma imagem com base nos objetos ou assuntos nela contidos;
La regressão: conceitualmente semelhante à classificação, com a diferença de que a saída tem um domínio contínuo e não discreto.Normalmente, é gerenciado com aprendizagem supervisionada.
Um exemplo de regressão é a estimativa da profundidade de uma cena a partir de sua representação na forma de uma imagem colorida.

Na verdade, o domínio da saída em questão é virtualmente infinito e não se limita a um certo conjunto discreto de possibilidades;
Il agrupamento: Cadê um conjunto de dados é dividido em grupos que, no entanto, ao contrário da classificação, não são conhecidos a priori.A própria natureza dos problemas pertencentes a esta categoria normalmente os torna tarefas de aprendizagem não supervisionadas.

Modelo de regressão linear simples

A regressão linear é ammodelo amplamente utilizado para estimar valores reais, tais como:

custo das casas,
número de ligações,
vendas totais por pessoa,

e segue o critério de variáveis contínuas:

metros quadrados,
assinatura de uma conta corrente,
educação da pessoa

Na regressão linear, uma relação entre as variáveis independentes e as variáveis dependentes é seguida por uma linha que geralmente representa a relação entre as duas variáveis.

A linha de ajuste é conhecida como linha de regressão e é representada por uma equação linear do tipo Y = a * X + b.

A fórmula é baseada na interpolação de dados para associar duas ou mais características entre si. Quando você dá ao algoritmo uma característica de entrada, a regressão retorna a outra característica.

Modelo de regressão linear múltipla

Quando temos mais de uma variável independente, falamos de regressão linear múltipla, assumindo um modelo como o seguinte:

y=b₀ + B₁x₁ + B₂x₂ +… + B_nx_n

y é a resposta aos valores, ou seja, representa o resultado previsto pelo modelo;
b₀ é a interceptação, que é o valor de y quando x_ieles são todos iguais a 0;
a primeira característica b₁ é o coeficiente de x₁;
ainda outro recurso b_n é o coeficiente de x_n;
x₁,x₂,…, X_n são as variáveis independentes do modelo.

Basicamente, a equação explica a relação entre uma variável dependente contínua (y) e duas ou mais variáveis independentes (x1, x2, x3 ...).

Por exemplo, se quiséssemos estimar a emissão de CO2 de um carro (variável dependente y) considerando a potência do motor, o número de cilindros e o consumo de combustível. Esses últimos fatores são as variáveis independentes x1, x2 e x3. As constantes bi são números reais e são chamadas de coeficientes de regressão estimados do modelo. Y é a variável dependente contínua, ou seja, sendo a soma de b0, b1 x1, b2 x2, etc. y será um número real.

A análise de regressão múltipla é um método usado para identificar o efeito que as variáveis independentes têm em uma variável dependente.

Entender como a variável dependente muda conforme as variáveis independentes mudam nos permite prever os efeitos ou impactos das mudanças em situações reais.

Usando a regressão linear múltipla é possível entender como a pressão arterial muda conforme muda o índice de massa corporal considerando fatores como idade, sexo, etc., assumindo assim o que poderia acontecer.

Com a regressão múltipla, podemos obter estimativas sobre as tendências de preços, como a tendência futura do petróleo ou do ouro.

Por fim, a regressão linear múltipla vem encontrando maior interesse na área de aprendizado de máquina e inteligência artificial, pois permite obter modelos de aprendizado performático mesmo no caso de um grande número de registros a serem analisados.

Modelo de Regressão Logística

A regressão logística é uma ferramenta estatística que visa modelar um resultado binomial com uma ou mais variáveis explicativas.

É geralmente usado para problemas binários, onde existem apenas duas classes, por exemplo Sim ou Não, 0 ou 1, masculino ou feminino etc ...

Desta forma, é possível descrever os dados e explicar a relação entre uma variável dependente binária e uma ou mais variáveis independentes nominais ou ordinais.

O resultado é determinado graças ao uso de uma função logística, que estima uma probabilidade e depois defitermina a classe mais próxima (positiva ou negativa) do valor de probabilidade obtido.

Podemos considerar a regressão logística como um método de classificação da família de algoritmos de aprendizagem supervisionada.

Usando métodos estatísticos, a regressão logística permite gerar um resultado que, de fato, representa uma probabilidade de que um dado valor de entrada pertença a uma determinada classe.

Em problemas de regressão logística binomial, a probabilidade de que a saída pertença a uma classe será P, enquanto que pertence à outra classe 1-P (onde P é um número entre 0 e 1 porque expressa uma probabilidade).

A regressão logística binomial funciona bem em todos os casos em que a variável que estamos tentando prever é binária, ou seja, só pode assumir dois valores: o valor 1 que representa a classe positiva, ou o valor 0 que representa a classe negativa.

Exemplos de problemas que podem ser resolvidos por regressão logística são:

um e-mail é spam ou não;
uma compra online é fraudulenta ou não, avaliando as condições de compra;
um paciente tem uma fratura ao avaliar os raios.

Com a regressão logística podemos fazer análises preditivas, medindo a relação entre o que queremos prever (variável dependente) e uma ou mais variáveis independentes, ou seja, as características. A estimativa de probabilidade é feita por meio de uma função logística.

As probabilidades são posteriormente transformadas em valores binários e, para que a previsão seja real, esse resultado é atribuído à classe a que pertence, com base no fato de estar próximo ou não da própria classe.

Por exemplo, se a aplicação da função logística retornar 0,85, significa que a entrada gerou uma classe positiva atribuindo-a à classe 1. Vice-versa se obteve um valor como 0,4 ou mais geralmente <0,5 ..

A regressão logística usa a função logística para avaliar a classificação dos valores de entrada.

A função logística, também chamada de sigmóide, é uma curva capaz de pegar qualquer número de valor real e mapeá-lo para um valor entre 0 e 1, excluindo os extremos. A função é:

onde:

e: base dos logaritmos naturais (número de Euler ou função excel exp ())
b0 + b1 * x: é o valor numérico real que você deseja transformar.

Representação usada para regressão logística

A regressão logística usa uma equação como representação, bem como a regressão linear

Os valores de entrada (x) são combinados linearmente usando pesos ou valores de coeficiente, para prever um valor de saída (y). Uma diferença importante da regressão linear é que o valor de saída modelado é um valor binário (0 ou 1) em vez de um valor numérico.

Abaixo está um exemplo de uma equação de regressão logística:

y = e^(b0 + b1 * x) / (1 + e^(b0 + b1 * x))

Em que:

y é a variável dependente, ou seja, o valor previsto;
b0 é o termo de polarização ou interceptação;
b1 é o coeficiente para o valor de entrada único (x).

Cada coluna nos dados de entrada tem um coeficiente b associado (um valor real constante) que deve ser aprendido a partir dos dados de treinamento.

A representação real do modelo que você armazenaria na memória ou em um arquivo são os coeficientes na equação (o valor beta ou b).

A regressão logística prevê probabilidades (intervalo técnico)

A regressão logística modela a probabilidade da classe padrão.

Por exemplo, vamos supor que estejamos modelando o sexo das pessoas como masculino ou feminino a partir de sua altura, a primeira classe pode ser masculina e o modelo de regressão logística pode ser escrito como a probabilidade de ser masculino dada a altura de uma pessoa, ou mais. formalmente:

P (sexo = masculino | altura)

Escrito de outra forma, estamos modelando a probabilidade de que um input (X) pertença à classe prédefifinito (Y = 1), podemos escrevê-lo como:

P(X) = P(Y = 1 | X)

A previsão de probabilidade deve ser transformada em valores binários (0 ou 1) para realmente fazer uma previsão de probabilidade.

A regressão logística é um método linear, mas as previsões são transformadas usando a função logística. O impacto disso é que não podemos mais entender as previsões como uma combinação linear de entradas como podemos com a regressão linear, por exemplo, continuando de cima, o modelo pode ser expresso como:

p(X) = e ^ (b0 + b1 * X) / (1 + e ^ (b0 + b1 * X))

Agora podemos inverter a equação da seguinte maneira. Para revertê-lo, podemos proceder removendo o e de um lado adicionando um logaritmo natural do outro lado.

ln (p (X) / 1 - p (X)) = b0 + b1 * X

Desta forma, obtemos o fato de que o cálculo da saída à direita é linear novamente (assim como a regressão linear), e a entrada à esquerda é um logaritmo da probabilidade da classe padrão.

As probabilidades são calculadas como um rácio da probabilidade do evento dividido pela probabilidade de nenhum evento, por ex. 0,8 / (1-0,8) cujo resultado é 4. Portanto, poderíamos escrever:

ln (probabilidade) = b0 + b1 * X

Uma vez que as probabilidades são transformadas em log, chamamos isso de log odds do lado esquerdo ou probit.

Podemos retornar o expoente à direita e escrevê-lo como:

probabilidade = e ^ (b0 + b1 * X)

Tudo isso nos ajuda a entender que, de fato, o modelo ainda é uma combinação linear das entradas, mas que essa combinação linear se refere às probabilidades de log da pré-classedefiNita.

Aprendendo o modelo de regressão logística

Os coeficientes (valores beta ou b) do algoritmo de regressão logística são estimados na fase de aprendizagem. Para fazer isso, usamos a estimativa de máxima verossimilhança.

A estimativa de máxima verossimilhança é um algoritmo de aprendizado usado por vários algoritmos de aprendizado de máquina. Os coeficientes resultantes do modelo prevêem um valor muito próximo de 1 (ex. masculino) para a turma do pré-escolardefinito e um valor muito próximo de 0 (por exemplo, feminino) para a outra classe. Máxima verossimilhança para regressão logística é um procedimento de encontrar valores para coeficientes (valores Beta ou ob) que minimizam o erro nas probabilidades previstas pelo modelo em relação aos dados (por exemplo, probabilidade 1 se os dados forem a classe primária) .

Usaremos um algoritmo de minimização para otimizar os melhores valores de coeficiente para os dados de treinamento. Isso é frequentemente implementado na prática usando um algoritmo de otimização numérica eficiente.

Ercole Palmeri