O aprendizado de máquina é formulado como "problemas de minimização" de uma função de perda em relação a um determinado conjunto de exemplos (conjunto de treinamento). Este recurso expressa a discrepância entre os valores previstos pelo modelo sendo treinado e os valores esperados para cada exemplo de instância.
O objetivo final é ensinar ao modelo a capacidade de prever corretamente em um conjunto de instâncias não presentes no conjunto de treinamento.
Um método segundo o qual é possível distinguir diferentes categorias de algoritmo é o tipo de saída esperado de um determinado sistema de aprendizado de máquina.
Entre as categorias principais, encontramos:
Um exemplo de classificação é a atribuição de um ou mais rótulos a uma imagem com base nos objetos ou assuntos nela contidos;
Um exemplo de regressão é a estimativa da profundidade de uma cena a partir de sua representação na forma de uma imagem colorida.
Na verdade, o domínio da saída em questão é virtualmente infinito e não se limita a um certo conjunto discreto de possibilidades;
A regressão linear é ammodelo amplamente utilizado para estimar valores reais, tais como:
e segue o critério de variáveis contínuas:
Na regressão linear, uma relação entre as variáveis independentes e as variáveis dependentes é seguida por uma linha que geralmente representa a relação entre as duas variáveis.
A linha de ajuste é conhecida como linha de regressão e é representada por uma equação linear do tipo Y = a * X + b.
A fórmula é baseada na interpolação de dados para associar duas ou mais características entre si. Quando você dá ao algoritmo uma característica de entrada, a regressão retorna a outra característica.
Quando temos mais de uma variável independente, falamos de regressão linear múltipla, assumindo um modelo como o seguinte:
y=b0 + B1x1 + B2x2 +… + Bnxn
Basicamente, a equação explica a relação entre uma variável dependente contínua (y) e duas ou mais variáveis independentes (x1, x2, x3 ...).
Por exemplo, se quiséssemos estimar a emissão de CO2 de um carro (variável dependente y) considerando a potência do motor, o número de cilindros e o consumo de combustível. Esses últimos fatores são as variáveis independentes x1, x2 e x3. As constantes bi são números reais e são chamadas de coeficientes de regressão estimados do modelo. Y é a variável dependente contínua, ou seja, sendo a soma de b0, b1 x1, b2 x2, etc. y será um número real.
A análise de regressão múltipla é um método usado para identificar o efeito que as variáveis independentes têm em uma variável dependente.
Entender como a variável dependente muda conforme as variáveis independentes mudam nos permite prever os efeitos ou impactos das mudanças em situações reais.
Usando a regressão linear múltipla é possível entender como a pressão arterial muda conforme muda o índice de massa corporal considerando fatores como idade, sexo, etc., assumindo assim o que poderia acontecer.
Com a regressão múltipla, podemos obter estimativas sobre as tendências de preços, como a tendência futura do petróleo ou do ouro.
Por fim, a regressão linear múltipla vem encontrando maior interesse na área de aprendizado de máquina e inteligência artificial, pois permite obter modelos de aprendizado performático mesmo no caso de um grande número de registros a serem analisados.
A regressão logística é uma ferramenta estatística que visa modelar um resultado binomial com uma ou mais variáveis explicativas.
É geralmente usado para problemas binários, onde existem apenas duas classes, por exemplo Sim ou Não, 0 ou 1, masculino ou feminino etc ...
Desta forma, é possível descrever os dados e explicar a relação entre uma variável dependente binária e uma ou mais variáveis independentes nominais ou ordinais.
O resultado é determinado graças ao uso de uma função logística, que estima uma probabilidade e depois defitermina a classe mais próxima (positiva ou negativa) do valor de probabilidade obtido.
Podemos considerar a regressão logística como um método de classificação da família de algoritmos de aprendizagem supervisionada.
Usando métodos estatísticos, a regressão logística permite gerar um resultado que, de fato, representa uma probabilidade de que um dado valor de entrada pertença a uma determinada classe.
Em problemas de regressão logística binomial, a probabilidade de que a saída pertença a uma classe será P, enquanto que pertence à outra classe 1-P (onde P é um número entre 0 e 1 porque expressa uma probabilidade).
A regressão logística binomial funciona bem em todos os casos em que a variável que estamos tentando prever é binária, ou seja, só pode assumir dois valores: o valor 1 que representa a classe positiva, ou o valor 0 que representa a classe negativa.
Exemplos de problemas que podem ser resolvidos por regressão logística são:
Com a regressão logística podemos fazer análises preditivas, medindo a relação entre o que queremos prever (variável dependente) e uma ou mais variáveis independentes, ou seja, as características. A estimativa de probabilidade é feita por meio de uma função logística.
As probabilidades são posteriormente transformadas em valores binários e, para que a previsão seja real, esse resultado é atribuído à classe a que pertence, com base no fato de estar próximo ou não da própria classe.
Por exemplo, se a aplicação da função logística retornar 0,85, significa que a entrada gerou uma classe positiva atribuindo-a à classe 1. Vice-versa se obteve um valor como 0,4 ou mais geralmente <0,5 ..
A regressão logística usa a função logística para avaliar a classificação dos valores de entrada.
A função logística, também chamada de sigmóide, é uma curva capaz de pegar qualquer número de valor real e mapeá-lo para um valor entre 0 e 1, excluindo os extremos. A função é:
onde:
A regressão logística usa uma equação como representação, bem como a regressão linear
Os valores de entrada (x) são combinados linearmente usando pesos ou valores de coeficiente, para prever um valor de saída (y). Uma diferença importante da regressão linear é que o valor de saída modelado é um valor binário (0 ou 1) em vez de um valor numérico.
Abaixo está um exemplo de uma equação de regressão logística:
y = e^(b0 + b1 * x) / (1 + e^(b0 + b1 * x))
Em que:
Cada coluna nos dados de entrada tem um coeficiente b associado (um valor real constante) que deve ser aprendido a partir dos dados de treinamento.
A representação real do modelo que você armazenaria na memória ou em um arquivo são os coeficientes na equação (o valor beta ou b).
A regressão logística modela a probabilidade da classe padrão.
Por exemplo, vamos supor que estejamos modelando o sexo das pessoas como masculino ou feminino a partir de sua altura, a primeira classe pode ser masculina e o modelo de regressão logística pode ser escrito como a probabilidade de ser masculino dada a altura de uma pessoa, ou mais. formalmente:
P (sexo = masculino | altura)
Escrito de outra forma, estamos modelando a probabilidade de que um input (X) pertença à classe prédefifinito (Y = 1), podemos escrevê-lo como:
P(X) = P(Y = 1 | X)
A previsão de probabilidade deve ser transformada em valores binários (0 ou 1) para realmente fazer uma previsão de probabilidade.
A regressão logística é um método linear, mas as previsões são transformadas usando a função logística. O impacto disso é que não podemos mais entender as previsões como uma combinação linear de entradas como podemos com a regressão linear, por exemplo, continuando de cima, o modelo pode ser expresso como:
p(X) = e ^ (b0 + b1 * X) / (1 + e ^ (b0 + b1 * X))
Agora podemos inverter a equação da seguinte maneira. Para revertê-lo, podemos proceder removendo o e de um lado adicionando um logaritmo natural do outro lado.
ln (p (X) / 1 - p (X)) = b0 + b1 * X
Desta forma, obtemos o fato de que o cálculo da saída à direita é linear novamente (assim como a regressão linear), e a entrada à esquerda é um logaritmo da probabilidade da classe padrão.
As probabilidades são calculadas como um rácio da probabilidade do evento dividido pela probabilidade de nenhum evento, por ex. 0,8 / (1-0,8) cujo resultado é 4. Portanto, poderíamos escrever:
ln (probabilidade) = b0 + b1 * X
Uma vez que as probabilidades são transformadas em log, chamamos isso de log odds do lado esquerdo ou probit.
Podemos retornar o expoente à direita e escrevê-lo como:
probabilidade = e ^ (b0 + b1 * X)
Tudo isso nos ajuda a entender que, de fato, o modelo ainda é uma combinação linear das entradas, mas que essa combinação linear se refere às probabilidades de log da pré-classedefiNita.
Os coeficientes (valores beta ou b) do algoritmo de regressão logística são estimados na fase de aprendizagem. Para fazer isso, usamos a estimativa de máxima verossimilhança.
A estimativa de máxima verossimilhança é um algoritmo de aprendizado usado por vários algoritmos de aprendizado de máquina. Os coeficientes resultantes do modelo prevêem um valor muito próximo de 1 (ex. masculino) para a turma do pré-escolardefinito e um valor muito próximo de 0 (por exemplo, feminino) para a outra classe. Máxima verossimilhança para regressão logística é um procedimento de encontrar valores para coeficientes (valores Beta ou ob) que minimizam o erro nas probabilidades previstas pelo modelo em relação aos dados (por exemplo, probabilidade 1 se os dados forem a classe primária) .
Usaremos um algoritmo de minimização para otimizar os melhores valores de coeficiente para os dados de treinamento. Isso é frequentemente implementado na prática usando um algoritmo de otimização numérica eficiente.
Uma operação de oftalmoplastia usando o visualizador comercial Apple Vision Pro foi realizada na Policlínica Catania…
O desenvolvimento de habilidades motoras finas por meio da coloração prepara as crianças para habilidades mais complexas, como escrever. Colorir…
O setor naval é uma verdadeira potência económica global, que navegou para um mercado de 150 mil milhões...
Na segunda-feira passada, o Financial Times anunciou um acordo com a OpenAI. O FT licencia seu jornalismo de classe mundial…