учебник

Классификация алгоритмов машинного обучения: линейная регрессия, классификация и кластеризация

Машинное обучение имеет большое сходство с математической оптимизацией, которая предоставляет методы, теории и области применения. 

Машинное обучение формулируется как «задачи минимизации» функции потерь на заданном наборе примеров (обучающей выборке). Эта функция выражает несоответствие между значениями, предсказанными обучаемой моделью, и ожидаемыми значениями для каждого примера экземпляра. 

Конечная цель - научить модель правильно предсказывать набор экземпляров, отсутствующих в обучающем наборе.

Метод, с помощью которого можно различать разные категории алгоритмов, — это тип результата, ожидаемого от определенной системы. обучение с помощью машины

Среди основных категорий мы находим:

  • La классификация: входные данные делятся на два или более классов, и обучающая система должна создать модель, способную назначать один или несколько классов среди доступных входу.Эти типы задач обычно решаются с использованием методов контролируемого обучения. 

    Примером классификации является присвоение изображения одной или нескольких меток на основе содержащихся в нем объектов или субъектов;

  • La регрессия: концептуально аналогичен классификации с той разницей, что выходные данные имеют непрерывную и недискретную область.Обычно это осуществляется с помощью обучения с учителем. 

    Примером регрессии является оценка глубины сцены по ее представлению в виде цветного изображения. 

    Фактически, рассматриваемая область вывода практически бесконечна и не ограничивается определенным дискретным набором возможностей;

  • Il кластеризации: где это находится набор данных разделен на группы, которые, однако, в отличие от классификации, не известны априори.Сама природа проблем, относящихся к этой категории, обычно делает их учебными задачами без учителя.
Модель простой линейной регрессии

Линейная регрессия amшироко используемая модель, используемая для оценки реальных значений, таких как:

  • стоимость домов,
  • количество звонков,
  • общий объем продаж на человека,

и следует критерию непрерывных переменных:

  • квадратные метры,
  • подписка на текущий счет,
  • образование человека

В линейной регрессии связь между независимыми переменными и зависимыми переменными прослеживается через линию, которая обычно представляет отношения между двумя переменными.

Линия соответствия известна как линия регрессии и представлена ​​линейным уравнением типа Y = a * X + b.

Формула основана на интерполяции данных для связывания двух или более характеристик друг с другом. Когда вы даете алгоритму входную характеристику, регрессия возвращает другую характеристику.

Модель множественной линейной регрессии

Когда у нас есть более одной независимой переменной, мы говорим о множественной линейной регрессии, предполагая такую ​​модель, как следующая:


у = б0 + b1x1 + b2x2 +… + Bnxn

  • y - ответ на значения, т.е. он представляет результат, предсказанный моделью;
  • b0 это точка пересечения, то есть значение y, когда xi все они равны 0;
  • первая характеристика b1 коэффициент при x1;
  • еще одна особенность бn коэффициент при xn;
  • x1,x2,…, ИКСn - независимые переменные модели.

На практике это уравнение объясняет взаимосвязь между непрерывной зависимой переменной (y) и двумя или более независимыми переменными (x1, x2, x3…). 

Например, если мы хотим оценить выбросы CO2 автомобилем (зависимая переменная y), учитывая мощность двигателя, количество цилиндров и расход топлива. Эти последние факторы являются независимыми переменными x1, x2 и x3. Константы bi являются действительными числами и называются оценочными коэффициентами регрессии модели. Y - непрерывная зависимая переменная, т. Е. Является суммой b0, b1 x1, b2 x2 и т. Д. y будет действительным числом.

Множественный регрессионный анализ - это метод, используемый для определения влияния независимых переменных на зависимую переменную.

Понимание того, как изменяется зависимая переменная при изменении независимых переменных, позволяет нам прогнозировать эффекты или влияние изменений в реальных ситуациях.

Используя множественную линейную регрессию, можно понять, как изменяется артериальное давление при изменении индекса массы тела с учетом таких факторов, как возраст, пол и т. Д., Таким образом предполагая, что может произойти.

С помощью множественной регрессии мы можем получить оценки тенденций цен, таких как будущий тренд на нефть или золото.

Наконец, множественная линейная регрессия вызывает больший интерес в области машинного обучения и искусственного интеллекта, поскольку она позволяет получать эффективные модели обучения даже в случае большого количества записей, которые необходимо проанализировать.

Модель логистической регрессии

Логистическая регрессия - это статистический инструмент, предназначенный для моделирования биномиального результата с одной или несколькими независимыми переменными.

Обычно он используется для бинарных задач, где есть только два класса, например Да или Нет, 0 или 1, мужской или женский и т. Д.

Таким образом можно описать данные и объяснить взаимосвязь между двоичной зависимой переменной и одной или несколькими независимыми номинальными или порядковыми переменными.

Результат определяется благодаря использованию логистической функции, которая оценивает вероятность, а затем defiзаканчивает ближайший класс (положительный или отрицательный) к полученному значению вероятности.

Мы можем рассматривать логистическую регрессию как метод классификации семейства контролируемые алгоритмы обучения.

Используя статистические методы, логистическая регрессия позволяет сгенерировать результат, который, по сути, представляет вероятность того, что данное входное значение принадлежит данному классу.

В задачах биномиальной логистической регрессии вероятность того, что результат принадлежит одному классу, будет P, в то время как он принадлежит другому классу 1-P (где P - число от 0 до 1, потому что оно выражает вероятность).

Биномиальная логистическая регрессия хорошо работает во всех тех случаях, когда переменная, которую мы пытаемся предсказать, является двоичной, то есть она может принимать только два значения: значение 1, которое представляет положительный класс, или значение 0, которое представляет отрицательный класс.

Примеры проблем, которые можно решить с помощью логистической регрессии:

  • электронное письмо является спамом или нет;
  • покупка в Интернете является мошеннической или нет, исходя из условий покупки;
  • у пациента есть перелом, оценивая его радиусы.

С помощью логистической регрессии мы можем выполнять прогнозный анализ, измеряя взаимосвязь между тем, что мы хотим прогнозировать (зависимая переменная), и одной или несколькими независимыми переменными, то есть характеристиками. Оценка вероятности выполняется с помощью логистической функции.

Вероятности впоследствии преобразуются в двоичные значения, и для того, чтобы сделать прогноз реальным, этот результат присваивается классу, к которому он принадлежит, в зависимости от того, близок он к самому классу или нет.

Например, если приложение логистической функции возвращает 0,85, это означает, что входные данные сгенерировали положительный класс, присвоив его классу 1. И наоборот, если он получил такое значение, как 0,4 или, как правило, <0,5 ..

Инновационный бюллетень
Не пропустите самые важные новости об инновациях. Зарегистрируйтесь, чтобы получать их по электронной почте.

Логистическая регрессия использует логистическую функцию для оценки классификации входных значений.

Логистическая функция, также называемая сигмоидой, представляет собой кривую, способную принимать любое число реальных значений и отображать их на значение от 0 до 1, исключая крайние значения. Функция:

где:

  • e: основание натурального логарифма (число Эйлера или функция excel exp ())
  • b0 + b1 * x: фактическое числовое значение, которое вы хотите преобразовать.

Представление, используемое для логистической регрессии

Логистическая регрессия использует уравнение в качестве представления, что очень похоже на линейную регрессию.

Входные значения (x) линейно комбинируются с использованием весов или значений коэффициентов для прогнозирования выходного значения (y). Ключевое отличие от линейной регрессии заключается в том, что смоделированное выходное значение представляет собой двоичное значение (0 или 1), а не числовое значение.

Вот пример уравнения логистической регрессии:

у = е ^ (b0 + b1 * х) / (1 + е ^ (b0 + b1 * х))

Где:

  • y - зависимая переменная, т.е. прогнозируемое значение;
  • b0 - поляризационный или перехватывающий член;
  • b1 - коэффициент для единственного входного значения (x).

Каждый столбец входных данных имеет связанный коэффициент b (постоянное реальное значение), который необходимо узнать из обучающих данных.

Фактическое представление модели, которое вы бы сохранили в памяти или в файле, - это коэффициенты в уравнении (значение бета или b).

Логистическая регрессия предсказывает вероятности (технический диапазон)

Логистическая регрессия моделирует вероятность класса по умолчанию.

В качестве примера предположим, что мы моделируем пол людей как мужской или женский, исходя из их роста, первым классом может быть мужчина, а модель логистической регрессии может быть записана как вероятность быть мужчиной с учетом роста человека или более. формально:

P (пол = мужской | рост)

Другими словами, мы моделируем вероятность того, что вход (X) принадлежит классу predefiконечно (Y = 1), мы можем записать это как:

Р (Х) = Р (У = 1 | Х)

Прогноз вероятности должен быть преобразован в двоичные значения (0 или 1), чтобы фактически сделать прогноз вероятности.

Логистическая регрессия - это линейный метод, но прогнозы преобразуются с помощью логистической функции. Влияние этого состоит в том, что мы больше не можем понимать прогнозы как линейную комбинацию входных данных, как мы можем с линейной регрессией, например, продолжая сверху, модель может быть выражена как:

р (Х) = е ^ (b0 + b1 * X) / (1 + e ^ (b0 + b1 * X))

Теперь мы можем перевернуть уравнение следующим образом. Чтобы перевернуть это, мы можем продолжить, удалив е с одной стороны, добавив натуральный логарифм с другой стороны.

ln (p (X) / 1 - p (X)) = b0 + b1 * X

Таким образом, мы получаем тот факт, что вычисление вывода справа снова является линейным (точно так же, как линейная регрессия), а ввод слева является логарифмом вероятности класса по умолчанию.

Вероятности рассчитываются как отношение вероятности события к вероятности отсутствия события, например 0,8 / (1-0,8), результат 4. Таким образом, мы могли бы вместо этого написать:

ln (шансы) = b0 + b1 * X

Поскольку вероятности преобразуются в логарифмический вид, мы называем это левосторонним логарифмическим коэффициентом или пробит.

Мы можем вернуть экспоненту вправо и записать ее как:

вероятность = e ^ (b0 + b1 * X)

Все это помогает нам понять, что действительно модель все еще представляет собой линейную комбинацию входных данных, но эта линейная комбинация относится к логарифмическим вероятностям предварительного класса.defiнита.

Изучение модели логистической регрессии

Коэффициенты (значения бета или b) алгоритма логистической регрессии оцениваются на этапе обучения. Для этого мы используем оценку максимального правдоподобия.

Оценка максимального правдоподобия — это алгоритм обучения, используемый несколькими алгоритмами машинного обучения. Коэффициенты, полученные в результате модели, предсказывают значение, очень близкое к 1 (например, мужской) для дошкольного класса.definite и значение, очень близкое к 0 (например, женский) для другого класса. Максимальная вероятность для логистической регрессии — это процедура нахождения значений для коэффициентов (значений бета или ob), которые минимизируют ошибку в вероятностях, предсказанных моделью, относительно вероятностей в данных (например, вероятность 1, если данные являются первичным классом) .

Мы будем использовать алгоритм минимизации, чтобы оптимизировать лучшие значения коэффициентов для обучающих данных. На практике это часто реализуется с помощью эффективного алгоритма численной оптимизации.

Ercole Palmeri


Инновационный бюллетень
Не пропустите самые важные новости об инновациях. Зарегистрируйтесь, чтобы получать их по электронной почте.

АРТИКОЛИ recenti

Будущее уже здесь: как судоходная отрасль меняет мировую экономику

Военно-морской сектор является настоящей глобальной экономической державой, которая достигла 150-миллиардного рынка...

1 мая 2024

Издатели и OpenAI подписывают соглашения, регулирующие поток информации, обрабатываемой искусственным интеллектом.

В прошлый понедельник Financial Times объявила о сделке с OpenAI. FT лицензирует свою журналистику мирового уровня…

Апрель 30 2024

Онлайн-платежи: вот как потоковые сервисы заставляют вас платить вечно

Миллионы людей платят за стриминговые сервисы, выплачивая ежемесячную абонентскую плату. Распространено мнение, что вы…

Апрель 29 2024

Veeam предлагает наиболее полную поддержку программ-вымогателей: от защиты до реагирования и восстановления.

Coveware от Veeam продолжит предоставлять услуги по реагированию на инциденты, связанные с кибер-вымогательством. Coveware предложит возможности криминалистики и исправления…

Апрель 23 2024

Читайте «Инновации» на вашем языке

Инновационный бюллетень
Не пропустите самые важные новости об инновациях. Зарегистрируйтесь, чтобы получать их по электронной почте.

Следуйте за нами