падручнік

Класіфікацыя алгарытмаў машыннага навучання: лінейная рэгрэсія, класіфікацыя і кластэрызацыя

Машыннае навучанне мае вялікае падабенства з матэматычнай аптымізацыяй, якая забяспечвае метады, тэорыі і вобласці прымянення. 

Машыннае навучанне сфармулявана як "праблемы мінімізацыі" страты функцыі ў параўнанні з зададзеным наборам прыкладаў (навучальны набор). Гэтая функцыя выражае неадпаведнасць значэнняў, прадказаных мадэллю, якая навучаецца, і чаканых значэнняў для кожнага прыкладу. 

Канчатковая мэта складаецца ў тым, каб навучыць мадэль правільна прадказваць мноства выпадкаў, якія адсутнічаюць у навучальным наборы.

Метад, паводле якога можна адрозніваць розныя катэгорыі алгарытму, - гэта тып вываду, які чакаецца ад пэўнай сістэмы навучанне з дапамогай машыны

Сярод асноўных катэгорый мы знаходзім:

  • La класіфікацыя: ўваходныя матэрыялы дзеляцца на два ці больш класаў, і сістэма навучання павінна вырабляць мадэль, здольную прызначаць адзін ці некалькі класаў сярод даступных для ўваходу.Гэтыя тыпы задач звычайна вырашаюцца з выкарыстаннем кіраваных метадаў навучання. 

    Прыкладам класіфікацыі з'яўляецца прысваенне малюнка адной ці некалькіх ярлыкоў на аснове прадметаў ці прадметаў, якія змяшчаюцца ў ёй;

  • La рэгрэс: канцэптуальна падобная на класіфікацыю з той розніцай, што выхад мае бесперапынную і недыскрэтную вобласць.Звычайна ім кіруецца пры дапамозе навучання пад кіраваннем. 

    Прыкладам рэгрэсу з'яўляецца ацэнка глыбіні сцэны ад яе прадстаўлення ў выглядзе каляровага малюнка. 

    На самай справе, сфера выхаду, пра якую ідзе гаворка, практычна бясконцая і не абмяжоўваецца пэўным дыскрэтным наборам магчымасцей;

  • Il кластарызацыя: дзе гэта набор дадзеных дзеліцца на групы, якія, аднак, у адрозненне ад класіфікацыі, апрыёры не вядомыя.Сам характар ​​праблем, якія адносяцца да гэтай катэгорыі, звычайна робіць іх навучальнымі задачамі без нагляду.
Простая лінейная рэгрэсійная мадэль

Лінейная рэгрэсія ёсцьшырока выкарыстоўваная мадэль, якая выкарыстоўваецца для ацэнкі рэальных велічынь, такіх як:

  • кошт дамоў,
  • колькасць званкоў,
  • агульны аб'ём продажаў на чалавека,

і варта крытэрыю бесперапынных зменных:

  • квадратных метраў,
  • падпіска на бягучы рахунак,
  • выхаванне чалавека

Пры лінейнай рэгрэсіі ўзаемасувязь паміж незалежнымі і залежнымі пераменнымі ідзе праз лінію, якая звычайна ўяўляе сувязь паміж двума пераменнымі.

Лінія прылеганія вядомая як лінія рэгрэсіі і прадстаўлена лінейным раўнаннем тыпу Y = a * X + b.

Формула заснавана на інтэрпаляцыі дадзеных, каб звязаць дзве ці больш характарыстыкі паміж сабой. Калі вы дасце алгарытму ўводную характарыстыку, рэгрэсія вяртае іншую характарыстыку.

Мадэль множнай лінейнай рэгрэсіі

Калі мы маем больш адной незалежнай зменнай, мы кажам пра множную лінейную рэгрэсію, мяркуючы мадэль, падобную наступнай:


у = Ь0 + b1x1 + b2x2 +… + Уnxn

  • y - адказ на велічыні, гэта значыць, ён уяўляе сабой вынік, прагназаваны мадэллю;
  • b0 гэта перахоп, гэта значэнне y, калі xi усе яны роўныя 0;
  • першая характарыстыка б1 гэта каэфіцыент x1;
  • яшчэ адна асаблівасць bn гэта каэфіцыент xn;
  • x1,x2,…, Хn - незалежныя зменныя мадэлі.

У асноўным раўнанне тлумачыць сувязь паміж бесперапыннай залежнай зменнай (у) і дзвюма або больш незалежнымі пераменнымі (х1, х2, х3 ...). 

Напрыклад, калі б мы хацелі ацаніць выкід СО2 аўтамабіля (залежная пераменная y) з улікам магутнасці рухавіка, колькасці цыліндраў і спажывання паліва. Гэтыя апошнія фактары з'яўляюцца незалежнымі пераменнымі x1, x2 і x3. Канстанты bi - сапраўдныя лікі і называюцца ацэначнымі каэфіцыентамі рэгрэсіі мадэлі, Y - суцэльная залежная зменная, то ёсць сума b0, b1 x1, b2 x2 і г.д. y будзе сапраўдная колькасць.

Множны рэгрэсійны аналіз - гэта метад, які дазваляе вызначыць уплыў незалежных зменных на залежную зменную.

Разуменне таго, як змяняецца залежная зменная, як змяняюцца незалежныя зменныя, дазваляе нам прагназаваць наступствы альбо ўздзеяння змен у рэальных сітуацыях.

З дапамогай шматлікіх лінейных рэгрэсій можна зразумець, як змяняецца артэрыяльны ціск, як змяняецца індэкс масы цела, улічваючы такія фактары, як узрост, пол і г.д., пры гэтым мяркуючы, што можа адбыцца.

Шматразовая рэгрэсія можа атрымаць ацэнку тэндэнцый цэнаў, такіх як будучая тэндэнцыя нафты ці золата.

Нарэшце, шматлікія лінейныя рэгрэсіі адчуваюць вялікую цікавасць у галіне машыннага навучання і штучнага інтэлекту, паколькі гэта дазваляе атрымаць выканальныя мадэлі навучання нават у выпадку вялікай колькасці запісаў, якія неабходна прааналізаваць.

Лагістычная мадэль рэгрэсіі

Лагістычная рэгрэсія - гэта статыстычны інструмент, які накіраваны на мадэляванне бінамінальнага выніку з адной або некалькімі тлумачальнымі зменнымі.

Звычайна выкарыстоўваецца для бінарных задач, калі ёсць толькі два класы, напрыклад, "Так" альбо "Не", "0 ці 1", "мужчына ці жанчына" і г.д. ...

Такім чынам можна апісаць дадзеныя і растлумачыць сувязь паміж бінарнай залежнай зменнай і адной або некалькімі намінальнымі або парадкавымі незалежнымі зменнымі.

Вынік вызначаецца дзякуючы выкарыстанню лагістычнай функцыі, якая ацэньвае верагоднасць і затым defiзаканчваецца бліжэйшы клас (дадатны або адмоўны) да атрыманага значэння верагоднасці.

Мы можам разглядаць лагістычную рэгрэсію як спосаб класіфікацыі сям'і кіраваныя алгарытмы навучання.

Выкарыстоўваючы статыстычныя метады, лагістычная рэгрэсія дазваляе генераваць вынік, які, па сутнасці, уяўляе верагоднасць таго, што дадзенае ўваходнае значэнне належыць дадзенаму класу.

У праблемах бінамінальнай лагістычнай рэгрэсіі верагоднасць таго, што выхад належыць аднаму класу, будзе P, а іншаму класу 1-P (дзе P - лік паміж 0 і 1, таму што гэта выражае верагоднасць).

Бінамінальная лагістычная рэгрэсія добра працуе ва ўсіх тых выпадках, калі пераменная, якую мы спрабуем прадказаць, з'яўляецца бінарнай, гэта значыць яна можа лічыць толькі два значэння: значэнне 1, якое прадстаўляе станоўчы клас, альбо значэнне 0, якое прадстаўляе адмоўны клас.

Прыкладамі праблем, якія могуць быць вырашаны лагістычнай рэгрэсіяй, з'яўляюцца:

  • электронная пошта з'яўляецца спамам ці не;
  • пакупка ў Інтэрнэце з'яўляецца ашуканскай ці не, ацэньваючы ўмовы пакупкі;
  • у пацыента ёсць пералом, ацэньваючы яго радыусы.

З дапамогай лагістычнай рэгрэсіі мы можам рабіць прагнастычны аналіз, вымяраючы сувязь паміж тым, што мы хочам прадказаць (залежнай зменнай), і адной або некалькімі незалежнымі пераменнымі, то ёсць характарыстыкамі. Ацэнка верагоднасці ажыццяўляецца з дапамогай лагістычнай функцыі.

Пасля гэтага верагоднасці пераўтвараюцца ў бінарныя значэнні, і для таго, каб зрабіць прагноз рэальным, гэты вынік прысвойваецца класу, якому ён належыць, зыходзячы з таго, набліжаецца ён да класа.

Напрыклад, калі прыкладанне лагістычнай функцыі вяртае 0,85, то гэта азначае, што ўваходныя дадзеныя генеруюць станоўчы клас, прыпісваючы яго класу 1. І наадварот, калі ён атрымаў такое значэнне, як 0,4 або больш агульна <0,5 ..

Інавацыйны бюлетэнь
Не прапусціце самыя важныя навіны пра інавацыі. Падпішыцеся, каб атрымліваць іх па электроннай пошце.

Лагістычная рэгрэсія выкарыстоўвае лагістычную функцыю для ацэнкі класіфікацыі ўваходных значэнняў.

Лагістычная функцыя, званая таксама сігмападобнай, - гэта крывая, здольная прыняць любую колькасць рэальнага значэння і адлюстраваць яе да значэння ад 0 да 1, за выключэннем крайнасцей. Функцыя:

дзе гэта:

  • e: база прыродных лагарыфмаў (нумар Эйлера або функцыя excel exp ())
  • b0 + b1 * x: гэта фактычнае лікавае значэнне, якое трэба пераўтварыць.

Прадстаўніцтва выкарыстоўваецца для лагістычнай рэгрэсіі

Лагістычная рэгрэсія выкарыстоўвае раўнанне ў якасці прадстаўлення, як і лінейную рэгрэсію

Уваходныя значэнні (х) лінейна спалучаюцца, выкарыстоўваючы весы або значэнні каэфіцыента, каб прадказаць значэнне выхаду (у). Ключавое адрозненне ад лінейнай рэгрэсіі складаецца ў тым, што мадэляванае значэнне высновы - гэта бінарнае значэнне (0 або 1), а не лікавае значэнне.

Вось прыклад раўнання лагістычнай рэгрэсіі:

y = e^(b0 + b1 * x) / (1 + e^(b0 + b1 * x))

Dove:

  • y залежная пераменная, гэта значыць прагназаванае значэнне;
  • b0 - тэрмін палярызацыі або перахопу;
  • b1 - каэфіцыент для аднаго ўваходнага значэння (x).

Кожны слупок уваходных дадзеных мае адпаведны каэфіцыент b (пастаяннае рэальнае значэнне), які неабходна даведацца з навучальных дадзеных.

Фактычнае ўяўленне мадэлі, якую вы б захавалі ў памяці ці файле, - гэта каэфіцыенты ў раўнанні (значэнне бэта-ці b).

Лагістычная рэгрэсія прадказвае верагоднасць (тэхнічны дыяпазон)

Лагістычная рэгрэсія мадэлюе верагоднасць класа па змаўчанні.

У якасці прыкладу выкажам здагадку, што мы мадэлюем пол людзей як мужчыны ці жанчыны з іх росту, першы клас можа быць мужчынам, а лагістычная рэгрэсійная мадэль можа быць запісана як верагоднасць быць мужчынам з улікам росту чалавека і больш. фармальна:

P (пол = мужчына | рост)

Іншымі словамі, мы мадэлюем верагоднасць таго, што ўваход (X) належыць да класа predefiканец (Y = 1), мы можам запісаць гэта як:

P(X) = P(Y = 1 | X)

Прагноз верагоднасці павінен быць пераўтвораны ў двайковыя значэнні (0 або 1), каб на самой справе зрабіць прагноз верагоднасці.

Лагістычная рэгрэсія - лінейны метад, але прагнозы трансфармуюцца пры дапамозе лагістычнай функцыі. Уплыў гэтага заключаецца ў тым, што мы больш не можам разумець прагнозы як лінейнае спалучэнне ўваходных дадзеных, як, магчыма, з лінейнай рэгрэсіяй, напрыклад, працягваючыся зверху, мадэль можа быць выражана як:

p(X) = e ^ (b0 + b1 * X) / (1 + e ^ (b0 + b1 * X))

Цяпер мы можам змяніць ураўненне наступным чынам. Каб змяніць яго, мы можам перайсці, выдаліўшы e з аднаго боку, дадаўшы натуральны лагарыфм з другога боку.

ln (p (X) / 1 - p (X)) = b0 + b1 * X

Такім чынам мы атрымліваем той факт, што вылічэнне высновы справа зноў лінейнае (як лінейная рэгрэсія), а ўваход злева - гэта лагарыфм верагоднасці класа па змаўчанні.

Верагоднасці разлічваюцца як адносіны верагоднасці падзеі, падзеленыя на верагоднасць адсутнасці падзей, напрыклад, 0,8 / (1-0,8), вынік якога 4. Такім чынам, мы маглі б напісаць:

ln (шанцы) = b0 + b1 * X

Паколькі верагоднасці пераўтвараюцца ў журнал, мы называем гэта левабаковымі часопісамі або прабітамі.

Мы можам вярнуць экспанент направа і запісаць яго як:

верагоднасць = e ^ (b0 + b1 * X)

Усё гэта дапамагае нам зразумець, што мадэль сапраўды з'яўляецца лінейнай камбінацыяй уваходных дадзеных, але гэтая лінейная камбінацыя адносіцца да часопіса верагоднасцей папярэдняга класаdefiніта.

Вывучэнне мадэлі лагістычнай рэгрэсіі

Каэфіцыенты (значэнні бэта-ці Ь) алгарытму лагістычнай рэгрэсіі ацэньваюцца на этапе навучання. Для гэтага мы выкарыстоўваем максімальную ацэнку верагоднасці.

Ацэнка максімальнай верагоднасці - гэта алгарытм навучання, які выкарыстоўваецца некалькімі алгарытмамі машыннага навучання. Каэфіцыенты, атрыманыя ў выніку мадэлі, прадказваюць значэнне, вельмі блізкае да 1 (напрыклад, мужчынскі) для папярэдняга класаdefinite і значэнне, вельмі блізкае да 0 (напрыклад, жанчына) для іншага класа. Максімальная імавернасць для лагістычнай рэгрэсіі - гэта працэдура пошуку значэнняў для каэфіцыентаў (значэнні бэта або ob), якія мінімізуюць памылку ў імавернасцях, прадказаных мадэллю, адносна верагоднасцей у дадзеных (напрыклад, імавернасць 1, калі даныя з'яўляюцца першасным класам) .

Мы будзем выкарыстоўваць алгарытм мінімізацыі, каб аптымізаваць найлепшыя значэнні каэфіцыента для вучэбных дадзеных. Гэта часта рэалізуецца на практыцы з выкарыстаннем эфектыўнага алгарытму лікавай аптымізацыі.

Ercole Palmeri


Інавацыйны бюлетэнь
Не прапусціце самыя важныя навіны пра інавацыі. Падпішыцеся, каб атрымліваць іх па электроннай пошце.

Апошнія артыкулы

Антыманапольны рэгулятар Вялікабрытаніі падымае трывогу BigTech з нагоды GenAI

CMA Вялікабрытаніі выпусціла папярэджанне аб паводзінах Big Tech на рынку штучнага інтэлекту. Там…

Красавік 18 2024

Casa Green: энергетычная рэвалюцыя для ўстойлівай будучыні ў Італіі

Указ «Зялёныя дамы», распрацаваны Еўрапейскім саюзам для павышэння энергаэфектыўнасці будынкаў, завяршыў свой заканадаўчы працэс з...

Красавік 18 2024

Згодна з новай справаздачай Casaleggio Associati, электронная камерцыя ў Італіі складае +27%.

Прадстаўлена гадавая справаздача Casaleggio Associati аб электроннай камерцыі ў Італіі. Справаздача пад назвай «AI-Commerce: рубяжы электроннай камерцыі са штучным інтэлектам».…

Красавік 17 2024

Бліскучая ідэя: Bandalux прадстаўляе Airpure®, заслону, якая ачышчае паветра

Вынік пастаянных тэхналагічных інавацый і прыхільнасці да навакольнага асяроддзя і дабрабыту людзей. Bandalux прадстаўляе Airpure®, палатку…

Красавік 12 2024

Чытайце Innovation на сваёй мове

Інавацыйны бюлетэнь
Не прапусціце самыя важныя навіны пра інавацыі. Падпішыцеся, каб атрымліваць іх па электроннай пошце.

Выконвайце за намі