tutorial

Dabeşkirina algorîtmayên fêrbûna makîneyê: Regression Linear, Classification and Clustering

Fêrbûna Machine bi vebijarkên matematîkî re, di nav de rêbaz, teorî û serwerên serîlêdanê, hene. 

Fêrbûna makîneyê wekî "pirsgirêkên kêmkirin" ya fonksiyona windabûnê li hemberê mînakek diyarkirî (komek perwerdeyê) tête formul kirin. Vê taybetmendiyê di navbera nirxên ku ji hêla modela ku têne perwerdekirin de û nirxên bendewar ji bo her mînakek nimûne têne destnîşankirin de cûdahiyê dide. 

Armanca dawîn ev e ku meriv modêlê fêrbûna şêwaza ku pêşanek rastîn li ser amancên ku di koma perwerdeyê de ne diyar bike fêm bike.

Rêbazek ku li gorî wê gengaz e ku kategoriyên cûda yên algorîtmayê ji hev veqetînin celebek hilberîna ku ji pergalek diyarkirî tê hêvî kirin e. fêrbûna makîneyê

Di nav kategoriyên sereke de em dibînin:

  • La bisinifkirinî: veberhênan di du an zêdetir dabeşan de têne dabeş kirin û pergala fêrbûnê divê modelek çêbike ku bikaribe yek an jî çend çînên di nav wan de ji bo veberhênanê peyde bike.Van celebên kar bi gelemperî bi karanîna teknîkên fêrbûna çavdêr têne girtin. 

    Mînakek çîna klasîkkirinê, yekser ji yek an zêdetir labelê ye ku li gorî wêneyek li gorî tişt û mijarên ku tê de tê de ne, vedibêje;

  • La regresyon: têgehan bi şêwaza klasîk re bi ciyawaziya ku derketî xwedan domek domdar û ne-veqetandî ye.Ew bi gelemperî bi fêrbûna çavdêriyê ve tê birêvebirin. 

    Mînakek regresiyê bi texmîna rengê kûrahiya dîmenek ji nûnertiya xwe ve wekî rengek wêneya rengîn e. 

    Di rastiyê de, qada hilberînê ya di pirsê de bi rastî bêsînor e, û ne sînorkirî ye ji bo pêkanîna hin vebijarkên veqetandî;

  • Il çêdike: çira komek daneyan li koman têne veqetandin ku, di heman demê de, berevajî ji kategoriyê, pêşdetir nayên zanîn.Vê cewherê pirsgirêkên ku di vê kategoriyê de ne, bi gelemperî wan dike ku karên hînbûnê yên çavnebar bêne kirin.
Modela regresiyonê ya xêzik a hêsan

Rêziknameya linear ez emodela bi berfirehî tête bikar anîn da ku nirxên rastîn ên wekî:

  • lêçûnên xaniyan,
  • hejmara bangên,
  • firotina giştî per kes,

û şertê krîtera guherbarên domdar:

  • metre çargoşe,
  • abonek li hesabek heyî,
  • perwerdehiya kesê

Di regression linear de, têkiliyek di navbera guherbarên serbixwe û guherbarên girêdayî de bi rêve dibe ku bi gelemperî têkiliya di navbera du guherbaran de nîşan dide.

Rêzika fitne wekî xeta regresyonê tê zanîn û bi wekhevkirinek linear a bi tîpa Y = a * X + b tête xuyang kirin.

Formul li gorî daneyên navborî ye ku du an bêtir taybetmendiyên xwe bi hevûdu re têkildar dike. Gava ku hûn algorîtmayê re taybetmendiyek têkelê didin, regreskirin karekterê din vedigire.

Modela regresyonê ya xeta pirrjimar

Gava ku me ji yek cûrbecûr serbixwe guhertinek heye, wê hingê em ji regresiyonê ya xêzek pirrjimar biaxivin, bi nimûneyek wekî jêrîn digirin:


y=b0 + b1x1 + b2x2 +… + Bnxn

  • y bersiva nirxan e, ango ew encama ku pêşnûma ji hêla modela ve hatî pêşandan nîşan dide
  • b0 guhastin e, ew nirxa y dema x yei ew hemî 0 ne wekhev in;
  • taybetmendiya yekem b1 hevoka x e1;
  • hê taybetmendiyek din a bn hevoka x en;
  • x1,x2,…, Xn varyantên serbixwe yên modelê ne.

Di bingeh de wekhevî têkiliyek di navbera cûrbecûr ve girêdayî (y) û du an çend guherbarên serbixwe (x1, x2, x3…) de rave dike. 

Mînakî, heke me dixwest emhata CO2 ya gerîdeyê (vegirêdayî y) bi texmîna hêza motorê, hejmara sindoqê û vexwarina sotemeniyê texmîn bikin. Van faktorên paşîn guherbarên serbixwe x1, x2 û x3 ne. Domînerên bi jimarên rastîn in û hevalbendên regreskirinê yên texmînîn ên modayê têne gotin. y dê hejmarek rastîn be.

Analîza regresyonê ya pirjimar rêbazek e ku ji bo destnîşankirina bandora ku varyantên serbixwe li ser guhêzbar ve girêdayî ye.

Têgihiştin ka meriv çawa guherbarê biqewimin diguhezîne wek ku guherbarên serbixwe diguhezîne destûrê dide me ku em di mezadê de bandora an bandora guhertinên di rewşên rastîn de texmîn bikin.

Bi karanîna regresiyonê ya pirrengî, ev fêr dibe ka meriv çawa fişara xwînê diguheze, wekî dema ku girseya laşê laş biguherîne faktorên mîna temen, cins, hwd., Bi vî rengî texmîn dike ka çi dibe.

Bi regresyonek pirjimar, em dikarin texmînan li ser mezadên buhayê bigirin, wekî mînaka pêşerojê ya ji bo neft an zêr.

Di paşiya paşîn de, regresiyonek pirrjimar rahijmendî di warê fêrbûna makîneyê û îstîxbarata artificial de eleqedar dibe ji ber ku destûrê dide ku meriv modelên fêrbûnê pêk bîne di heman demê de hejmareke pir tomar ku were analîz kirin.

Modela Reggasyona lojîstîkî

Regression logistic amûrek statîstîkî ye ku armanc e ku modelek encamek binomal bi yek an jî zêdetir guharînên vebir.

Ew bi gelemperî ji bo pirsgirêkên binaryî tête bikar anîn, ku li wir tenê du ders hene, wek mînak Erê yan na, 0 an 1, mêr an jin hwd ...

Bi vî rengî gengaz e ku daneyan danasîn û danasîna têkiliyê di navbera guhêzbar ve girêdayî ya binaryî û yek an jî çend guherbarên serbixwe yên navînal an hêjayî de.

Encam bi saya karanîna fonksiyonek lojîstîkî, ku îhtimalek texmîn dike û paşê tê destnîşankirin defiçîna herî nêzik (erênî an neyînî) bi nirxa îhtîmala hatî bidestxistin bi dawî dibe.

Em dikarin regresyona lojîstîkî wekî rêbazek dabeşkirina malbatê binirxînin algorîtmayên fêrbûna çavdêrîkirî.

Bi karanîna rêgezên statîstîkî, regresiyonê lojîstîkî destûrê dide ku encamekê biafirîne, ku di rastiyê de, îhtîmalek heye ku nirxa têkelê ya diyarkirî ji çîna diyar re were diyar kirin.

Di pirsgirêkên regresionistiya lojîstîkî ya binemal de, îhtîmal heye ku derzî ji yek çîna re bibe yek, dê P be, dema ku ew ji pola din re 1-P ye (ku P hejmar di navbera 0 û 1 de ye ji ber ku ew îhtîmaleker diyar dike).

Rêzikariya lojîstîkî ya binomînîkî di hemî wan rewşan de ku guherbarê ku em hewl didin pêşbîn bikin binerîn be, ev dibe ku ew tenê du nirxan binirxîne: nirxa 1 ya ku çîna erênî temsîl dike, an nirxa 0 ya ku çîna negatîf temsîl dike.

Nimûneyên pirsgirêkên ku ji hêla regresasyona lojîstîkî ve dikare werin çareser kirin ev in:

  • e-nameyek spam e an na;
  • kirîna serhêl xapînok e an na, nirxandina mercên kirînê ye;
  • Nexweşek bi nirxandina radii bi tevahî şikilek heye.

Bi regresasyona lojîstîkî em dikarin analîza pêşbînîk bikin, pîvandina têkiliya di navbera tiştê ku em dixwazin pêşbîn bikin (guherbar ve girêdayî) û yek an jî çend guherbarên serbixwe, taybetmendiyên i. Texmîna îhtiyacê bi fonksiyonek lojîstîkî pêk tê.

Pirsgirêkên hingê li nirxên binaryan têne veguheztin, û ji bo rasthatin kirin, ev encam li çîna ku ew lê girêdayî ye, li ser bingeha ku ew nêzî çîna xwe bixwe ye tê veqetandin.

Mînakî, heke sepandina fonksiyona lojîstîkî 0,85 vegerîne, wê hingê tê vê wateyê ku input çînek erênî bi veqetandina wê li pola 1. çêkiriye. Berevajî vê yekê heke ew nirxek wekî 0,4 an bi gelemperî bêtir <0,5 ..

nûçenameya Innovation
Nûçeyên herî girîng ên li ser nûjeniyê ji bîr nekin. Sign up ji bo wergirtina wan bi e-nameyê.

Reforma lojîstîk fonksiyonê lojîstîkî bikar tîne da ku kategoriya nirxên inputê binirxîne.

Fonksiyona lojîstîk, ku jê re sigmoid jî tête gotin, kurbeyek ku karibe her hejmar nirxek rastîn bikişîne û nexşeya wê bigire nirxek di navbera 0 û 1 de ye, bêveyî zêde dike. Fonksiyon ev e:

çira:

  • e: bingeha logarîtmayên xwezayî (jimara Euler, an fonksiyona excel ())
  • b0 + b1 * x: nirxa hejmarê ya rastîn e ku hûn dixwazin veguherînin.

Nûnerî ji bo regresiyonê lojîstîk hate bikar anîn

Reforma lojîstîk wekheviyek wekî nûnertiyê bikar tîne, mîna regresandina linear

Nirxên têketinê (x) bi karbidestan û nirxên hevserokê ve linearly têne hevûdu kirin, da ku nirxek derzê (y) pêşbîn bikin. Cûdahiyek sereke ji regresiyoniya linear ev e ku nirxa derketî ya modêl ji nirxek binaryî ye (0 an 1) ji bilî nirxek hejmarî.

Li vir mînakek wekheviyek regresyonê ya lojîstîkî ye:

y = e^(b0 + b1 * x) / (1 + e^(b0 + b1 * x))

li ku derê:

  • y guherbarê têkildar e, i. nirxê pêşbînkirî ye;
  • b0 termê polarbûnê an interceptyonê ye;
  • b1 hevsengiyek ji bo nirxa ketê ya yek (x) ye.

Her stûnek di daneyên têkevê de xwedî hevpişkek b têkel e (nirxek rastîn a domdar) ku divê ji daneyên perwerdehiyê were fêr kirin.

Nûneriya rastîn a modela ku hûn di bîra an pelê de tomar dikin hevpêşbendên di navhevkirinê de ne (nirxa beta an b).

Regresiyonê lojîstîkî bi texmînan (qada teknîkî) pêşbîn dike

Reforma lojîstîkî mumkin e ku qala çîna berbiçav bike.

Wekî mînak, em werin fêhm kirin ku em ji cewhera xwe mêr û jinan wek nimûne dikin, çîna yekem dikare mêr be, û modela regresyonê ya lojîstîkî dikare wekî wekî îhtîmalek mezinbûna mêran ji kesayetiya xwe re, an hêj bêtir were nivîsîn. nefermîyane:

P (cins = mêr | bilindbûn)

Bi awayek din hatî nivîsandin, em îhtîmala ku têketinek (X) aîdî çîna pêşîn e model dikindefinite (Y = 1), em dikarin wiya binivîsin:

P(X) = P(Y = 1 | X)

Pêşbîniya îhtiyacê divê li nirxên binary (0 an 1) were veguheztin da ku bi rastî pêşbînek îhtîmalek çêbike.

Reforma lojîstîkî rêbazek xalîçeyî ye, lê pêşgotinan bi karanîna logisticî têne guheztin. Bandora vê yekê ew e ku em êdî nema dikarin pêşbîniyan wekî berhevoka xêzik a input wekî ku em dikarin bi regresiyonê linear bikin, wek mînak, ji jor ve berdewam bikin, modêl dikare wekî:

p(X) = e ^ (b0 + b1 * X) / (1 + e ^ (b0 + b1 * X))

Naha em dikarin wekheviyê li jêr bişkînin. Ji bo berevajîkirina wê, em dikarin bi lêvekirina e li yek alî bi lêvekirina logarithmek xwezayî li aliyekî din ve pêşve herin.

ln (p (X) / 1 - p (X)) = b0 + b1 * X

Bi vî awayî em vê rastiyê radigihînin ku hesabkirina derketina li ser rastê dîsa lineare ye (mîna regresandina linear), û input li milê çepê logarîtma îhtîmalya çîna pêşeng e.

Pirsgirêkan wekî navnîşek ji îhtîmala bûyerê ya ku ji hêla îhtîmalek bûyera bûyerê ve hatî dabeş kirin têne hesibandin, mînak. 0,8 / (1-0,8) encama wî 4. e lewma em dikarin li şûna xwe binivîsin:

ln (bêderde) = b0 + b1 * X

Ji ber ku îhtimala log-guhastinê ne, em vê yekê dibêjin log-şansên çepgir an jî probît.

Em dikarin pêşanderê li rast vegerînin û wê wekî binivîsin:

îhtîmal = e ^ (b0 + b1 * X)

Hemî ev ji me re dibe alîkar ku em fam bikin ku bi rastî jî model hîn jî berhevokek xêzikî ya têketinê ye, lê ku ev berhevoka xêzikî îhtîmalên têketinê yên çîna pêşîn vedibêje.definita.

Fêrbûna modela regresasyona lojîstîkî

Di qonaxa fêrbûnê de hevalbendên (nirxên beta an b) algorîtmaya regresasyona lojîstîkî têne texmîn kirin. Ji bo ku em vê bikin, em texmîniya karesata herî zêde bikar tînin.

Texmîna îhtîmala herî zêde algorîtmayek fêrbûnê ye ku ji hêla gelek algorîtmayên fêrbûna makîneyê ve tê bikar anîn. Rêjeyên ku ji modelê derdikevin ji bo pola pêşdibistanê nirxek pir nêzî 1 (mînak nêr) pêşbînî dikin.definite û nirxek pir nêzî 0 (mînak jin) ji bo pola din. Îhtîmala herî zêde ji bo vegerandina lojîstîkî pêvajoyek peydakirina nirxan e ji bo hevberan (nirxên beta an ob) ku xeletiya di îhtîmalên ku ji hêla modelê ve hatine pêşbînîkirin li gorî yên di daneyê de kêm dike (mînak îhtîmala 1 heke dane çîna bingehîn be) .

Em ê algorîtmayek minimîzekirinê bikar bînin da ku ji bo daneyên perwerdehiyê nirxên herî baş a hevkariyê hilbijêrin. Ev bi gelemperî di pratîkê de tête bikar anîn ku algorîtmayek xweşbînbêjiya hejmarî ya berbiçav e.

Ercole Palmeri


nûçenameya Innovation
Nûçeyên herî girîng ên li ser nûjeniyê ji bîr nekin. Sign up ji bo wergirtina wan bi e-nameyê.

Gotarên dawî

Veeam ji parastinê bigire heya bersiv û başbûnê ji bo ransomware piştgirîya herî berfireh vedihewîne

Coveware ji hêla Veeam ve dê berdewam bike ku karûbarên bersivdayina bûyera xerckirina sîber peyda bike. Coveware dê kapasîteyên dadwerî û sererastkirinê pêşkêşî bike…

23 Nîsana 2024

Şoreşa Kesk û Dîjîtal: Ma Maintenance Pêşbînîdar Pîşesaziya Neft û Gazê Veguherîne Çawa

Lênêrîna pêşbînîkirî di sektora neft û gazê de, bi nêzîkatiyek nûjen û çalak a rêveberiya nebatê şoreşek dike.…

22 Nîsana 2024

Rêkûpêk antîtrust a Keyaniya Yekbûyî alarma BigTech li ser GenAI radike

CMA ya Keyaniya Yekbûyî di derbarê reftarên Big Tech de di bazara îstîxbarata çêkirî de hişyariyek derxist. Va…

18 Nîsana 2024

Casa Green: şoreşa enerjiyê ji bo pêşerojek domdar li Italytalyayê

Biryarnameya "Xalên Kesk", ku ji hêla Yekîtiya Ewropî ve ji bo zêdekirina karbidestiya enerjiyê ya avahiyan hatî damezrandin, pêvajoya xwe ya qanûnî bi…

18 Nîsana 2024