Մեքենաշինական ալգորիթմների դասակարգում. Գծային ռեգրեսիա, դասակարգում և կլաստերացում

Մեքենայական ուսումը մեծ նմանություններ ունի մաթեմատիկական օպտիմիզացիայի հետ, որն ապահովում է մեթոդներ, տեսություններ և կիրառման տիրույթներ:

Մեքենայական ուսուցումը ձևակերպվում է որպես կորուստների գործառույթի «նվազագույնի հասցնելու խնդիրներ» `տրված օրինակների վերաբերյալ (հավաքածուի դասակարգ): Այս գործառույթը արտահայտում է անհամապատասխանությունը վերապատրաստված մոդելի կողմից կանխատեսված արժեքների և յուրաքանչյուր օրինակի համար ակնկալվող արժեքների միջև:

Վերջնական նպատակը մոդելին սովորեցնել դասընթացների շարքում չներկայացած մի շարք ատյանների վրա ճիշտ կանխատեսելն է:

Մեթոդ, ըստ որի հնարավոր է տարբերակել ալգորիթմի տարբեր կատեգորիաներ, որոշակի համակարգից ակնկալվող արդյունքի տեսակն է. Machine Learning.

Հիմնական կատեգորիաների թվում մենք գտնում ենք.

La դասակարգումը: մուտքերը բաժանվում են երկու կամ ավելի դասերի, և ուսուցման համակարգը պետք է արտադրի այնպիսի մոդել, որը կարող է մեկ կամ մի քանի դաս դասեր հատկացնել մուտքագրման մատչելիությանը:Այս տեսակի առաջադրանքները, որպես կանոն, լուծվում են ՝ օգտագործելով վերահսկվող ուսուցման տեխնիկան:
Դասակարգման օրինակ է մեկ կամ մի քանի պիտակների հանձնումը պատկերին, որը հիմնված է դրանում պարունակվող առարկաների կամ առարկաների վրա.
La հետընթաց: գաղափարապես նման է դասակարգմանը `այն տարբերության հետ, որ ելքը ունի շարունակական և ոչ դիսկրետ տիրույթ:Այն սովորաբար կառավարվում է վերահսկվող ուսուցման միջոցով:
Ռեգրեսիայի օրինակ է հանդիսանում մի տեսարանի խորության գնահատումը նրա ներկայացուցչությունից `գունավոր պատկերի տեսքով:

Փաստորեն, տվյալ ելքի տիրույթը իրականում անսահման է և չի սահմանափակվում հնարավորությունների որոշակի դիսկրետ մի շարք.
Il կլաստերացում: որտեղ է այն տվյալների մի շարք բաժանվում են խմբերի, որոնք, սակայն, ի տարբերություն դասակարգման, նախապես հայտնի չեն:Այս կատեգորիայի պատկանող խնդիրների բուն բնույթը, որպես կանոն, նրանց դարձնում է չստուգված ուսուցման առաջադրանքներ:

Պարզ գծային ռեգրեսիայի մոդել

Գծային ռեգրեսիան էլայնորեն օգտագործվող մոդելը, որն օգտագործվում է իրական արժեքները գնահատելու համար, ինչպիսիք են.

տների արժեքը,
զանգերի քանակը,
ընդհանուր վաճառք մեկ անձի համար,

և հետևում է շարունակական փոփոխականների չափանիշին.

քմ,
ընթացիկ հաշվի բաժանորդագրում,
անձի կրթություն

Գծային ռեգրեսիայում անկախ փոփոխականների և կախված փոփոխականների միջև փոխհարաբերություններին հաջորդում է մի տողի միջոցով, որը սովորաբար ներկայացնում է երկու փոփոխականի միջև փոխհարաբերությունները:

Հարմարվող գիծը հայտնի է որպես ռեգրեսիայի գիծ և ներկայացված է Y = a * X + b տիպի գծային հավասարումով:

Բանաձևը հիմնված է միջնորդավորված տվյալների վրա `երկու կամ ավելի բնութագրեր միմյանց կապելու համար: Երբ ալգորիթմին տալիս եք մուտքային բնութագիր, հետընթացը վերադարձնում է մյուս բնութագիրը:

Բազմաթիվ գծային ռեգրեսիայի մոդել

Երբ մենք ունենք ավելի քան մեկ անկախ փոփոխական, ապա մենք խոսում ենք բազմակի գծային ռեգրեսիայի մասին ՝ ենթադրելով մի մոդելի հետևյալի մասին.

յ = բ₀ + B₁x₁ + B₂x₂ +… + Բ_nx_n

y- ը արժեքների պատասխանն է, այսինքն ՝ այն ներկայացնում է մոդելի կողմից կանխատեսված արդյունքը.
b₀ ընդհատումն է, դա y- ի արժեքն է, երբ x_iնրանք բոլորը հավասար են 0-ին;
առաջին բնութագիրը բ₁ x- ի գործակիցն է₁;
ևս մեկ հատկանիշ բ_n x- ի գործակիցն է_n;
x₁,x₂,…, X_n մոդելի անկախ փոփոխականներն են:

Ըստ էության, հավասարումը բացատրում է շարունակական կախված կախյալ փոփոխականի (y) և երկու կամ ավելի անկախ փոփոխականների (x1, x2, x3…) միջև փոխհարաբերությունները:

Օրինակ, եթե մենք ցանկանայինք գնահատել մեքենայի CO2 արտանետումը (կախված փոփոխական y) ՝ հաշվի առնելով շարժիչի հզորությունը, բալոնների քանակը և վառելիքի սպառումը: Այս վերջին գործոնները x1, x2 և x3 անկախ փոփոխականներն են: Կոնստանտանտ bi- ն իրական թվեր է և կոչվում են մոդելի գնահատված հետընթացի գործակիցներ: Y- ը շարունակական կախվածության փոփոխական է, այսինքն ՝ b0, b1 x1, b2 x2 և այլն: y կլինի իրական թիվ:

Բազմակի ռեգրեսիայի վերլուծությունը մի մեթոդ է, որն օգտագործվում է `պարզելու ազդեցությունը, որն ունեն անկախ փոփոխականները կախվածության փոփոխականի վրա:

Հասկանալով, թե ինչպես է կախվածությունը փոփոխական փոփոխվում, քանի որ փոփոխվում են անկախ փոփոխականները, մեզ թույլ է տալիս կանխատեսել իրական իրավիճակներում փոփոխությունների հետևանքները կամ ազդեցությունները:

Օգտագործելով բազմակի գծային ռեգրեսիա հնարավոր է հասկանալ, թե ինչպես է արյան ճնշումը փոխվում, քանի որ մարմնի զանգվածի ինդեքսը փոխվում է ՝ հաշվի առնելով այնպիսի գործոններ, ինչպիսիք են տարիքը, սեռը և այլն, դրանով իսկ ենթադրելով, թե ինչ կարող է պատահել:

Բազմակի ռեգրեսիայի միջոցով մենք կարող ենք գնահատումներ ստանալ գնային տենդենցների վերաբերյալ, ինչպիսիք են նավթի կամ ոսկու ապագա միտումը:

Վերջապես, բազմակի գծային ռեգրեսիան ավելի մեծ հետաքրքրություն է առաջացնում մեքենայական ուսուցման և արհեստական ինտելեկտի բնագավառում, քանի որ այն թույլ է տալիս ձեռք բերել ուսումնառության մոդելներ նույնիսկ այն դեպքում, երբ վերլուծության ենթարկվի մեծ թվով գրառումներ:

Լոգիստիկ ռեգրեսիայի մոդելը

Լոգիստիկ ռեգրեսիան վիճակագրական գործիք է, որի նպատակն է մոդելավորել Binomial արդյունքը մեկ կամ մի քանի բացատրական փոփոխականներով:

Այն հիմնականում օգտագործվում է երկուական խնդիրների դեպքում, որտեղ կա ընդամենը երկու դաս, օրինակ ՝ Այո կամ Ոչ, 0 կամ 1, տղամարդ կամ կին և այլն: ...

Այս եղանակով հնարավոր է նկարագրել տվյալները և բացատրել երկուական կախվածության փոփոխականի և մեկ կամ մի քանի անվանական կամ սովորական անկախ փոփոխականների միջև փոխհարաբերությունները:

Արդյունքը որոշվում է լոգիստիկ ֆունկցիայի կիրառման շնորհիվ, որը գնահատում է հավանականությունը և հետո defiավարտում է ստացված հավանականության արժեքին ամենամոտ դասը (դրական կամ բացասական):

Մենք կարող ենք լոգիստիկ ռեգրեսիան համարել որպես ընտանիքը դասակարգելու մեթոդ վերահսկվող ուսուցման ալգորիթմներ.

Օգտագործելով վիճակագրական մեթոդներ, լոգիստիկ ռեգրեսիան թույլ է տալիս ստեղծել արդյունք, որն, ըստ էության, հավանականություն է ներկայացնում, որ տվյալ մուտքային արժեքը պատկանում է տվյալ դասին:

Binomial logistic regress- ի հետ կապված խնդիրներում հավանականությունը, որ ելքը պատկանում է մեկ դասին, կլինի P, մինչդեռ այն պատկանում է մյուս դասի 1-P- ին (որտեղ P- ն 0-ից և 1-ի միջև մի թիվ է, քանի որ այն արտահայտում է հավանականություն):

Երկուական լոգիստիկ ռեգրեսիան լավ է գործում բոլոր այն դեպքերում, երբ փոփոխականությունը, որը մենք փորձում ենք կանխատեսել, երկուական է, այսինքն ՝ այն կարող է տևել ընդամենը երկու արժեք ՝ 1-ը արժեքը, որը ներկայացնում է դրական դասը, կամ 0-ը արժեքը, որը ներկայացնում է բացասական դաս:

Լոգիստիկ ռեգրեսիայի միջոցով խնդիրների լուծման օրինակներ են.

էլ. փոստը սպամ է, թե ոչ.
առցանց գնումները կեղծ են, թե ոչ ՝ գնահատելով գնման պայմանները.
հիվանդը կոտրվածք ունի ՝ գնահատելով դրա ճառագայթները:

Լոգիստիկ ռեգրեսիայի միջոցով մենք կարող ենք կանխատեսելի վերլուծություն իրականացնել ՝ չափելով հարաբերությունները, թե ինչ ենք ուզում կանխատեսել (կախված փոփոխական) և մեկ կամ մի քանի անկախ փոփոխականներից, այսինքն ՝ բնութագրերից: Հավանականության գնահատումը կատարվում է լոգիստիկ գործառույթի միջոցով:

Հավանականությունները հետագայում վերածվում են երկուական արժեքների, և կանխատեսումը իրական դարձնելու համար այս արդյունքը հանձնվում է այն դասին, որին նա պատկանում է ՝ ելնելով այն բանից, թե ինքը մոտ է դասին:

Օրինակ, եթե լոգիստիկ ֆունկցիայի կիրառումը վերադարձնում է 0,85, ապա դա նշանակում է, որ մուտքագրումը առաջացնում է դրական դաս ՝ նշանակելով այն 1-ին դասի: Եվ հակառակը, եթե այն ստացել էր այնպիսի արժեք, ինչպիսին է 0,4 կամ ավելի ընդհանուր <0,5 ..

Լոգիստիկ ռեգրեսիան օգտագործում է լոգիստիկ գործառույթը `մուտքային արժեքների դասակարգումը գնահատելու համար:

Լոգիստիկ գործառույթը, որը կոչվում է նաև sigmoid, կոր է, որն ի վիճակի է վերցնել ցանկացած քանակի իրական արժեք և նկարագրել այն 0-ից մինչև 1-ի միջև ընկած արժեքի, բացառելով ծայրահեղությունների: Գործառույթը հետևյալն է.

որտեղ է այն:

ե. բնական լոգարիթմների հիմքը (Euler- ի համարը կամ Excel- ի գործառույթը exp ())
b0 + b1 * x: իրական թվային արժեք է, որը ցանկանում եք վերափոխել:

Ներկայացուցչություն, որն օգտագործվում էր լոգիստիկ ռեգրեսիայի համար

Լոգիստիկ ռեգրեսիան օգտագործում է հավասարումը որպես ներկայացուցչություն, որը նման է գծային հետընթացին

Մուտքի արժեքները (x) գծային համակցված են ՝ օգտագործելով կշիռները կամ գործակիցի արժեքները ՝ ելքային արժեքը կանխատեսելու համար (y): Գծային ռեգրեսիայի հիմնական տարբերությունն այն է, որ մոդելավորված ելքային արժեքը երկուական արժեք է (0 կամ 1), այլ ոչ թե թվային արժեք:

Ահա լոգիստիկ ռեգրեսիայի հավասարման մի օրինակ.

y = e^(b0 + b1 * x) / (1 + e^(b0 + b1 * x))

որտեղ `

y- ը կախվածության փոփոխական է, այսինքն `կանխատեսված արժեք;
b0- ը բևեռացման կամ ընդհատման տերմին է.
b1- ը միասնական մուտքային արժեքի գործակիցն է (x):

Մուտքագրման տվյալների յուրաքանչյուր սյունն ունի կապված b գործակից (անընդհատ իրական արժեք), որը պետք է սովորել դասընթացի տվյալներից:

Մոդելի իրական ներկայացուցչությունը, որը դուք պահում եք հիշողությունը կամ ֆայլը, հավասարման գործակիցներն են (բետա կամ բ արժեքը):

Լոգիստիկ ռեգրեսիան կանխատեսում է հավանականությունները (տեխնիկական միջակայք)

Լոգիստիկ ռեգրեսիան մոդելավորում է լռելյայն դասի հավանականությունը:

Որպես օրինակ, եկեք ենթադրենք, որ մենք մարդկանց սեռը մոդելավորում ենք որպես տղամարդ կամ իգական սեռի հասակից, առաջին դասը կարող է լինել տղամարդ, իսկ լոգիստիկ ռեգրեսիայի մոդելը կարող է գրվել, քանի որ տղամարդը տղամարդու հասակից բարձրություն ունենալու հավանականությունն է կամ ավելին: պաշտոնապես.

P (սեռ = տղամարդ | բարձրություն)

Այլ կերպ գրված՝ մենք մոդելավորում ենք այն հավանականությունը, որ մուտքայինը (X) պատկանում է pre դասինdefinite (Y = 1), մենք կարող ենք գրել այն այսպես.

P (X) = P (Y = 1 | X) |

Հավանականության կանխատեսումը պետք է վերածվի երկուական արժեքների (0 կամ 1), որպեսզի իրականում կատարվի հավանականության կանխատեսում:

Լոգիստիկ ռեգրեսիան գծային մեթոդ է, բայց կանխատեսումները վերափոխվում են ՝ օգտագործելով լոգիստիկ ֆունկցիան: Դրա ազդեցությունն այն է, որ մենք այլևս չենք կարող հասկանալ կանխատեսումները, որպես մուտքերի գծային համադրություն, ինչպես կարող ենք գծային հետընթացով, օրինակ ՝ վերևից շարունակելով, մոդելը կարող է արտահայտվել հետևյալ կերպ.

p(X) = e ^ (b0 + b1 * X) / (1 + e ^ (b0 + b1 * X))

Այժմ մենք կարող ենք վերափոխել հավասարումը հետևյալին: Այն հակադարձելու համար մենք կարող ենք շարունակել `մի կողմը հեռացնելով e- ն, մյուս կողմից ավելացնելով բնական լոգարիթմ:

ln (p (X) / 1 - p (X)) = b0 + b1 * X

Այս կերպ մենք ստանում ենք այն փաստը, որ աջից ելքի հաշվարկը կրկին գծային է (ճիշտ այնպես, ինչպես գծային հետընթացը), իսկ ձախը `մուտքը, լռելյայն դասի հավանականության լոգարիթմ է:

Հավանականությունները հաշվարկվում են որպես իրադարձության հավանականության հարաբերակցություն, որը բաժանված է որևէ իրադարձության հավանականությամբ, օրինակ. 0,8 / (1-0,8), որի արդյունքը 4. է, այնպես որ մենք փոխարենը կարող էինք գրել.

ln (հավանականություն) = b0 + b1 * X

Քանի որ հավանականությունները մուտքագրվում են, մենք անվանում ենք այս ձախակողմյան մուտքի կամ հավանականություն:

Մենք կարող ենք վերադարձնել ցուցիչը դեպի աջ և գրել այն որպես.

հավանականություն = e ^ (b0 + b1 * X)

Այս ամենը մեզ օգնում է հասկանալ, որ իսկապես մոդելը դեռևս մուտքերի գծային համակցություն է, բայց որ այս գծային համակցությունը վերաբերում է նախնական դասի լոգարիթմական հավանականություններին։defiնիտա.

Սովորելով լոգիստիկ ռեգրեսիայի մոդելը

Լոգիստիկ ռեգրեսիայի ալգորիթմի գործակիցները (բետա կամ բ արժեքները) գնահատվում են ուսման փուլում: Դա անելու համար մենք օգտագործում ենք առավելագույն հավանականության գնահատում:

Առավելագույն հավանականության գնահատումը ուսուցման ալգորիթմ է, որն օգտագործվում է մեքենայական ուսուցման մի քանի ալգորիթմների կողմից: Մոդելի արդյունքում ստացված գործակիցները նախադպրոցական դասարանի համար կանխատեսում են 1-ին շատ մոտ արժեք (օրինակ՝ արական):definite և 0-ին շատ մոտ արժեք (օրինակ՝ իգական) մյուս դասի համար: Լոգիստիկ ռեգրեսիայի առավելագույն հավանականությունը գործակիցների համար արժեքներ գտնելու ընթացակարգ է (Բետա կամ ob արժեքներ), որոնք նվազագույնի են հասցնում մոդելի կողմից կանխատեսված հավանականությունների սխալը տվյալների համեմատ (օրինակ՝ հավանականություն 1, եթե տվյալները առաջնային դաս են): .

Մենք կօգտագործենք նվազագույնի հասցման ալգորիթմ ՝ դասընթացի տվյալների լավագույն գործակիցի արժեքները օպտիմալացնելու համար: Դա հաճախ գործնականում իրականացվում է գործնականում օգտագործելով թվային օպտիմիզացման արդյունավետ ալգորիթմ:

Ercole Palmeri

Tags: դասակարգումըկլաստերացումարհեստական բանականությունMachine LearningPythonգծային ռեգրեսիա

16 օգոստոսի, 2020 4:02

հաջորդ Մարքեթինգի ավտոմատացում. սեգմենտավորում »

Նախկինում «Արհեստական բանականություն և ճանաչողական համակարգեր, ինչ են դրանք և հնարավոր կիրառությունները

Վերջին հոդվածները

Comunicati Stampa

Veeam-ն ունի ամենաընդգրկուն աջակցություն փրկագինին՝ պաշտպանությունից մինչև պատասխան և վերականգնում

Veeam-ի Coveware-ը կշարունակի տրամադրել կիբեր շորթման միջադեպերի արձագանքման ծառայություններ: Coveware-ը կառաջարկի դատաբժշկական և վերականգնման հնարավորություններ…

23 Ապրիլ 2024

Հոդվածներ

Կանաչ և թվային հեղափոխություն. Ինչպես է կանխատեսելի սպասարկումը փոխակերպում նավթի և գազի արդյունաբերությունը

Կանխատեսելի սպասարկումը հեղափոխություն է անում նավթի և գազի ոլորտում՝ կայանի կառավարման նորարարական և ակտիվ մոտեցմամբ:…

22 Ապրիլ 2024

Հոդվածներ

Մեծ Բրիտանիայի հակամենաշնորհային կարգավորիչը բարձրացնում է BigTech-ի ահազանգը GenAI-ի վերաբերյալ

Մեծ Բրիտանիայի CMA-ն նախազգուշացում է տարածել արհեստական ինտելեկտի շուկայում Big Tech-ի վարքագծի վերաբերյալ: Այնտեղ…

18 Ապրիլ 2024

Comunicati Stampa

Casa Green. էներգետիկ հեղափոխություն կայուն ապագայի համար Իտալիայում

Շենքերի էներգաարդյունավետության բարձրացման նպատակով Եվրոպական միության կողմից ձևակերպված «Քեյս Գրին» հրամանագիրը իր օրենսդրական գործընթացն ավարտել է…

18 Ապրիլ 2024

Մեքենաշինական ալգորիթմների դասակարգում. Գծային ռեգրեսիա, դասակարգում և կլաստերացում

Մեքենայական ուսումը մեծ նմանություններ ունի մաթեմատիկական օպտիմիզացիայի հետ, որն ապահովում է մեթոդներ, տեսություններ և կիրառման տիրույթներ:

Պարզ գծային ռեգրեսիայի մոդել

Բազմաթիվ գծային ռեգրեսիայի մոդել

Լոգիստիկ ռեգրեսիայի մոդելը

Ներկայացուցչություն, որն օգտագործվում էր լոգիստիկ ռեգրեսիայի համար

Լոգիստիկ ռեգրեսիան կանխատեսում է հավանականությունները (տեխնիկական միջակայք)

Սովորելով լոգիստիկ ռեգրեսիայի մոդելը

Վերջին հոդվածները

Veeam-ն ունի ամենաընդգրկուն աջակցություն փրկագինին՝ պաշտպանությունից մինչև պատասխան և վերականգնում

Կանաչ և թվային հեղափոխություն. Ինչպես է կանխատեսելի սպասարկումը փոխակերպում նավթի և գազի արդյունաբերությունը

Մեծ Բրիտանիայի հակամենաշնորհային կարգավորիչը բարձրացնում է BigTech-ի ահազանգը GenAI-ի վերաբերյալ

Casa Green. էներգետիկ հեղափոխություն կայուն ապագայի համար Իտալիայում

Վերջին հոդվածները

Տվյալների տեսակը որոշող հայտանիշ