Sangguni

Pag-uuri ng Mga Algoritma sa Pag-aaral ng Machine: Linear Regression, Classification at Clustering

Ang Machine Learning ay may mahusay na pagkakapareho sa pag-optimize ng matematika, na nagbibigay ng mga pamamaraan, teorya at mga domain ng application.

Ang pag-aaral ng makina ay nabalangkas bilang "mga pag-minimize ng mga problema" ng isang pagkawala ng pag-andar laban sa isang naibigay na hanay ng mga halimbawa (set ng pagsasanay). Ang tampok na ito ay nagpapahiwatig ng pagkakaiba sa pagitan ng mga halagang hinula ng modelo na sinanay at ang inaasahang mga halaga para sa bawat halimbawa.

Ang panghuli layunin ay upang turuan ang modelo ng kakayahang mahulaan nang tama sa isang hanay ng mga pagkakataon na hindi naroroon sa set ng pagsasanay.

Ang isang paraan ayon sa kung saan posible na makilala ang iba't ibang kategorya ng algorithm ay ang uri ng output na inaasahan mula sa isang tiyak na sistema ng machine learning.

Kabilang sa mga pangunahing kategorya na matatagpuan namin:

La pag-uuri: ang mga input ay nahahati sa dalawa o higit pang mga klase at ang sistema ng pagkatuto ay dapat gumawa ng isang modelo na may kakayahang magtalaga ng isa o higit pang mga klase sa mga magagamit sa isang input.Ang mga ganitong uri ng mga gawain ay karaniwang tinutugunan gamit ang mga pinangangasiwaang pamamaraan ng pagkatuto.
Ang isang halimbawa ng pag-uuri ay ang pagtatalaga ng isa o higit pang mga label sa isang imahe batay sa mga bagay o paksa na nilalaman nito;
La pagbabalik: katulad ng pag-uuri sa pag-uuri na may pagkakaiba na ang output ay may isang tuluy-tuloy at hindi discrete domain.Ito ay karaniwang pinamamahalaan sa pangangasiwa ng pag-aaral.
Ang isang halimbawa ng regression ay ang pagtatantya ng lalim ng isang tanawin mula sa kinatawan nito sa anyo ng isang imahe ng kulay.

Sa katunayan, ang domain ng output na pinag-uusapan ay halos walang hanggan, at hindi limitado sa isang tiyak na discrete set ng mga posibilidad;
Il clustering: saan iyon isang hanay ng data ay nahahati sa mga pangkat na, gayunpaman, hindi tulad ng pag-uuri, ay hindi kilala bilang isang prioriya.Ang tunay na likas na katangian ng mga problema na kabilang sa kategoryang ito ay karaniwang ginagawang hindi sila suportado na mga gawain sa pagkatuto.

Simpleng linear regression model

Ang linear regression aymalawak na ginamit na modelo na tinantya ang totoong mga halaga tulad ng:

gastos ng mga bahay,
bilang ng mga tawag,
kabuuang benta bawat tao,

at sumusunod sa criterion ng patuloy na mga variable:

square square,
subscription sa isang kasalukuyang account,
edukasyon ng tao

Sa linear na regression, ang isang ugnayan sa pagitan ng mga malayang variable at nakasalalay na variable ay sinusundan sa pamamagitan ng isang linya na karaniwang kumakatawan sa relasyon sa pagitan ng dalawang variable.

Ang angkop na linya ay kilala bilang linya ng regression at kinakatawan ng isang linear equation ng uri Y = a * X + b.

Ang pormula ay batay sa interpolating data upang maiugnay ang dalawa o higit pang mga katangian sa bawat isa. Kapag binigyan mo ang algorithm ng isang katangian na input, ang pagbabalik ay nagbalik sa iba pang katangian.

Maramihang mga linear regression model

Kung mayroon kaming higit sa isang independyenteng variable, pagkatapos ay nagsasalita kami ng maraming linear regression, sa pag-aakalang isang modelo tulad ng sumusunod:

y=b₀ + B₁x₁ + B₂x₂ + ... + B_nx_n

y ang tugon sa mga halaga, iyon ay, kumakatawan sa resulta na hinulaang ng modelo;
b₀ ang pangharang, iyon ang halaga ng y kapag x_isilang lahat ay pantay sa 0;
ang unang katangian b₁ ay ang koepisyent ng x₁;
isa pang tampok b_n ay ang koepisyent ng x_n;
x₁,x₂, ..., X_n ay ang mga independiyenteng variable ng modelo.

Karaniwan ang ekwasyon ay nagpapaliwanag sa ugnayan sa pagitan ng isang patuloy na umaasa sa variable (y) at dalawa o higit pang mga independiyenteng variable (x1, x2, x3 ...).

Halimbawa, kung nais naming tantyahin ang paglabas ng CO2 ng isang kotse (umaasa variable na y) isinasaalang-alang ang kapangyarihan ng engine, ang bilang ng mga cylinders at pagkonsumo ng gasolina. Ang mga huling kadahilanan na ito ay ang mga independiyenteng variable x1, x2 at x3. Ang mga constant bi ay mga tunay na numero at tinawag na tinatayang coefficient ng regression ng modelo.Y ay ang patuloy na umaasa sa variable, i.e. pagiging kabuuan ng b0, b1 x1, b2 x2, atbp. y ay magiging isang tunay na numero.

Ang maramihang pagsusuri ng regresyon ay isang pamamaraan na ginamit upang makilala ang epekto ng independyenteng mga variable sa isang dependant variable.

Ang pag-unawa kung paano nagbabago ang mga nagbabago na variable bilang pagbabago ng malayang variable ay nagbibigay-daan sa amin upang mahulaan ang mga epekto o epekto ng mga pagbabago sa mga tunay na sitwasyon.

Gamit ang maramihang mga linear regression posible na maunawaan kung paano nagbabago ang presyon ng dugo habang nagbabago ang index ng mass ng katawan na isinasaalang-alang ang mga kadahilanan tulad ng edad, kasarian, atbp.

Sa pamamagitan ng maraming regresyon maaari kaming makakuha ng mga pagtatantya sa mga trend ng presyo, tulad ng hinaharap na takbo para sa langis o ginto.

Sa wakas, ang maraming linear regression ay nakakahanap ng higit na interes sa larangan ng pag-aaral ng makina at artipisyal na katalinuhan dahil pinapayagan nitong makakuha ng mga pagganap na modelo ng pag-aaral kahit na sa kaso ng isang malaking bilang ng mga talaan upang masuri.

Modelong Logistic Regression

Ang logistic regression ay isang statistical tool na naglalayong modelo ng isang binomial na resulta na may isa o higit pang mga paliwanag na variable.

Karaniwang ginagamit ito para sa mga problema sa binary, kung saan mayroong lamang dalawang klase, halimbawa Oo o Hindi, 0 o 1, lalaki o babae atbp ...

Sa ganitong paraan posible na mailalarawan ang data at ipaliwanag ang ugnayan sa pagitan ng isang variable na umaasa sa binary at isa o higit pang mga nominal o ordinal independent variable.

Ang resulta ay natutukoy salamat sa paggamit ng isang logistic function, na tinatantya ang isang probabilidad at pagkatapos definagtatapos sa pinakamalapit na klase (positibo o negatibo) sa nakuhang halaga ng posibilidad.

Maaari nating isaalang-alang ang logistic regression bilang isang paraan ng pag-uuri ng pamilya ni pinangangasiwaan ang mga algorithm ng pagkatuto.

Gamit ang mga istatistikong pamamaraan, ang logistic regression ay nagbibigay-daan upang makabuo ng isang resulta na, sa katunayan, ay kumakatawan sa isang posibilidad na ang isang naibigay na halaga ng pag-input ay kabilang sa isang naibigay na klase.

Sa binomial logistic regression problem, ang posibilidad na ang output ay kabilang sa isang klase ay P, samantalang kabilang ito sa iba pang klase 1-P (kung saan ang P ay isang numero sa pagitan ng 0 at 1 dahil nagpapahiwatig ito ng isang posibilidad).

Ang binomial logistic regression ay gumagana nang maayos sa lahat ng mga kaso na kung saan ang variable na sinusubukan nating hulaan ay binary, iyon ay, maaari lamang tumagal ng dalawang halaga: ang halaga 1 na kumakatawan sa positibong klase, o ang halaga 0 na kumakatawan sa negatibong klase.

Ang mga halimbawa ng mga problema na maaaring malutas ng logistic regression ay:

ang isang e-mail ay spam o hindi;
ang isang online na pagbili ay mapanlinlang o hindi, sinusuri ang mga kondisyon ng pagbili;
ang isang pasyente ay may bali, sinusuri ang radii nito.

Sa pamamagitan ng logistic regression maaari nating gawin ang mahuhulaan na pagsusuri, pagsukat sa ugnayan sa pagitan ng nais nating hulaan (dependant variable) at isa o higit pang independiyenteng variable, i.e. Ang pagtatantya ng posibilidad ay ginagawa sa pamamagitan ng isang pag-andar ng logistik.

Ang mga posibilidad ay kasunod na binago sa mga halaga ng binary, at upang gawing totoo ang hula, ang resulta na ito ay itinalaga sa klase kung saan ito pag-aari, batay sa kung ito ay malapit sa klase mismo.

Halimbawa, kung ang aplikasyon ng pagpapaandar na logistic ay nagbabalik ng 0,85, pagkatapos ay nangangahulugan ito na ang input ay nakabuo ng isang positibong klase sa pamamagitan ng pagtatalaga nito sa klase 1. Sa kabaligtaran kung nakakuha ito ng isang halaga tulad ng 0,4 o higit pa sa pangkalahatan <0,5 ..

Ang logistic regression ay gumagamit ng logistic function upang suriin ang pag-uuri ng mga halaga ng input.

Ang pag-andar ng logistik, na tinatawag ding sigmoid, ay isang curve na may kakayahang kumuha ng anumang bilang ng tunay na halaga at pagma-map ito sa isang halaga sa pagitan ng 0 at 1, hindi kasama ang mga labis. Ang function ay:

kung saan:

e: base ng natural logarithms (bilang ng Euler's, o excel function exp ())
b0 + b1 * x: ay ang aktwal na halaga ng numerong nais mong baguhin.

Ang kinatawan na ginamit para sa pagrerebyu ng logistic

Ang logistic regression ay gumagamit ng isang equation bilang isang representasyon, katulad ng linear regression

Ang mga halaga ng input (x) ay magkakasamang pinagsama gamit ang mga timbang o koepisyenteng halaga, upang mahulaan ang isang halaga ng output (y). Ang isang pangunahing pagkakaiba mula sa linear regression ay ang modelong halaga ng output ay isang binary na halaga (0 o 1) sa halip na isang numerong halaga.

Narito ang isang halimbawa ng isang pagkakapareho ng logistic regression:

y = e^(b0 + b1 * x) / (1 + e^(b0 + b1 * x))

Kalapati:

y ang nakasalalay na variable, i.e. ang hinulaang halaga;
ang b0 ay ang polariseysyon o pangharang term;
Ang b1 ay ang koepisyent para sa solong halaga ng input (x).

Ang bawat haligi sa data ng pag-input ay may kaugnay na koepisyent (isang palaging tunay na halaga) na dapat matutunan mula sa data ng pagsasanay.

Ang aktwal na representasyon ng modelo na iyong maiimbak sa memorya o isang file ay ang mga koepisyentidad sa ekwasyon (ang beta o halaga ng b).

Hinuhulaan ng logistic regression ang mga probabilidad (saklaw ng teknikal)

Ang mga modelistikong regresyon ng logistic ang posibilidad ng default na klase.

Bilang isang halimbawa, ipalagay natin na nagmomodelo kami ng sex ng mga tao bilang lalaki o babae mula sa kanilang taas, ang unang klase ay maaaring lalaki, at ang modelong logistic regression ay maaaring isulat bilang posibilidad ng pagiging lalaki na bibigyan ng taas ng isang tao, o higit pa. pormal:

P (sex = lalaki | taas)

Isinulat sa ibang paraan, kami ay nagmomodelo ng posibilidad na ang isang input (X) ay kabilang sa klase predefigabi (Y = 1), maaari nating isulat ito bilang:

P(X) = P(Y = 1 | X)

Ang posibilidad ng paghula ay dapat ibahin sa mga halaga ng binary (0 o 1) upang aktwal na gumawa ng isang posibilidad na hula.

Ang logistic regression ay isang linear na pamamaraan, ngunit ang mga hula ay nagbago gamit ang logistic function. Ang epekto nito ay hindi na natin maiintindihan ang mga hula bilang isang linear na kombinasyon ng mga input hangga't maaari natin sa linear regression, halimbawa, na nagpapatuloy mula sa itaas, ang modelo ay maipahayag bilang:

p(X) = e ^ (b0 + b1 * X) / (1 + e ^ (b0 + b1 * X))

Ngayon ay maaari nating baligtarin ang equation tulad ng mga sumusunod. Upang baligtarin ito maaari naming magpatuloy sa pamamagitan ng pag-alis ng e sa isang panig sa pamamagitan ng pagdaragdag ng isang natural na logarithm sa kabilang panig.

ln (p (X) / 1 - p (X)) = b0 + b1 * X

Sa ganitong paraan nakuha namin ang katotohanan na ang pagkalkula ng output sa kanan ay magkatabi ulit (tulad ng linear regression), at ang input sa kaliwa ay isang logarithm ng posibilidad ng default na klase.

Ang mga probabilidad ay kinakalkula bilang isang ratio ng posibilidad ng kaganapan na hinati sa posibilidad ng walang kaganapan, hal. 0,8 / (1-0,8) na ang resulta ay 4. Kaya't sa halip maaari nating isulat:

ln (logro) = b0 + b1 * X

Dahil ang mga probabilidad ay naka-log-transform, tinawag namin ang kaliwang panig na log-odds o probit.

Maaari naming ibalik ang exponent sa kanan at isulat ito bilang:

posibilidad = e ^ (b0 + b1 * X)

Ang lahat ng ito ay tumutulong sa amin na maunawaan na ang modelo ay isa pa ring linear na kumbinasyon ng mga input, ngunit ang linear na kumbinasyong ito ay tumutukoy sa log probabilities ng pre class.definita.

Pag-aaral ng modelo ng logistic regression

Ang mga coefficients (beta o b halaga) ng logistic regression algorithm ay tinatantya sa yugto ng pag-aaral. Upang gawin ito, gumagamit kami ng maximum na posibilidad na pagtatantya.

Ang pagtatantya ng maximum na posibilidad ay isang algorithm sa pag-aaral na ginagamit ng ilang mga algorithm ng machine learning. Ang mga coefficient na nagreresulta mula sa modelo ay hinuhulaan ang isang halaga na napakalapit sa 1 (hal. lalaki) para sa pre-school na klasedefigabi at isang value na napakalapit sa 0 (hal. babae) para sa kabilang klase. Ang pinakamataas na posibilidad para sa logistic regression ay isang pamamaraan ng paghahanap ng mga value para sa mga coefficient (Beta o ob values) na nagpapaliit sa error sa mga probabilities na hinulaang ng modelo na may kaugnayan sa mga nasa data (hal. probability 1 kung ang data ang primary class) .

Gumagamit kami ng isang algorithm na minimization upang ma-optimize ang pinakamahusay na mga halaga ng koepisyent para sa data ng pagsasanay. Ito ay madalas na ipinatupad sa pagsasanay gamit ang isang mahusay na numerical algorithm ng pag-optimize.

Ercole Palmeri

Tags: pag-uuriclusteringartipisyal na katalinuhanPag-aaral ng Machinepythonlinear regression

Agosto 16, 2020 4:02 ng gabi

susunod Marketing Automation: segmentation »

nakaraan «Artipisyal na katalinuhan at mga sistemang nagbibigay-malay, kung ano ang mga ito at posibleng mga aplikasyon

Kamakailang Mga Artikulo

Artikulo

Mga Online na Pagbabayad: Narito Kung Paano Ka Binabayaran ng Mga Serbisyo ng Streaming Magpakailanman

Milyun-milyong tao ang nagbabayad para sa mga serbisyo ng streaming, na nagbabayad ng buwanang bayad sa subscription. Karaniwang opinyon na ikaw ay…

Abril 29 2024

Mag-sign up

Itinatampok ng Veeam ang pinakakomprehensibong suporta para sa ransomware, mula sa proteksyon hanggang sa pagtugon at pagbawi

Ang Coveware ng Veeam ay patuloy na magbibigay ng mga serbisyo sa pagtugon sa insidente ng cyber extortion. Mag-aalok ang Coveware ng mga kakayahan sa forensics at remediation...

Abril 23 2024

Artikulo

Green and Digital Revolution: Kung Paano Binabago ng Predictive Maintenance ang Industriya ng Langis at Gas

Binabago ng predictive maintenance ang sektor ng langis at gas, na may makabago at proactive na diskarte sa pamamahala ng halaman.…

Abril 22 2024

Artikulo

Itinaas ng UK antitrust regulator ang BigTech alarm sa GenAI

Ang UK CMA ay naglabas ng babala tungkol sa gawi ng Big Tech sa merkado ng artificial intelligence. doon…

Abril 18 2024