tutorial

Klasifikasi Algoritma Pembelajaran Mesin: Garis Linier, Klasifikasi sareng Kluster

Mesin Learning boga kamiripan hébat sareng optimasi matematika, anu nyayogikeun metode, téori sareng domain aplikasi.

Pembelajaran mesin dirumuskeun salaku "masalah ngaminimalkeun" tina fungsi rugi ngalawan sababaraha conto conto (set latihan). Fitur ieu ngungkabkeun bedil antara nilai-nilai anu diramalkeun ku modél anu dilatih sareng nilai-nilai diperkirakeun pikeun masing-masing conto.

Tujuan utama nyaéta pikeun ngajarkeun modél pangabisa ngaduga sacara leres dina susunan sanés anu teu aya dina set latihan.

Métode numutkeun yén kamungkinan pikeun ngabédakeun sababaraha kategori algoritma nyaéta jinis kaluaran anu dipiharep tina sistem anu tangtu. learning mesin.

Diantara kategori utama anu urang mendakan:

La klasifikasi: masukan dibagi jadi dua atanapi langkung kelas sareng sistem diajar kedah ngahasilkeun modél anu sanggup ngadaptarkeun hiji atanapi langkung kelas diantara anu sayogi.Tugas ieu jinis tugas biasana dibahas ngagunakeun téhnik diajar anu diawasi.
Conto klasifikasi nyaéta ngerjakeun hiji atanapi langkung labél ka gambar dumasar kana objék atanapi subjek anu dikandung dina éta;
La régrési: konsépsi sami sareng klasifikasi sareng bédana yén kaluaran ngagaduhan domain anu terus-terusan sareng henteu diskrit.Éta biasana dikelola kalayan diajar diawasi.
Conto régrési nyaéta perkiraan jero pamandangan tina perwakilanna dina wujud gambar warna.

Kanyataanna, domain kaluaran sual ampir teu terbatas, sareng henteu dugi kana set diskrit tangtu kamungkinan;
Il clustering: dimana sakumpulan data kabagi kana grup anu kitu, teu siga klasifikasi, henteu dipikanyaho priori.Sifat-sifat tina masalah kagolong kana kategori ieu biasana ngajadikeun tugas-tugas diajar anu henteu dilatih.

Modél régrési liniér basajan

Régrési liniér nyaétamodel anu loba dipaké pikeun ngitung nilai nyata saperti:

biaya imah,
sajumlah telepon,
total penjualan unggal jalma,

sarta nuturkeun kriteria variabel kontinyu:

meter pasagi,
langganan kana rekening anu ayeuna,
pendidikan jalma

Dina régrési liniér, hubungan antara variabel mandiri sareng variabel gumantung dituturkeun liwat hiji garis anu biasana ngagambarkeun hubungan antara dua variabel.

Garis fitna katelah garis regression sarta ditunjuk ku persamaan linier tina jenis Y = a * X + b.

Rumus ieu dumasar kana data interpolating pikeun ngahubungkeun dua atanapi langkung karakteristik. Nalika anjeun masihan algoritma na hiji karakteristik input, régrési mulih deui ciri séjén.

Model régrési liniér langkung

Nalika urang ngagaduhan leuwih ti hiji variabel mandiri, teras urang nyarios sababaraha régérasi linier, nganggap yén modél sapertos kieu:

y=b₀ + b₁x₁ + b₂x₂ + ... + B_nx_n

y nyaéta tanggepan kana nilai, nya éta, ngagambarkeun hasil anu diprediksi ku model;
b₀ nyaéta nyegat, nyaéta niléy y nalika x_iaranjeunna sami sareng 0;
ciri kahiji b₁ nyaeta koefisien x₁;
fitur lain b_n nyaeta koefisien x_n;
x₁,x₂,…, X_n nyaéta variabel mandiri model.

Dasarna persamaan ngajelaskeun hubungan antara variabel gumantung terus (y) sareng dua atanapi langkung variabel bebas (x1, x2, x3 ...).

Salaku conto, upami urang hoyong perkiraan émisi CO2 mobil (gumantung variabel y) nimbangkeun kakuatan mesin, jumlah silinder sareng konsumsi bénsin. Faktor panginten ieu mangrupikeun variabel mandiri x1, x2 sareng x3. Konstanta bi mangrupikeun wilangan riil sareng disebut koefisien régrési estimasi modél. Y nyaéta variabel gumantung anu terus-terusan, i.e. minangka jumlah b0, b1 x1, b2 x2, jsb. y bakal janten wilangan nyata.

Analisis régrési langkung tial mangrupikeun metode anu dianggo pikeun ngidentipikasi pangaruh variabel bebas dina variabel gumantung.

Ngartos kumaha parobahan variabel gumantung salaku parobahan variabel mandiri ngamungkinkeun urang ngaduga épék atanapi dampak parobahan dina kaayaan nyata.

Nganggo régrési liniér sababaraha kamungkinan pikeun ngarti kumaha tekanan getih dirobih salaku indéks massa awak robah faktor-faktor sapertos umur, jinis, sareng sajabana, sahingga nganggap naon anu tiasa kajantenan.

Kalayan régrési langkung seueur kami tiasa nampi perkiraan ngeunaan tren harga, sapertos tren kahareup minyak atanapi emas.

Pamustunganana, sababaraha régérasi linier mikaresep minat anu langkung ageung kana bidang pembelajaran mesin sareng intelijen buatan sabab ngamungkinkeun kéngingkeun modél diajar sanajan dina kasus jumlah rékaman anu dianalisis.

Model Regresi Logistik

Régrési logistik mangrupikeun alat statistik anu tujuanana pikeun modél hasil binomial kalayan variabel salah sahiji atanapi langkung panjelasan.

Sacara umum dianggo pikeun masalah binér, dimana ngan ukur dua kelas, sapertos Sumuhun atanapi Henteu, 0 atanapi 1, jalu atanapi awéwé jsb ...

Ku cara kieu tiasa waé ngajelaskeun data sareng ngajelaskeun hubungan antara hiji variabel gumantung binéran sareng hiji variabel mandiri atanapi ordinal mandiri.

Hasilna ditangtukeun berkat pamakéan hiji fungsi logistik, nu estimasi probabiliti lajeng defiends kelas pangdeukeutna (positip atawa négatif) kana nilai probabiliti diala.

Urang tiasa nganggap régrési logistik salaku metode pikeun ngabagi kulawarga algoritma belajar diawasi.

Nganggo metode statistik, régrési logistik ngamungkinkeun pikeun ngahasilkeun hasil, saleresna, nunjukkeun kamungkinan yén nilai input anu dipasihkeun ka kelas anu ditangtukeun.

Dina masalah régrési logistik binomial, kamungkinan yén kaluaran kagolong kana hiji kelas bakal aya P, sedengkeun éta kaasup kelas 1-P anu sanés (dimana P mangrupikeun nomer antara 0 sareng 1 sabab nyatakeun kamungkinan).

Régrési logistik binomial hadé dina sadaya kasus dimana variabel anu urang cobian nyaéta ramalan nyaéta binér, nyaéta, éta ukur tiasa nyandak dua nilai: nilai 1 anu ngagambarkeun kelas positip, atanapi nilai 0 anu ngagambarkeun kelas négatip.

Conto masalah anu tiasa direngsekeun ku régrési logistik nyaéta:

e-mail mangrupikeun spam atanapi henteu;
hiji mésér online éta palsu atanapi henteu, evaluasi mésér kaayaan;
sabar ngagaduhan narekahan, ngevaluasi radii na.

Kalayan régrési logistik urang tiasa ngalakukeun analisa ramalan, ngukur hubungan antara anu badé diprediksi (variabel gumantung) sareng hiji atanapi langkung variabel bebas, i.e. Perkiraan kamungkinan dilaksanakeun ngaliwatan fungsi logistik.

Kamungkinan kahareupna dirobah jadi nilai binér, sareng pikeun ngaduga prediksi nyata, hasilna ieu ditugaskeun ka kelas anu kalebet, dumasar kana naha éta deukeut sareng kelas téa.

Salaku conto, upami aplikasi fungsi logistik mulih 0,85, maka éta hartosna yén input ngahasilkeun kelas positip ku masihan ka kelas 1. Sabalikna upami éta ngagaduhan nilai sapertos 0,4 atanapi langkung umum <0,5 ..

Régrési logistik ngagunakeun fungsi logistik pikeun ngitung klasifikasi nilai input.

Fungsi logistik, anu ogé disebut sigmoid, nyaéta kurva anu tiasa nyandak sababaraha angka anu leres sareng pemetaan kana nilai antara 0 sareng 1, teu ngaleungitkeun ekstrim. Fungsi nyaéta:

dimana:

e: dasar logaritma alami (sajumlah Euler, atanapi fungsi unggul exp ())
b0 + b1 * x: nyaéta angka angka anu saleresna anu anjeun hoyong robih.

Répréséntasi anu dianggo pikeun régrési logistik

Régrési logistik ngagunakeun persamaan salaku perwakilan, siga régrési linier

Nilai input (x) digabung sacara linier ngagunakeun beurat atanapi koefisien nilai, pikeun ngaduga nilai output (y). Beda penting tina régrési linier nyaéta yén nilai output anu dimodelkeun nilai binér (0 atanapi 1) tinimbang nilai numerik.

Ieu conto ngeunaan persamaan régrési logistik:

y = e^(b0 + b1 * x) / (1 + e^(b0 + b1 * x))

Japati:

y nyaéta variabel gumantung, i.e. nilai anu diprediksi;
b0 mangrupikeun polarisasi atanapi istilah anu nyegat;
b1 mangrupikeun koefisien pikeun nilai input tunggal (x).

Unggal kolom dina data input gaduh koefisien b pakait (nilai tetep konstan) anu kedah dipelajari tina data latihan.

Perwakilan saleresna modél anu anjeun badé simpen dina mémori atanapi file mangrupikeun koefisien dina persamaan (béta atanapi b).

Régrési logistik prediksi kamungkinan (rentang téknis)

Model régrési logistik kamungkinan pikeun kelas standar.

Salaku conto, hayu urang nganggap urang modél kelamin jalma salaku jalu atanapi awéwé ti jangkungna, kelas munggaran tiasa jalu, sareng modél régrési logistik bisa ditulis salaku kamungkinan lalaki anu dipasihkeun ku jangkungna hiji jalma, atanapi seueur deui. sacara formal:

P (awewe atawa lalaki = jalu | jangkungna)

Ditulis ku cara sejen, urang modeling probabiliti yén hiji input (X) milik pre kelasdefinite (Y = 1), urang bisa nulis salaku:

P(X) = P(Y = 1 | X)

Prediksi prédiksi kedah robih janten nilai binar (0 atanapi 1) supados leres ngadamel kamungkinan.

Régrési logistik mangrupikeun padika linier, tapi ramalan dirobih ngagunakeun fungsi logistik. Dampak ieu nyaéta yén kami henteu tiasa deui ngirangan prediksi salaku kombinasi linier masukan salaku urang tiasa sareng régrési linier, contona, diteruskeun ti luhur, model tiasa dinyatakeun salaku:

p(X) = e ^ (b0 + b1 * X) / (1 + e ^ (b0 + b1 * X))

Ayeuna urang tiasa ngabalikeun rumus sapertos kieu. Pikeun ngabalikeun deui urang tiasa neruskeun kéngingkeun ngahapus e dina hiji sisi ku nambihan logarithm alami di sisi séjén.

ln (p (X) / 1 - p (X)) = b0 + b1 * X

Ku cara kieu kami nyatana yén pangitungan kaluaran di beulah katuhu ogé linear deui (sapertos linear regression), sareng input di kénca nyaéta logaritma probabilitas kelas standar.

Kamungkinan diitung salaku rasio probabilitas kajadian dibagi ku probabilitas moal aya kajadian, e.g. 0,8 / (1-0,8) anu hasilnana 4. Maka urang malah tiasa nyerat:

ln(odds) = b0 + b1 *

Kusabab probabiliti parantos dirobih, urang nyauran log-odds kénca-sisi ieu atanapi probit.

Urang tiasa mulangkeun éksponén anu leres sareng nyerat sapertos:

probabilitas = e ^ (b0 + b1 * X)

Sadaya ieu ngabantosan urang ngartos yén modél éta masih mangrupikeun kombinasi linier tina input, tapi yén kombinasi linier ieu nujul kana probabiliti log tina kelas pra.definita.

Diajar modél régrési logistik

Koefisien (béta atanapi b nilai) tina algoritma régrési logistik diperkirakeun dina fase diajar. Jang ngalampahkeun ieu, kami nganggo perkiraan kemungkinan maksimum.

Estimasi kamungkinan maksimum nyaéta algoritma pembelajaran anu digunakeun ku sababaraha algoritma pembelajaran mesin. Koéfisién anu dihasilkeun tina modél ngaramalkeun nilai anu deukeut pisan ka 1 (misalna lalaki) pikeun kelas pra-sakola.definite sarta nilai deukeut pisan 0 (misalna bikang) pikeun kelas séjén. Kamungkinan maksimum pikeun régrési logistik nyaéta prosedur pikeun milarian nilai pikeun koefisien (Nilai Béta atanapi ob) anu ngaminimalkeun kasalahan dina probabiliti anu diprediksi ku modél relatif ka anu aya dina data (misalna kamungkinan 1 upami data mangrupikeun kelas primér) .

Kami bakal ngagunakeun algoritma ngaminimalisasi pikeun ngaoptimalkeun nilai koefisien pangsaéna pikeun data palatihan. Ieu sering dilaksanakeun dina prakték ngagunakeun algoritma optimis numeris éfisién.

Ercole Palmeri