Tutorial

Машиналарды үйрөнүү алгоритмдеринин классификациясы: Сызыктуу регрессия, Классификация жана кластер

Machine Learning математикалык оптимизациянын окшоштуктарына ээ, ал методдорду, теорияларды жана колдонмо тармактарын камсыз кылат. 

Машиналарды үйрөнүү келтирилген мисалдардын топтомуна (окутуу топтомуна) каршы чыгым функциясынын "минимизациялоо көйгөйлөрү" катары формулировкаланган. Бул функция окутулуп жаткан модель болжолдогон маанилер менен ар бир мисал үчүн күтүлгөн маанилердин ортосундагы дал келбестикти билдирет. 

Негизги максат - моделге окутуу топтомуна кирбеген учурлардын топтомун туура болжолдоого үйрөтүү.

Алгоритмдин ар кандай категорияларын бөлүүгө мүмкүн болгон ыкма - бул белгилүү бир системадан күтүлгөн натыйжанын түрү. машина үйрөнүү

Негизги категориялардын ичинен:

  • La классификация: киргизилген маалыматтар эки же андан көп класстарга бөлүнөт жана окутуу тутуму бир же бир нече класстарды киргизүү мүмкүнчүлүгүнө ээ болгондордун арасына бөлүштүрө алган модель түзүшү керек.Адатта, тапшырмалардын бул түрлөрү көзөмөлдөнгөн окутуу ыкмаларын колдонуу менен чечилет. 

    Классификациялоонун бир мисалы - бул бир же бир нече этикеткага андагы объектилердин же предметтердин негизинде сүрөт тартуу;

  • La регрессия: Концептуалдык жактан айырмачылык менен классификацияга окшош, чыгаруунун үзгүлтүксүз жана дискреттик эмес домени бар.Адатта, көзөмөлдөнгөн окутуу менен башкарылат. 

    Регрессиянын бир мисалы - көрүнүштүн тереңдигин түстүү сүрөт түрүндө чагылдыруу. 

    Чындыгында, каралып жаткан продукциянын домени дээрлик чексиз жана белгилүү бир дискреттик мүмкүнчүлүктөр менен чектелбейт;

  • Il кластердик: каерде маалыматтардын топтому топторго бөлүнөт, бирок классификациядан айырмаланып, априор деп аталбайт.Бул категорияга кирүүчү көйгөйлөрдүн мүнөзү, адатта, аларды көзөмөлсүз окуу тапшырмаларына айлантат.
Жөнөкөй сызыктуу регрессия модели

Сызыктуу регрессия - булреалдуу баалуулуктарды баалоодо колдонулган кеңири колдонулган модель, мисалы:

  • үйлөрдүн наркы,
  • чалуулардын саны,
  • адамга сатуунун жалпы көлөмү,

жана үзгүлтүксүз өзгөрмөлөрдүн критерийине ылайык келет:

  • чарчы метр,
  • учурдагы эсепке жазылуу,
  • адамды тарбиялоо

Сызыктуу регрессияда, көзкарандысыз жана көз каранды өзгөрмөлөрдүн ортосундагы байланыш, адатта, эки өзгөрмөнүн ортосундагы мамилени чагылдырган сызык аркылуу жүрөт.

Туура сызык регрессия сызыгы деп аталат жана Y = a * X + b тибиндеги сызыктуу теңдеме менен көрсөтүлөт.

Формула эки же андан көп мүнөздөмөлөрдү бири-бири менен байланыштырган интерполяциялык маалыматтарга негизделген. Алгоритмге киргизүү мүнөздөмөсүн бергенде, регрессия башка мүнөздөмөнү кайтарат.

Көп сызыктуу регрессия модели

Эгерде бизде бир нече көз карандысыз өзгөрмөлөр болсо, анда төмөнкү сызыктуу моделди алып, бир нече сызыктуу регрессия жөнүндө сөз кылабыз:


y=b0 + б1x1 + б2x2 + ... + Bnxn

  • y - маанилерге жооп, башкача айтканда ал модель менен болжолдонгон натыйжаны билдирет;
  • b0 тосулуу болуп саналат, бул y кездеги х маанисиi алардын бардыгы 0гө барабар;
  • биринчи мүнөздөмө b1 х коэффициенти1;
  • дагы бир өзгөчөлүк bn х коэффициентиn;
  • x1,x2, ..., Xn моделдин көз карандысыз өзгөрмөлөрү болуп саналат.

Негизинен, теңдеме үзгүлтүксүз көз каранды өзгөрмө (y) жана эки же андан көп көзкарандысыз өзгөрмөлөрдүн (x1, x2, x3 ...) байланышын түшүндүрөт. 

Мисалы, биз автомобильдин CO2 бөлүнүшүн (кыймылдуу өзгөрмө y) кыймылдаткычтын кубаттуулугун, цилиндрлердин санын жана күйүүчү майдын керектөөсүн эсепке алууну кааласак. Бул акыркы факторлор - x1, x2 жана x3 көзкарандысыз өзгөрмөлөр. Туруктуулук bi - чыныгы сандар жана моделдин эсептелген регрессиялык коэффициенттери деп аталат.Y - үзгүлтүксүз көз каранды өзгөрмө, б.a, b0 x1, b1 x2 ж.б.у.с. y чыныгы сан болот.

Көптүк регрессиялык талдоо - көз карандысыз өзгөрүлмө заттардын көзкаранды өзгөрмөгө тийгизген таасирин аныктоо үчүн колдонулган ыкма.

Көзкарандысыз өзгөрүлмө өзгөрүүлөрдүн көзкарандысыз өзгөрүүлөрдүн кандайча өзгөрүп жаткандыгын түшүнүү чыныгы кырдаалдагы өзгөрүүлөрдүн кесепеттерин же кесепеттерин болжолдоого мүмкүндүк берет.

Көп сызыктуу регрессияны колдонуу менен кан басымынын кандайча өзгөрөрүн, жаштын, жыныстык жана башкалардын факторлорун эске алуу менен дене салмагынын индексинин өзгөргөнүн түшүнүүгө болот.

Бир нече регрессиядан кийин биз мунайга же алтынга болгон келечектеги тенденция сыяктуу баа динамикасына баа алабыз.

Акырында, бир нече сызыктуу регрессия машинаны үйрөнүү жана жасалма интеллект тармагына көбүрөөк кызыгуу жаратат, анткени ал талдоого алынуучу жазуулардын көп санында болсо дагы, аткаруучу окуу моделдерин алууга мүмкүнчүлүк берет.

Логистикалык регрессия модели

Логистикалык регрессия - бир же бир нече түшүндүрмө өзгөрмөлөр менен биномдук натыйжаны моделдөөгө багытталган статистикалык каражат.

Көбүнчө экилик көйгөйлөр үчүн колдонулат, анда эки гана класс бар, мисалы Ооба же Жок, 0 же 1, эркек же аял ж.б. ...

Ошентип, маалыматтарды сүрөттөөгө жана экилик көзкаранды өзгөрмөлөрдүн жана бир же бир нече номиналдык же иреттик көзкарандысыз өзгөрмөлөрдүн ортосундагы байланышты түшүндүрүүгө болот.

Натыйжа логистикалык функцияны колдонуунун аркасында аныкталат, ал ыктымалдуулукту жана андан кийин бааланат defiалынган ыктымалдык маанисине эң жакын классты (оң же терс) аяктайт.

Биз логистикалык регрессияны үй-бүлөнү классификациялоо ыкмасы катары карасак болот көзөмөлдөөчү окуу алгоритмдери.

Статистикалык ыкмаларды колдонуу менен, логистикалык регрессия, натыйжада, берилген маанинин берилген класска таандык экендигин тастыктайт.

Биномиалдык логистикалык регрессия көйгөйлөрүндө, бир класстын чыгышы P, ал эми башка класстагы 1-P классы (P - 0 менен 1 ортосундагы сан, анткени ал ыктымалдуулукту билдирет).

Биномдук логистикалык регрессия биз болжолдоп жаткан өзгөрмө экилик болгон бардык учурларда жакшы иштейт, башкача айтканда, ал эки маанини гана алат: оң классты көрсөткөн 1 мааниси же терс классты көрсөткөн 0 мааниси.

Логистикалык регрессия менен чечиле турган көйгөйлөрдүн мисалдары:

  • электрондук почта спам же жок;
  • он-лайн сатып алуу шарттарын баалоо менен, алдамчылык менен жасалган же жокпу;
  • оорулуу анын радиусун баалаган сынык бар.

Логистикалык регрессиянын жардамы менен биз болжолдогон анализдерди жасай алабыз, биз болжолдогубуз келген нерсени (көз каранды өзгөрмө) жана бир же бир нече көзкарандысыз өзгөрмөлөрдүн, б.а. мүнөздөмөлөрүнүн ортосундагы байланышты өлчөйбүз. Ыктымалдуулукту баалоо логистикалык функция аркылуу жүргүзүлөт.

Кийинчерээк ыктымалдыктар экилик маанилерге айландырылат жана болжолдоону реалдуу кылуу үчүн, бул натыйжа класстын өзүнө жакын же жок экендигине жараша ага таандык класска берилет.

Мисалы, логистикалык функцияны колдонуу 0,85 кайтарса, демек, кириш 1-класска ыйгаруу менен оң классты пайда кылган дегенди билдирет, тескерисинче, ал 0,4 же андан жогору маанини алган болсо <0,5 ..

Инновациялык бюллетень
Инновация боюнча эң маанилүү жаңылыктарды өткөрүп жибербеңиз. Аларды электрондук почта аркылуу алуу үчүн катталыңыз.

Логистикалык регрессия логикалык функцияны колдонуп, кириш маанилеринин классификациясын баалайт.

Сигмоид деп аталган логистикалык функция - бул чыныгы маанилердин ар кандай санын алууга жана аны 0 менен 1 ортосундагы мааниге салыштырууга болот, чектен тышкары. Функция:

каерде:

  • e: табигый логарифмдердин негиздери (Эйлердин саны же excel функциясы exp ())
  • b0 + b1 * x: бул сиз өзгөрткүңүз келген чыныгы сандык мааниси.

Логистикалык регрессия үчүн колдонулган өкүлчүлүк

Логистикалык регрессия бир сызыктуу регрессияга окшоп, теңдемени колдонот

Кириш маанилери (x) чыгымдын маанисин (y) болжолдоо үчүн салмактуу же коэффициенттик маанилерди колдонуп сызыктуу бириктирилет. Сызыктуу регрессиядан негизги айырма, моделденген чыгымдын мааниси сандык эмес, экилик мааниге ээ (0 же 1).

Төмөндө логистикалык регрессия теңдемесинин мисалы келтирилген:

y = e^(b0 + b1 * x) / (1 + e^(b0 + b1 * x))

Dove:

  • y - көз каранды өзгөрмө, б.а. болжолдонгон маани;
  • b0 - поляризация же тосуу мезгили;
  • b1 - бирдиктүү киргизүү мааниси (x) үчүн коэффициент.

Киргизилген маалыматтардын ар бир тилкесинде b коэффициенти бар (туруктуу реалдуу маани), алар окуу маалыматынан үйрөнүүгө тийиш.

Эстутумда же файлда сактала турган моделдин чыныгы көрүнүшү бул теңдемедеги коэффициенттер (бета же b мааниси).

Логистикалык регрессия болжолдоолорду (техникалык диапазондо) алдын-ала божомолдойт

Логистикалык регрессия демейки класстын ыктымалдуулугун моделдейт.

Мисал катары, биз эркектердин жынысын эркек бой же эркек деп моделдейбиз деп коёлу, биринчи класс эркек, логистикалык регрессия модели эркек кишинин бойго жеткен же андан жогору болушу мүмкүн деп жазылды. расмий түрдө:

P (жынысы = эркек | бой)

Башка жол менен жазылган, биз киргизүү (X) пре класска таандык болуу ыктымалдыгын моделдештирип жатабызdefinite (Y = 1), биз аны төмөнкүчө жаза алабыз:

P(X) = P(Y = 1 | X)

Ыктымалдык божомолду иш жүзүндө болжолдоо үчүн экилик маанилерге (0 же 1) айлантуу керек.

Логистикалык регрессия - сызыктуу ыкма, бирок болжолдоолор логистикалык функцияны колдонуп өзгөртүлөт. Мунун таасири биз алдын-ала божомолдорду сызыктуу жазуулардын айкалыштырылышы катары түшүнө албай жатабыз, анткени сызыктуу регрессия менен, мисалы, жогорудан баштап, модель төмөнкүдөй болот:

p(X) = e ^ (b0 + b1 * X) / (1 + e ^ (b0 + b1 * X))

Эми биз теңдемени төмөндөгүдөй жол менен кайтара алабыз. Аны өзгөртүү үчүн, бир жагынан e-нү алып, экинчисине табигый логарифманы кошуп, улантсак болот.

ln (p (X) / 1 - p (X)) = b0 + b1 * X

Ошентип, оң жагындагы эсептөө кайрадан сызыктуу (сызыктуу регрессия сыяктуу) болуп, ал эми сол жагындагы киргизүү демейки класстын ыктымалдуулугунун логарифмине айланат.

Ыктымалдуулук окуянын ыктымалдуулугунун эч кандай окуянын ыктымалдуулугуна бөлүштүрүлгөн катышы катары эсептелет, мисалы 0,8 / (1-0,8), натыйжасы 4. Ошентип, биз анын ордуна:

ln (туура эмес) = b0 + b1 * X

Ыктымалдуулуктар журналга өзгөртүлгөндүктөн, биз аны сол тараптуу журналдар штрихи же probit деп атайбыз.

Экспонентти оңго кайтарып, аны төмөнкүдөй жаза алабыз:

ыктымалдуулук = e ^ (b0 + b1 * X)

Мунун баары бизге моделдин дагы эле киргизүүлөрдүн сызыктуу айкалышы экенин түшүнүүгө жардам берет, бирок бул сызыктуу айкалышы класска чейинки класстын лог ыктымалдыктарын билдирет.defiнита.

Логистикалык регрессия моделин үйрөнүү

Логистикалык регрессия алгоритминин коэффициенттери (бета же b маанилери) окуу баскычында бааланат. Бул үчүн, биз максималдуу ыктымалдыкты эсептөөнү колдонобуз.

Максималдуу ыктымалдыкты баалоо – бул бир нече машина үйрөнүү алгоритмдери тарабынан колдонулган үйрөнүү алгоритми. Моделден келип чыккан коэффициенттер мектепке чейинки класс үчүн 1ге жакын маанини (мисалы, эркек) болжолдойтdefinite жана башка класс үчүн 0гө жакын маани (мисалы, аял). Логистикалык регрессиянын максималдуу ыктымалдыгы – бул маалыматтардагыларга салыштырмалуу модель тарабынан болжолдонгон ыктымалдуулуктардагы катаны минималдаштыруучу коэффициенттердин (Бета же об маанилери) маанилерин табуу процедурасы (мисалы, эгерде маалыматтар негизги класс болсо, ыктымалдуулук 1). .

Окутуу маалыматтары үчүн эң жакшы коэффициент маанилерин оптимизациялоо үчүн минимизация алгоритмин колдонобуз. Бул көбүнчө санариптик оптимизациянын натыйжалуу алгоритмин колдонуп иш жүзүндө колдонулат.

Ercole Palmeri


Инновациялык бюллетень
Инновация боюнча эң маанилүү жаңылыктарды өткөрүп жибербеңиз. Аларды электрондук почта аркылуу алуу үчүн катталыңыз.

акыркы макалалар

Veeam ransomware үчүн коргоодон баштап жооп кайтарууга жана калыбына келтирүүгө чейин эң комплекстүү колдоону камтыйт

Veeam тарабынан Coveware кибер опузалап инциденттерге жооп берүү кызматтарын көрсөтүүнү улантат. Coveware криминалистика жана ремедиация мүмкүнчүлүктөрүн сунуштайт ...

April 23 2024

Жашыл жана санариптик революция: алдын ала тейлөө мунай жана газ өнөр жайын кантип өзгөртөт

Болжолдуу тейлөө заводду башкарууга инновациялык жана жигердүү мамиле кылуу менен мунай жана газ секторун революция кылып жатат.…

April 22 2024

Улуу Британиянын монополияга каршы жөнгө салуучу органы GenAI боюнча BigTech коңгуроосун көтөрөт

Улуу Британиянын CMA жасалма интеллект рыногунда Big Tech жүрүм-туруму жөнүндө эскертүү берди. Ал жерде…

April 18 2024

Casa Green: Италияда туруктуу келечек үчүн энергетикалык революция

Имараттардын энергетикалык натыйжалуулугун жогорулатуу үчүн Европа Биримдиги тарабынан иштелип чыккан "Case Green" Декрети өзүнүн мыйзам чыгаруу процессин аяктады ...

April 18 2024

Инновацияны өз тилиңизде окуңуз

Инновациялык бюллетень
Инновация боюнча эң маанилүү жаңылыктарды өткөрүп жибербеңиз. Аларды электрондук почта аркылуу алуу үчүн катталыңыз.

бизди ээрчи