Tutorial

د ماشین زده کړې الګوریتمونو طبقه بندي کول: خطي فشار ، طبقه بندي او کلستر کول

د ماشین زده کړه د ریاضیاتو اصلاح سره عالي ورته والی لري ، کوم چې میتودونه ، تیوري او د غوښتنلیک ډومینونه چمتو کوي.

د ماشین زده کړه د ورکړل شوي مثالونو (روزنې سیټ) پروړاندې د ضایع کیدو فعالیت د "کمولو ستونزې" په توګه تشکیل شوی. دا به د هغه مثالونو ترمینځ توپیر څرګندوي چې د روزل شوي ماډل لخوا وړاندوینې شوي ارزښتونه او د هرې بیلګې په توګه د تمه شوي ارزښتونو تر مینځ توپیر څرګندوي.

نهایی هدف دا دی چې ماډل د دې وړتیا درکړي چې د روزنې په سیټ کې شتون نلري د مثالونو په سیټ کې د سم وړاندوینې وړتیا.

یو میتود چې له مخې یې د الګوریتم مختلف کټګوریو توپیر کول ممکن دي د محصول ډول دی چې د یو ځانګړي سیسټم څخه تمه کیږي. ماشین زده کړه.

د هغه اصلي کټګوریو څخه چې موږ یې ګورو:

La ډلبندي: معلومات په دوه یا ډیرو ټولګیو ویشل شوي دي او د زده کړې سیسټم باید داسې بیلګه رامینځته کړي چې وړتیا ته د موجوده زده کونکو ترمنځ د یو یا ډیرو ټولګیو د ټاکلو وړتیا لري.دا ډول دندې په ځانګړي ډول د نظارت شوي نظارت تخنیکونو په کارولو سره په ګوته کیږي.
د ډلبندۍ یوه بیلګه د عکس یا موضوعاتو پراساس یو عکس ته د یو یا ډیرو لیبلونو سپړنه ده؛
La فشار: د نظریاتي پلوه د دې توپیر سره ډلبندۍ ته ورته دي چې محصول مسلسل او غیر متضاد ډومین لري.دا عموما د نظارت شوي زده کړې سره اداره کیږي.
د رجعت مثال د رنګ عکس په ب .ه کې د هغې نمایندګي څخه د یوې صحنې ژورتیا اټکلول دي.

په حقیقت کې ، د پوښتنې د محصول ډومین په حقیقت کې لامحدود دی ، او د امکاناتو یوې ټاکلې مختلفې ډلې پورې محدود نه دی؛
Il کلستر: چېرته دی د معلوماتو سیټ په ډلو ویشل شوی چې په هرصورت ، د طبقه بندۍ سره سم ، لومړیتوب نه پیژندل کیږي.په دې کټګورۍ پورې اړوند د ستونزو طبیعت معمولا دوی د زده کړې غیر منظم کار وګرځوي.

د ساده خطي رجعت ماډل

خطي فشارونه ديد اصلي ارزښتونو اټکل کولو لپاره په پراخه کچه کارول شوي ماډل کارول کیږي لکه:

د کورونو قیمت ،
د زنګ وهلو شمېر ،
د یو شخص ټوله پلور ،

او د پرله پسې بدلونونو معیارونه تعقیبوي:

مربع متره ،
جاري حساب ته ګډون ،
د شخص تعلیم

په خطي فشار کې ، د خپلواک تغیر او انحصاري تغیراتو ترمینځ اړیکه د یو لین له لارې تعقیب کیږي چې عموما د دوه تغیراتو ترمینځ اړیکې ښیې.

د فټ لاین د رجعت کرښې په توګه پیژندل کیږي او د Y = a * X + b ډول ډول مساوات لخوا ښودل کیږي.

فورمول د یو بل سره دوه یا ډیرو مشخصاتو شریکولو لپاره د ډیټا کولو ارقامو پراساس دي. کله چې تاسو الګوریتم ته د ننوت ځانګړتیا ورکوئ ، ریګریشن نور ځانګړتیا بیرته راولي.

د څو خطی عدد ماډل

کله چې موږ له یو څخه ډیر خپلواک متغیر ولرو ، نو بیا موږ د څو خطي فشار په اړه وغږیږو ، د بیلګې په توګه موډل په غاړه اخیستو سره:

y = ب₀ + ب₁x₁ + ب₂x₂ +… + بی_nx_n

y ارزښتونو ته غبرګون دی ، دا هغه دی چې د نمونې لخوا وړاندوینه شوې پایله وړاندې کوي؛
b₀ وقفه ده ، دا د y ارزښت دی کله چې x_iدوی ټول د 0 سره برابر دي؛
لومړی ځانګړتیا ب₁ د x کوفیفی دی₁;
بله بله ب bه ب_n د x کوفیفی دی_n;
x₁,x₂، ... ، ایکس_n د موډل خپلواک تغیرات دي.

اساسا مساوات د یو دوامداره انحصاري متغیر (y) او دوه یا ډیر خپلواک تغیراتو (x1 ، x2 ، x3…) تر مینځ اړیکې توضیح کوي.

د مثال په توګه ، که موږ وغواړو د انجن ځواک ، د سلنډر شمیرو او د سونګ مصرف په پام کې نیولو سره د موټر (منحصر متغیر y) د CO2 اخراج اټکل وکړو. دا وروستي فاکتورونه x1 ، x2 او x3 خپلواک متغیرات دي. دوامداره بای اصلي شمیرې دي او د ماډل اټکل شوي ریګریشن کوفیفینټس بلل کیږي. Y دوامداره انحصار متغیر دی ، د بیلګې په توګه د B0 ، b1 x1 ، b2 x2 ، او نورو مجموعه. y به ریښتینی شمیره وي.

ګ reg ریګریشن تحلیل هغه میتود دی چې د اغیز پیژندلو لپاره کارول کیږي چې خپلواک تغیرات په متکي متغیر پورې اړه لري.

د خپلواک متغیر بدلون په توګه د منحصر متغیر بدلونونو څرنګوالي پوهیدل موږ ته اجازه راکوي چې واقعیا حالتونو کې د بدلونونو اغیزو یا تاثیراتو وړاندوینه وکړو.

د ګ lineو خطي فشارونو کارول دا امکان لري چې وپوهیږو چې د وینې فشار څنګه بدلون مومي ځکه چې د بدن ماس انډیکس د فاکتورونو په پام کې نیولو سره بدلون کوي لکه عمر ، جنسیت ، او داسې نور چې پیښ شي څه پیښ شي.

د ډیری فشار سره موږ کولی شو د نرخ رجحاناتو باندې اټکلونه ترلاسه کړو ، لکه د تیلو یا زرو لپاره راتلونکي رجحان.

په نهایت کې ، ډیری خطي فشار د ماشین زده کړې او مصنوعي استخباراتو په برخه کې لا زیاته علاقه لټوي ځکه چې دا د زده کړې نمونې ترلاسه کولو ته اجازه ورکوي حتی که د لوی شمیر ریکارډونو تحلیل شي.

د لوژستیک ریګریشن ماډل

لوژیستیک فشار د احصایې وسیله ده چې هدف یې د دوه یا ډیرو پایلو ماډل کول د یو یا ډیرو توضیحي بدلونونو سره دي.

دا عموما د بائنری ستونزو لپاره کارول کیږي ، چیرې چې دلته دوه ټولګي شتون لري ، د مثال په توګه هو یا نه ، 0 یا 1 ، نارینه یا ښځینه ...

پدې توګه دا ممکنه ده چې ډاټا تشریح کړئ او د بائنری انحصار متغیر او یو یا ډیرو خپلواک نومیال یا معمول متغیرونو ترمینځ اړیکې تشریح کړئ.

پایله د لوژیستیکي فعالیت کارولو څخه مننه ټاکل کیږي ، کوم چې احتمال اټکل کوي او بیا defiد ترلاسه شوي احتمال ارزښت ته نږدې ټولګي (مثبت یا منفي) پای ته رسوي.

موږ کولی شو لوژیستیک فشار د کورنۍ کورنۍ طبقه بندي کولو میتود په توګه په پام کې ونیسو د زده کړې الګوریتم څارل.

د احصایوي میتودونو په کارولو سره ، لوژیستیک فشار د یوې پایلې رامینځته کولو ته اجازه ورکوي کوم چې په حقیقت کې احتمال څرګندوي چې ورکړل شوي آخرن قیمت د ورکړل شوې طبقې سره تړاو لري.

د دوه اړخیز لوژیستیک ریګریشن ستونزو کې ، احتمال چې تولید به د یوې ټولګي پورې تړاو ولري P وي ، پداسې حال کې چې دا د بل ټولګي 1-P پورې تړاو لري (چیرې چې P د 0 او 1 تر مینځ شمیره ده ځکه چې دا احتمال څرګندوي).

د دوه اړخیز لوژیستیک ریګریشن په هغه ټولو قضیو کې ښه کار کوي په کومو کې چې هغه تغیرات چې موږ یې وړاندوینه کوو دوی دوه اړخیز دی ، دا دی ، دا کولی شي یوازې دوه ارزښتونه ونیسي: ارزښت 1 چې د مثبت ټولګي استازیتوب کوي ، یا ارزښت 0 کوم چې منفي طبقه نمایندګي کوي.

د ستونزو مثالونه چې د لوژستیک فشار لخوا حل کیدی شي دا دي:

بریښنالیک سپیم دی یا نه؛
د آنلاین پیرود درغلي ده که نه ، د پیرود شرایطو ارزونه؛
ناروغ د رادیو په ارزولو سره ماتېږي.

د لوژیستیک فشار سره موږ کولی شو وړاندوینې تحلیل ترسره کړو ، د هغه څه تر مینځ اړیکې اندازه کول چې موږ یې وړاندوینه کوو (منحصر متغیر) او یو یا ډیر خپلواک تغیرات ، یعنی مشخصات. د احتمال اټکل د لوژستیک فنکشن له لارې ترسره کیږي.

احتمالات بیا وروسته بائنری ارزښتونو ته بدلیږي ، او د وړاندوینې ریښتینې کیدو لپاره ، دا پایله هغه ټولګي ته ټاکل شوې چې تړاو لري ، په دې بنسټ چې ایا دا پخپله ټولګي ته نږدې ده یا نه.

د مثال په توګه ، که چیرې د لوژستیک فعالیت غوښتنه 0,85 بیرته راشي ، نو پدې معنی ده چې ان پیوټ 1 ټولګي ته د ګمارلو سره مثبت ټولګی رامینځته کړی. په برعکس که دا یو ارزښت ترلاسه کړی وي لکه 0,4 یا نور عموما <0,5 ..

لوژیستیک ریګریشن د ننوتلو ارزښتونو ډلبندۍ ارزولو لپاره لوژستیک فن کاروي.

لوژیستیک فنکشن ، چې سیګمویډ هم ویل کیږي ، یو داسې محور دی چې د هرډول ریښتیني ارزښت په اخیستو او د 0 او 1 تر مینځ ارزښت ته د نقشه کولو وړتیا لري ، د اضافي نه علاوه. دنده یې دا ده:

چېرته دی:

e: د طبیعي لوګارتمونو اساس (د ایولر شمېره ، یا اکسیل فن ایکسپرې ())
b0 + b1 * x: دا ریښتیني عددي ارزښت دی چې تاسو غواړئ بدل یې کړئ.

نماینده د لوژیستیک فشار لپاره کارول کیږي

لوژیستیک فشار د یو نمایش په توګه مساوات کاروي ، لکه د خطي فشار په څیر

ننوت ارزښتونه (x) په موازي ډول د وزن یا کوفیفي ارزښتونو په کارولو سره یوځای کیږي ، ترڅو د محصول ارزښت (y) وړاندوینه وکړي. د خطي فشار څخه یو مهم توپیر دا دی چې د ماډل شوي محصول ارزښت د شمیري ارزښت په پرتله دوه لمبر ارزښت (0 یا 1) دی.

لاندې د لوژستیک ریګریشن معادلې یوه بیلګه ده:

y = e^(b0 + b1 * x) / (1 + e^(b0 + b1 * x))

ډیوه:

y انحصاري تغیر لري ، یعنی وړاندوینه شوی ارزښت؛
b0 د قطبي کولو یا مداخلې اصطلاح ده؛
b1 د واحد ان پټ ارزښت (x) لپاره وړونکی دی.

د معلوماتو معلوماتو کې هر کالم یو اړونده بی کوفیف لري (یو ثابت ریښتینی ارزښت) چې باید د روزنې ډاټا څخه یې زده کړل شي.

د موډل اصلی نمایش چې تاسو به یې په حافظه یا فایل کې ذخیره کړئ په مساواتو کې د کوفیفینټ (بیټا یا بی ارزښت) دي.

لوژستیک فشار د احتمال وړاندوینه کوي (تخنیکي حد)

لوجیستیک ریګریشن ماډل د ډیفالټ ټولګي احتمال.

د مثال په توګه ، راځئ فرض کړو چې موږ د دوی جنس څخه د نارینه یا ښځینه په توګه د خلکو جنسي نمونه ایښودو ، لومړی ټولګی نارینه کیدی شي ، او د لوژیستیک ریګریشن ماډل د یو فرد لوړوالی ، یا ډیر نور ورکړل شوي احتمال په توګه لیکل کیدی شي. په رسمي ډول:

P (جنس = نارینه | قد)

په بل ډول لیکل شوي، موږ د احتمال نمونه کوو چې یو ان پټ (X) د ټولګي پری پورې اړه لريdefinite (Y = 1)، موږ کولی شو دا په لاندې ډول ولیکو:

P(X) = P(Y = 1 | X)

د احتمال وړاندوینه باید واقعیا د احتمال وړاندوینې کولو لپاره باینري ارزښتونو (0 یا 1) کې بدله شي.

لوژیستیک رجعت یو خطي میتود دی ، مګر وړاندوینې د لوژستیک فنکشن په کارولو سره بدلیږي. د دې اغیزه دا ده چې موږ نور نشو کولی د لیکلو د خطي ترکیب په توګه وړاندوینې په هغه ډول پوه کړو چې موږ د خطي فشار سره کولی شو ، د بیلګې په توګه ، له پورته څخه دوام ورکول ، ماډل په لاندې ډول څرګند کیدی شي:

p (X) = e ^ (b0 + b1 * x) / (1 + e ^ (b0 + b1 * x))

اوس موږ کولی شو مسایل په لاندې ډول بیرته واخلو. د دې بیرته راګرځولو لپاره ، موږ کولی شو په یو اړخ کې د ای لرې کولو سره په بلې خوا کې د طبیعي لوګارتم اضافه کولو سره پرمخ لاړ شو.

ln (p (X) / 1 - p (X)) = b0 + b1 * X

پدې توګه موږ واقعیت ترلاسه کوو چې په ښي اړخ کې د محصول محاسبه یو ځل بیا خطي وي (لکه د خطي ریګریشن په څیر) ، او په کی left اړخ کې ننوت د ډیفالټ ټولګي احتمال لوګارتم دی.

احتمالات د پیښې احتمال سره د تناسب په توګه حسابیږي د پیښې احتمال سره ویشل شوي ، د بیلګې په توګه. 0,8 / (1-0,8) چې پایله یې 4. ده نو موږ یې پرځای لیکلی شو:

ln (توپیرونه) = b0 + b1 * X

لدې چې احتمالات د لوګ تغیر شوي ، نو موږ دې ته کیds اړخې ونې یا عوامل وایو.

موږ نشو کیدی چې ښی خوا ته راستون شو او دا یې ولیکو:

احتمال = ای ^ (b0 + b1 * X)

دا ټول له موږ سره مرسته کوي چې پوه شو چې په حقیقت کې ماډل لاهم د آخذونو یو خطي ترکیب دی، مګر دا چې دا خطي ترکیب د مخکې ټولګي د لوګو احتمالاتو ته اشاره کوي.defiنيتا

د لوژستیک ریګریشن موډل زده کړه

د لوژستیک ریګریشن الګوریتم کوفیفینس (بیټا یا بی ارزښتونه) د زده کړې مرحله کې اټکل شوي. د دې کولو لپاره ، موږ د احتمالي اټکل څخه کار اخلو.

د اعظمي احتمال اټکل د زده کړې الګوریتم دی چې د څو ماشین زده کړې الګوریتمونو لخوا کارول کیږي. د موډل په پایله کې کوفیفینټ د مخکې ټولګي لپاره 1 (د مثال په توګه نارینه) ته نږدې ارزښت وړاندوینه کويdefiنایټ او ارزښت د بلې ټولګي لپاره 0 (د مثال په توګه ښځینه) ته نږدې دی. د لوژیستیکي ریګریشن لپاره اعظمي احتمال د کوفیفینس (بیټا یا او او ارزښتونو) لپاره د ارزښتونو موندلو یوه کړنلاره ده چې د ماډل لخوا اټکل شوي احتمالاتو کې غلطۍ کموي د ډیټا په پرتله (د مثال په توګه احتمال 1 که ډیټا لومړني ټولګي وي) .

موږ به د روزنې ډیټا لپاره غوره کوفیفیت ارزښتونو اصلاح کولو لپاره د لږترلږه الګوریتم وکاروو. دا اکثرا د مؤثره شمیره مطلوب اصلاح الګوریتم په کارولو سره په عمل کې پلي کیږي.

Ercole Palmeri