मशीन लर्निंग अल्गोरिदमचे वर्गीकरण: रेखीय प्रतिरोध, वर्गीकरण आणि क्लस्टरिंग

रेखीय प्रतिगमन
प्रशिक्षण

मशीन लर्निंगमध्ये गणितीय ऑप्टिमायझेशनशी खूप समानता आहे, जे पद्धती, सिद्धांत आणि अनुप्रयोग डोमेन प्रदान करते. 

मशीन लर्निंगला दिलेल्या उदाहरणांच्या संचाच्या (ट्रेनिंग सेट) विरूद्ध लॉस फंक्शनची "मिनिमायझेशन प्रॉब्लेम्स" म्हणून बनवले जाते. हे वैशिष्ट्य मॉडेलद्वारे प्रशिक्षित केलेल्या अंदाजानुसार मूल्ये आणि प्रत्येक उदाहरणाकरिता अपेक्षित मूल्ये यांच्यातील भिन्नता दर्शवते. 

प्रशिक्षण लक्ष्यात नसलेल्या घटनांच्या संचावर मॉडेलला योग्य अंदाज लावण्याची क्षमता शिकविणे हे अंतिम लक्ष्य आहे.

एक पद्धत ज्यानुसार अल्गोरिदमच्या विविध श्रेणींमध्ये फरक करणे शक्य आहे विशिष्ट मशीन शिक्षण प्रणालीद्वारे अपेक्षित आउटपुटचा प्रकार आहे. 

आम्हाला आढळणार्‍या मुख्य श्रेणींमध्ये:

  • La वर्गीकरण: इनपुट दोन किंवा अधिक वर्गांमध्ये विभागले गेले आहेत आणि शिक्षण प्रणालीने एखादे मॉडेल तयार केले पाहिजे जे इनपुटला उपलब्ध असलेल्यांपैकी एक किंवा अधिक वर्ग नियुक्त करण्यास सक्षम असेल.पर्यवेक्षी शिकण्याच्या तंत्राचा वापर करून या प्रकारच्या कार्यांवर लक्ष केंद्रित केले जाते. 

    वर्गीकरणाचे उदाहरण म्हणजे त्यामध्ये असलेल्या ऑब्जेक्ट्स किंवा विषयांवर आधारित प्रतिमेत एक किंवा अधिक लेबलांची असाइनमेंट;

  • La प्रतिरोध: आउटपुटमध्ये सतत आणि नॉन-डिस्कट डोमेन असलेल्या भिन्नतेसह वर्गीकरणासारखे वैचारिकदृष्ट्या समान.हे विशेषतः पर्यवेक्षी शिक्षणाद्वारे व्यवस्थापित केले जाते. 

    रंगाच्या प्रतिमेच्या स्वरुपात एखाद्या देखाव्याच्या खोलीतून त्याच्या प्रतिनिधित्वाची किती खोली असते याचा अंदाज घेणे हे प्रतिरोधचे उदाहरण आहे. 

    खरं तर, प्रश्नातील आउटपुटचे क्षेत्र अक्षरशः असीम आहे, आणि संभाव्यतेच्या काही विशिष्ट संचापुरते मर्यादित नाही;

  • Il क्लस्टरिंग: ते कुठे आहे डेटाचा एक गट अशा गटांमध्ये विभागलेला असतो जो वर्गीकरणाऐवजी पूर्वप्राप्ती म्हणून ओळखला जात नाही.या श्रेणीतील समस्यांचे स्वरुप सामान्यत: त्यांना शिकवण्याची कार्यमुक्ती रद्द करते.

साधे रेखीय रीग्रेशन मॉडेल

रेखीय प्रतिरोध आहेवास्तविक मूल्यांचा अंदाज लावण्यासाठी मोठ्या प्रमाणावर वापरले जाणारे मॉडेल जसे की:

  • घरांची किंमत,
  • कॉलची संख्या,
  • प्रति व्यक्ती एकूण विक्री,

आणि सतत चल च्या निकष अनुसरण:

  • चौरस मीटर,
  • चालू खात्याची सदस्यता,
  • व्यक्तीचे शिक्षण

रेखीय रीग्रेशनमध्ये स्वतंत्र व्हेरिएबल्स आणि डिपेंडेंट व्हेरिएबल्समधील संबंध एका रेषेतून केले जाते जे सामान्यत: दोन व्हेरिएबल्समधील संबंध दर्शवते.

तंदुरुस्त रेखाला रीग्रेशन लाइन म्हणून ओळखले जाते आणि Y = a * X + b प्रकाराचे रेखीय समीकरण दर्शविले जाते.

सूत्र एकमेकांशी दोन किंवा अधिक वैशिष्ट्ये संबद्ध करण्यासाठी डेटा इंटरपोलिंगवर आधारित आहे. जेव्हा आपण अल्गोरिदमला एक इनपुट वैशिष्ट्य देता, तेव्हा रिग्रेशन्स इतर वैशिष्ट्य परत करते.

मशीन लर्निंग अल्गोरिदमचे वर्गीकरण: रेखीय प्रतिरोध, वर्गीकरण आणि क्लस्टरिंग

एकाधिक रेखीय रीग्रेशन मॉडेल

जेव्हा आपल्याकडे एकापेक्षा जास्त स्वतंत्र चल असतात, तर आम्ही खालील प्रमाणे मॉडेल गृहीत धरुन एकाधिक रेषीय रीग्रेशनबद्दल बोलतो:


y = बी0 + बी1x1 + बी2x2 +… + बीnxn

  • y म्हणजे मूल्यांना दिलेला प्रतिसाद, म्हणजेच तो मॉडेलने वर्तविलेल्या निकालाचे प्रतिनिधित्व करतो;
  • b0 इंटरसेप्ट आहे, x चे y चे मूल्य आहेi ते सर्व ० च्या बरोबरीचे आहेत;
  • पहिले वैशिष्ट्य ब1 x चे गुणांक आहे1;
  • अजून एक वैशिष्ट्य बीn x चे गुणांक आहेn;
  • x1,x2,…, एक्सn मॉडेलचे स्वतंत्र व्हेरिएबल्स आहेत.

मुळात हे समीकरण सतत अवलंबून चल (y) आणि दोन किंवा अधिक स्वतंत्र चल (x1, x2, x3…) यांच्यातील संबंध स्पष्ट करते. 

उदाहरणार्थ, जर इंजिनची शक्ती, सिलिंडर्सची संख्या आणि इंधनाचा वापर लक्षात घेऊन आपण (सीओ 2 उत्सर्जित कार) उत्सर्जन करू इच्छित असाल तर. हे नंतरचे घटक स्वतंत्र व्हेरिएबल्स एक्स 1, एक्स 2 आणि एक्स 3 आहेत. स्थिरांक दोन वास्तविक संख्या आहेत आणि त्यांना मॉडेलच्या अंदाजित रीग्रेशन गुणांक म्हणतात. वाय हे सतत अवलंबून चल आहे, म्हणजे बी 0, बी 1 एक्स 1, बी 2 एक्स 2 इ. ची बेरीज. y एक वास्तविक संख्या असेल.

मल्टीपल रीग्रेशन एनालिसिस ही एक पध्दत आहे जी स्वतंत्र व्हेरिएबल्सवर अवलंबून असलेल्या व्हेरिएबलवर होणारा प्रभाव ओळखण्यासाठी वापरली जाते.

स्वतंत्र व्हेरिएबल्स बदल म्हणून अवलंबित बदल कसे बदलतात हे समजून घेतल्यामुळे वास्तविक परिस्थितीतील बदलांच्या प्रभावांचा किंवा परिणामाचा अंदाज घेता येतो.

एकाधिक रेषीय प्रतिकारांचा वापर करून, वय, लिंग इत्यादी बाबींचा विचार करून बॉडी मास इंडेक्समध्ये बदल होताना रक्तदाब कसा बदलतो हे समजणे शक्य आहे, जेणेकरून असे घडू शकते.

एकाधिक रीग्रेशनसह आम्ही भावी प्रवृत्तींवर अंदाज येऊ शकतो, जसे की तेल किंवा सोन्याच्या भविष्यातील कल.

अखेरीस, एकाधिक रेषीय प्रतिरोध मशीन मशीन आणि कृत्रिम बुद्धिमत्तेच्या क्षेत्रात अधिक स्वारस्य अनुभवत आहे कारण मोठ्या संख्येने अभिलेखांचे विश्लेषण केले जावे अशा बाबतीतही ते परफॉर्मिंग लर्निंग मॉडेल्स प्राप्त करू देते.

लॉजिस्टिक रीग्रेशन मॉडेल

लॉजिस्टिक रिग्रेशन एक सांख्यिकीय साधन आहे ज्याचा उद्देश एक किंवा अधिक स्पष्टीकरणात्मक चलांसह द्विपक्षीय निकालाचे मॉडेल बनविणे आहे.

हे सामान्यत: बायनरी समस्यांसाठी वापरले जाते, जेथे फक्त दोन वर्ग आहेत, उदाहरणार्थ होय किंवा नाही, 0 किंवा 1, नर किंवा मादी इ ...

अशा प्रकारे डेटाचे वर्णन करणे आणि बायनरी अवलंबून चल आणि एक किंवा अधिक नाममात्र किंवा सामान्य स्वतंत्र व्हेरिएबल्समधील संबंध स्पष्ट करणे शक्य आहे.

लॉजिस्टिक फंक्शनच्या वापराबद्दल परिणाम निश्चित केला जातो, जो संभाव्यतेचा अंदाज घेतो आणि नंतर मिळवलेल्या संभाव्यतेच्या मूल्यासाठी सर्वात जवळील वर्ग (सकारात्मक किंवा नकारात्मक) परिभाषित करतो.

च्या कुटुंबाचे वर्गीकरण करण्याची एक पद्धत म्हणून आम्ही लॉजिस्टिक रीग्रेशनचा विचार करू शकतो पर्यवेक्षी शिक्षण अल्गोरिदम.

सांख्यिकीय पद्धतींचा वापर करून लॉजिस्टिक रीग्रेशन एक परिणाम तयार करण्यास अनुमती देते जे खरं तर दिलेली इनपुट मूल्य दिलेल्या वर्गाची आहे अशी संभाव्यता दर्शवते.

द्विपदीय लॉजिस्टिक रीग्रेशन समस्यांमधे आउटपुट एका वर्गाचे असेल अशी संभाव्यता पी असेल तर ती दुसर्‍या वर्ग 1-पीशी संबंधित असेल (जिथे पी 0 आणि 1 मधील संख्या आहे कारण ती संभाव्यता दर्शवते).

द्विपक्षीय लॉजिस्टिक रीग्रेशन त्या सर्व प्रकरणांमध्ये चांगले कार्य करते ज्यामध्ये आपण ज्या व्हेरिएबलचा भविष्यवाणी करण्याचा प्रयत्न करीत आहोत ते बायनरी आहे, म्हणजेच ते फक्त दोन मूल्ये गृहित धरू शकतेः मूल्य 1 जे सकारात्मक वर्गाचे प्रतिनिधित्व करते किंवा मूल्य 0 जे नकारात्मक वर्गाचे प्रतिनिधित्व करते.

लॉजिस्टिक रीग्रेशनद्वारे सोडविल्या जाणार्‍या समस्यांचे उदाहरणः

  • ई-मेल स्पॅम आहे किंवा नाही;
  • ऑनलाइन खरेदी फसवणूकीची आहे किंवा नाही, खरेदी अटींचे मूल्यांकन करीत आहे;
  • एखाद्या रुग्णाला फ्रॅक्चर होते, ते त्याच्या रेडिओचे मूल्यांकन करते.

लॉजिस्टिक रीग्रेशनसह आम्ही भविष्यवाणी करणारे विश्लेषण करू शकतो, जे आपण भाकीत करू इच्छितो (अवलंबून चल) आणि एक किंवा अधिक स्वतंत्र चल, म्हणजे वैशिष्ट्ये. संभाव्यता अंदाज लॉजिस्टिक फंक्शनद्वारे केले जाते.

संभाव्यतेचे नंतर बायनरी मूल्यांमध्ये रूपांतर होते आणि भविष्यवाणी खरी ठरविण्यासाठी, हा निकाल त्या वर्गात नेमला जातो जो वर्ग जवळ आहे की नाही यावर आधारित असतो.

उदाहरणार्थ, जर लॉजिस्टिक फंक्शनचा वापर ०.0,85 परत आला तर त्याचा अर्थ असा आहे की इनपुटने वर्ग १ ला नियुक्त करुन एक सकारात्मक वर्ग तयार केला आहे. उलट जर त्याने ०..1 किंवा त्यापेक्षा अधिक सामान्य मूल्य प्राप्त केले असेल तर <0,4 ..

इनपुट मूल्यांच्या वर्गीकरणाचे मूल्यांकन करण्यासाठी लॉजिस्टिक रीग्रेशन लॉजिस्टिक फंक्शनचा वापर करते.

लॉजिस्टिक फंक्शन, ज्याला सिग्मॉईड असे म्हणतात, ही एक वक्र आहे जी कितीही वास्तविक मूल्य वगळता किती वास्तविक मूल्य घेते आणि त्यास 0 आणि 1 मधील मूल्यामध्ये मॅप करण्यास सक्षम असते. हे कार्यः

मशीन लर्निंग अल्गोरिदमचे वर्गीकरण: रेखीय प्रतिरोध, वर्गीकरण आणि क्लस्टरिंग

ते कुठे आहे:

  • ई: नैसर्गिक लॉगरिदमचा आधार (युलरची संख्या, किंवा एक्सेल फंक्शन एक्सप ())
  • बी 0 + बी 1 * एक्स: आपणास रूपांतरित करायचे आहे हे वास्तविक संख्यात्मक मूल्य आहे.

मशीन लर्निंग अल्गोरिदमचे वर्गीकरण: रेखीय प्रतिरोध, वर्गीकरण आणि क्लस्टरिंग

लॉजिस्टिक रीग्रेशनसाठी वापरलेले प्रतिनिधित्व

लॉजिस्टिक रीग्रेशन हे रेखीय प्रतिगमन सारखेच प्रतिनिधित्व म्हणून समीकरण वापरते

इनपुट मूल्य (एक्स) आउटपुट मूल्य (वाई) ची पूर्वानुमान करण्यासाठी वजन किंवा गुणांक मूल्यांचा वापर करून रेषात्मकपणे एकत्र केले जातात. रेखीय प्रतिगमनातील महत्त्वाचा फरक हा आहे की मॉडेलिंग आउटपुट मूल्य हे संख्यात्मक मूल्याऐवजी बाइनरी मूल्य (0 किंवा 1) आहे.

खाली लॉजिस्टिक रीग्रेशन समीकरणाचे उदाहरण आहेः

y = e ^ (बी 0 + बी 1 * एक्स) / (1 + ई ^ (बी 0 + बी 1 * एक्स))

कबूतर:

  • y हे अवलंबित चल आहे, म्हणजेच अंदाजित मूल्य;
  • बी 0 ध्रुवीकरण किंवा इंटरसेप्ट टर्म आहे;
  • बी 1 एकल इनपुट मूल्य (x) साठी गुणांक आहे.

इनपुट डेटामधील प्रत्येक स्तंभात संबंधित बी गुणांक (एक स्थिर वास्तविक मूल्य) असते जे प्रशिक्षण डेटामधून शिकले जाणे आवश्यक आहे.

आपण मेमरीमध्ये किंवा फाईलमध्ये संग्रहित केलेल्या मॉडेलचे वास्तविक प्रतिनिधित्व समीकरण (बीटा किंवा बी मूल्य) मधील गुणांक आहेत.

लॉजिस्टिक रीग्रेशनने संभाव्यतेची (तांत्रिक श्रेणी) भविष्यवाणी केली आहे

लॉजिस्टिक रीग्रेशन मॉडेल डीफॉल्ट वर्गाची संभाव्यता.

एक उदाहरण म्हणून, समजा आपण लोकांच्या लैंगिकतेचे पुरुष किंवा पुरुष म्हणून त्यांची उंची वरून मॉडेलिंग करीत आहोत, प्रथम वर्ग पुरुष असू शकतो आणि एखाद्या व्यक्तीची उंची किंवा त्याहून अधिक दिले जाण्याची शक्यता म्हणून लॉजिस्टिक रीग्रेशन मॉडेल लिहिले जाऊ शकते. औपचारिकरित्याः

पी (लिंग = पुरुष | उंची)

दुसर्‍या मार्गाने लिहिले, आम्ही संभाव्यतेचे मॉडेलिंग करीत आहोत की एखादे इनपुट (एक्स) डीफॉल्ट वर्गाचे आहे (वाय = 1), आम्ही ते असे लिहू शकतो:

पी (एक्स) = पी (वाई = 1 | एक्स)

संभाव्यतेचा अंदाज बांधण्यासाठी संभाव्यतेचे भविष्य सांगणे बायनरी व्हॅल्यूजमध्ये (0 किंवा 1) मध्ये बदलले जाणे आवश्यक आहे.

लॉजिस्टिक रीग्रेशन ही एक रेषीय पद्धत आहे, परंतु लॉजिस्टिक फंक्शनचा वापर करून अंदाज बदलले जातात. याचा परिणाम असा आहे की आपण रेखीय आक्षेपार्हतेसह आवाजाचे रेषीय संयोजन म्हणून अंदाज यापुढे समजून घेऊ शकत नाही, उदाहरणार्थ, वरुन पुढे जात असताना, मॉडेल असे व्यक्त केले जाऊ शकते:

पी (एक्स) = ई ^ (बी ० + बी १ * एक्स) / (१ + ई ^ (बी ० + बी १ * एक्स))

आता आपण खालीलप्रमाणे समीकरण उलट करू शकता. त्यास उलट करण्यासाठी आम्ही एकीकडे ई बाजूला काढून दुस side्या बाजूला नैसर्गिक लॉगरिदम जोडून पुढे जाऊ शकतो.

ln (पी (एक्स) / 1 - पी (एक्स)) = बी 0 + बी 1 * एक्स

अशाप्रकारे आम्हाला हे सत्य मिळते की उजवीकडील आउटपुटची गणना पुन्हा रेखीय आहे (रेखीय रीग्रेशन प्रमाणेच), आणि डावीकडील इनपुट हे डीफॉल्ट वर्गाच्या संभाव्यतेचे लॉगॅरिथम आहे.

संभाव्यतेची गणना इव्हेंटच्या संभाव्यतेच्या प्रमाणात म्हणून केली जाते ज्यात कोणत्याही घटनेच्या संभाव्यतेद्वारे विभाजित केलेले नाही, उदा. 0,8 / (1-0,8) ज्याचा निकाल 4 आहे. म्हणून आम्ही त्याऐवजी लिहू शकतो:

ln (शक्यता) = बी 0 + बी 1 * एक्स

संभाव्यतेचे लॉग-ट्रान्सफॉर्मेशन असल्यामुळे आम्ही या डाव्या बाजूने लॉग-ऑडियस किंवा प्रॉबिट म्हणतो.

आपण घातांक उजवीकडे परत करू आणि हे लिहू शकतो:

संभाव्यता = ई ^ (बी 0 + बी 1 * एक्स)

हे सर्व आम्हाला हे समजण्यास मदत करते की खरं तर मॉडेल अद्याप इनपुटचे एक रेषीय संयोजन आहे, परंतु हे रेषीय संयोजन पूर्वनिर्धारित वर्गाच्या लॉगरिथमिक संभाव्यतेचा संदर्भ देते.

लॉजिस्टिक रीग्रेशन मॉडेल शिकणे

लॉजिस्टिक रीग्रेशन अल्गोरिदमचे गुणांक (बीटा किंवा बी व्हॅल्यू) शिकण्याच्या अवस्थेत अनुमानित केले जातात. हे करण्यासाठी, आम्ही जास्तीत जास्त संभाव्यतेचा अंदाज वापरतो.

जास्तीत जास्त संभाव्यता अंदाज हा एक मशीन अल्गोरिदम आहे जो बर्‍याच मशीन लर्निंग अल्गोरिदम द्वारे वापरला जातो. मॉडेलच्या परिणामी गुणांक डीफॉल्ट वर्गासाठी 1 (उदा. पुरुष) च्या अगदी जवळील मूल्य आणि इतर वर्गासाठी 0 (उदा. महिला) च्या अगदी जवळील मूल्य अंदाज करते. लॉजिस्टिक रीग्रेशनची जास्तीत जास्त शक्यता ही गुणांक (बीटा किंवा बी व्हॅल्यूज) साठी मूल्ये शोधण्याची एक प्रक्रिया आहे जी डेटामधील मूल्यांच्या तुलनेत मॉडेलद्वारे वर्तविलेल्या संभाव्यतेमध्ये त्रुटी कमी करते (उदा. संभाव्यता 1 जर डेटा प्राथमिक वर्ग असेल तर).

आम्ही प्रशिक्षण डेटासाठी सर्वोत्तम गुणांक मूल्यांना अनुकूलित करण्यासाठी एक लघुकरण अल्गोरिदम वापरू. हे सहसा कार्यक्षम अंकीय ऑप्टिमायझेशन अल्गोरिदम वापरून व्यवहारात अंमलात आणले जाते.

कोणतीही टिप्पणी नाही

Lascia एक commento

तुमचा ईमेल पत्ता प्रकाशित होणार नाही. मी मुलाखत घेण्याऐवजी मुलाखत *

लिस्कोव्ह तत्व
प्रशिक्षण
लिस्कोव्ह सबस्टिट्यूशनचे तत्व, तिसरे सोलिड तत्व

बाल वर्गाने कधीही पालक वर्गाच्या प्रकारच्या परिभाषांवर परिणाम करु नये किंवा बदलू नये. या तत्त्वाची संकल्पना बार्बरा लिस्कोव्ह यांनी १ conference 1987 च्या परिषदेत दिली होती आणि त्यानंतर १ 1994 with in मध्ये जेनेट विंगसमवेत एका लेखात प्रकाशित केली होती. त्यांची मूळ व्याख्या…

गूगल विपणन ट्रेंड
प्रशिक्षण
रीअल-टाइम विपणनासाठी Google ट्रेंड कसे वापरावे

२०२० मध्ये कंपन्यांसमोर एक मोठी अडचण समजून घेणे हे होते की कोणत्या उत्पादनाच्या क्षेत्रांमध्ये त्यांचा व्यवसाय विविधता आणता येईल: खरं तर, बर्‍याच औद्योगिक क्षेत्रांमध्ये प्रचंड दडपणाचा सामना करावा लागला आहे ज्यामुळे कंपन्या त्यांच्यात प्रवेश करणे जवळजवळ अशक्य झाले आहेत, विशेषत: नवीन खेळाडू म्हणून. खूप कमी उत्पादन क्षेत्रे ...

व्यवसाय बुद्धिमत्ता धोरण
पद्धती
यशस्वी व्यवसाय बुद्धिमत्तेची रणनीती

आपल्या व्यवसाय बुद्धिमत्तेसाठी यशस्वी धोरण तयार करणे उद्दीष्टांच्या अचूक दृश्यासह प्रारंभ होते. आम्ही खाली काही मूलभूत मुद्दे पाहू. सद्य परिस्थितीचे मूल्यांकन करणे या पैलूला कमी लेखणे फारच गंभीर चूक असेल. सद्य परिस्थितीचे मूल्यांकन करणे म्हणजे प्रक्रिया, संरचनांचे विश्लेषण करणे ...