ट्यूटोरियल

मशीन लर्निंग एल्गोरिदम का वर्गीकरण: रैखिक प्रतिगमन, वर्गीकरण और क्लस्टरिंग

मशीन लर्निंग में गणितीय अनुकूलन के साथ महान समानताएं हैं, जो तरीकों, सिद्धांतों और एप्लिकेशन डोमेन प्रदान करती हैं। 

मशीन लर्निंग को एक दिए गए उदाहरणों (प्रशिक्षण सेट) के खिलाफ एक हानि फ़ंक्शन की "न्यूनतमकरण समस्याएं" के रूप में तैयार किया गया है। यह फ़ंक्शन मॉडल द्वारा प्रशिक्षित मूल्यों और प्रत्येक उदाहरण उदाहरण के लिए अपेक्षित मूल्यों के बीच विसंगति को व्यक्त करता है। 

अंतिम लक्ष्य मॉडल को प्रशिक्षण सेट में मौजूद नहीं उदाहरणों के एक सेट पर सही ढंग से भविष्यवाणी करने की क्षमता सिखाना है।

एक विधि जिसके अनुसार एल्गोरिदम की विभिन्न श्रेणियों को अलग करना संभव है, एक निश्चित प्रणाली से अपेक्षित आउटपुट का प्रकार है यंत्र अधिगम

मुख्य श्रेणियों में हम पाते हैं:

  • La वर्गीकरण: आदानों को दो या अधिक वर्गों में विभाजित किया गया है और सीखने की प्रणाली को एक इनपुट के लिए उपलब्ध लोगों के बीच एक या एक से अधिक कक्षाओं को निर्दिष्ट करने में सक्षम मॉडल का उत्पादन करना चाहिए।इस प्रकार के कार्यों को आमतौर पर पर्यवेक्षित शिक्षण तकनीकों का उपयोग करके संबोधित किया जाता है। 

    वर्गीकरण का एक उदाहरण इसमें निहित वस्तुओं या विषयों के आधार पर एक छवि को एक या अधिक लेबल का असाइनमेंट है;

  • La वापसी: वैचारिक रूप से इस अंतर के वर्गीकरण के समान है कि आउटपुट में एक निरंतर और गैर-असतत डोमेन है।यह आमतौर पर पर्यवेक्षित शिक्षण के साथ प्रबंधित किया जाता है। 

    प्रतिगमन का एक उदाहरण रंग छवि के रूप में इसके प्रतिनिधित्व से एक दृश्य की गहराई का अनुमान है। 

    वास्तव में, प्रश्न में आउटपुट का डोमेन वास्तव में अनंत है, और संभावनाओं के एक निश्चित असतत सेट तक सीमित नहीं है;

  • Il गुच्छन: वह कहां है डेटा के एक समूह को समूहों में विभाजित किया गया है, हालांकि, वर्गीकरण के विपरीत, एक प्राथमिकताओं को नहीं जाना जाता है।इस श्रेणी की समस्याओं की प्रकृति बहुत ही सामान्य रूप से उन्हें सीखने के कार्यों को अनसुना कर देती है।
सरल रेखीय प्रतिगमन मॉडल

रैखिक प्रतिगमन हैवास्तविक मूल्यों का अनुमान लगाने के लिए व्यापक रूप से उपयोग किया जाने वाला मॉडल जैसे:

  • घरों की लागत,
  • कॉल की संख्या,
  • प्रति व्यक्ति कुल बिक्री,

और निरंतर चर की कसौटी का अनुसरण करता है:

  • वर्ग मीटर,
  • एक चालू खाते की सदस्यता,
  • व्यक्ति की शिक्षा

रेखीय प्रतिगमन में, स्वतंत्र चर और आश्रित चर के बीच एक संबंध एक पंक्ति के माध्यम से होता है जो आमतौर पर दो चर के बीच संबंध का प्रतिनिधित्व करता है।

फिट लाइन को प्रतिगमन रेखा के रूप में जाना जाता है और इसे Y = a * X + b प्रकार के रैखिक समीकरण द्वारा दर्शाया जाता है।

सूत्र दो या अधिक विशेषताओं को एक दूसरे के साथ जोड़ने के लिए डेटा को प्रक्षेपित करने पर आधारित है। जब आप एल्गोरिथ्म को एक इनपुट विशेषता देते हैं, तो प्रतिगमन अन्य विशेषता देता है।

एकाधिक रैखिक प्रतिगमन मॉडल

जब हमारे पास एक से अधिक स्वतंत्र चर होते हैं, तो हम कई रेखीय प्रतिगमन की बात करते हैं, जो निम्न की तरह एक मॉडल मानते हैं:


य = ब0 B +1x1 B +2x2 +… + बीnxn

  • y मानों की प्रतिक्रिया है, अर्थात यह मॉडल द्वारा अनुमानित परिणाम का प्रतिनिधित्व करता है;
  • b0 इंटरसेप्ट है, जब x का y का मान हैi वे सभी 0 के बराबर हैं;
  • पहली विशेषता b1 x का गुणांक है1;
  • अभी तक एक और सुविधा बीn x का गुणांक हैn;
  • x1,x2, …, एक्सn मॉडल के स्वतंत्र चर हैं।

व्यवहार में, समीकरण एक निरंतर निर्भर चर (y) और दो या अधिक स्वतंत्र चर (X1, x2, x3) के बीच संबंध की व्याख्या करता है। 

उदाहरण के लिए, यदि हम इंजन की शक्ति, सिलेंडरों की संख्या और ईंधन की खपत को देखते हुए कार (निर्भर चर y) के CO2 उत्सर्जन का अनुमान लगाना चाहते थे। ये बाद के कारक स्वतंत्र चर X1, x2 और x3 हैं। स्थिरांक द्वि वास्तविक संख्याएं हैं और इसे मॉडल का अनुमानित प्रतिगमन गुणांक कहा जाता है। वाई निरंतर निर्भर चर है, अर्थात बी 0, बी 1 एक्स 1, बी 2 एक्स 2, आदि का योग है। y एक वास्तविक संख्या होगी।

एकाधिक प्रतिगमन विश्लेषण एक विधि है जिसका उपयोग उस प्रभाव की पहचान करने के लिए किया जाता है जो स्वतंत्र चर पर निर्भर चर पर होता है।

यह समझना कि स्वतंत्र चर परिवर्तन के रूप में निर्भर चर कैसे हमें वास्तविक स्थितियों में परिवर्तन के प्रभाव या प्रभावों की भविष्यवाणी करने की अनुमति देता है।

मल्टीपल लीनियर रिग्रेशन का उपयोग करके यह समझना संभव है कि कैसे ब्लड प्रेशर में बदलाव होता है क्योंकि बॉडी मास इंडेक्स में बदलाव होता है जैसे उम्र, लिंग आदि जैसे कारकों पर विचार करना।

कई प्रतिगमन के साथ हम मूल्य रुझानों पर अनुमान प्राप्त कर सकते हैं, जैसे कि तेल या सोने के लिए भविष्य की प्रवृत्ति।

अंत में, कई लीनियर रिग्रेशन मशीन लर्निंग और आर्टिफिशियल इंटेलिजेंस के क्षेत्र में अधिक रुचि ले रहे हैं क्योंकि यह बड़ी संख्या में रिकॉर्ड के विश्लेषण के दौरान भी लर्निंग मॉडल प्राप्त करने की अनुमति देता है।

लॉजिस्टिक रिग्रेशन मॉडल

लॉजिस्टिक रिग्रेशन एक सांख्यिकीय उपकरण है जिसका उद्देश्य एक या अधिक व्याख्यात्मक चर के साथ द्विपद परिणाम को मॉडल करना है।

यह आमतौर पर द्विआधारी समस्याओं के लिए उपयोग किया जाता है, जहां केवल दो वर्ग होते हैं, उदाहरण के लिए हां या नहीं, 0 या 1, पुरुष या महिला आदि ...

इस तरह से डेटा का वर्णन करना और एक द्विआधारी निर्भर चर और एक या अधिक स्वतंत्र नाममात्र या क्रमिक चर के बीच संबंध की व्याख्या करना संभव है।

परिणाम एक लॉजिस्टिक फ़ंक्शन के उपयोग के माध्यम से निर्धारित किया जाता है, जो एक संभावना का अनुमान लगाता है defiप्राप्त संभाव्यता मान के निकटतम वर्ग (सकारात्मक या नकारात्मक) को समाप्त करता है।

हम लॉजिस्टिक रिग्रेशन को परिवार के वर्गीकरण की एक विधि के रूप में मान सकते हैं पर्यवेक्षित शिक्षण एल्गोरिदम.

सांख्यिकीय विधियों का उपयोग करते हुए, लॉजिस्टिक प्रतिगमन एक परिणाम उत्पन्न करने की अनुमति देता है, जो वास्तव में, एक संभावना का प्रतिनिधित्व करता है कि किसी दिए गए इनपुट मान एक दिए गए वर्ग के हैं।

द्विपद उपस्कर प्रतिगमन समस्याओं में, उत्पादन एक वर्ग पी से संबंधित होने की संभावना है, जबकि यह अन्य वर्ग 1-पी (जहां पी 0 और 1 के बीच एक संख्या है क्योंकि यह एक संभावना व्यक्त करता है) से संबंधित है।

द्विपद उपस्कर प्रतिगमन उन सभी मामलों में अच्छी तरह से काम करता है जिनमें हम जिस चर की भविष्यवाणी करने की कोशिश कर रहे हैं वह द्विआधारी है, अर्थात यह केवल दो मूल्यों को मान सकता है: मान 1 जो सकारात्मक वर्ग का प्रतिनिधित्व करता है, या मान 0 जो नकारात्मक वर्ग का प्रतिनिधित्व करता है।

लॉजिस्टिक रिग्रेशन द्वारा हल की जा सकने वाली समस्याओं के उदाहरण हैं:

  • एक ई-मेल स्पैम है या नहीं;
  • एक ऑनलाइन खरीद धोखाधड़ी है या नहीं, खरीद की स्थिति का मूल्यांकन;
  • एक मरीज में एक फ्रैक्चर होता है, जो उसके रेडी का मूल्यांकन करता है।

लॉजिस्टिक रिग्रेशन के साथ हम प्रेडिक्टिव एनालिसिस कर सकते हैं, जो हम भविष्यवाणी करना चाहते हैं (डिपेंडेंट वैरिएबल) और एक या एक से अधिक इंडिपेंडेंट वैरिएबल यानी विशेषताओं के बीच के रिश्ते को मापते हैं। संभावना अनुमान एक लॉजिस्टिक फ़ंक्शन के माध्यम से किया जाता है।

संभाव्यताएं बाद में द्विआधारी मूल्यों में बदल जाती हैं, और भविष्यवाणी को वास्तविक बनाने के लिए, यह परिणाम उस वर्ग को सौंपा जाता है, जो उस वर्ग के करीब है या नहीं, इसके आधार पर।

उदाहरण के लिए, यदि लॉजिस्टिक फ़ंक्शन का अनुप्रयोग 0,85 रिटर्न देता है, तो इसका मतलब है कि इनपुट ने कक्षा 1 में असाइन करके एक सकारात्मक वर्ग उत्पन्न किया है। इसके विपरीत यदि इसका मान 0,4 या उससे अधिक है। ..

नवाचार समाचार पत्र
नवाचार पर सबसे महत्वपूर्ण समाचार देखना न भूलें। उन्हें ईमेल द्वारा प्राप्त करने के लिए साइन अप करें।

लॉजिस्टिक रिग्रेशन इनपुट मानों के वर्गीकरण का मूल्यांकन करने के लिए लॉजिस्टिक फ़ंक्शन का उपयोग करता है।

लॉजिस्टिक फ़ंक्शन, जिसे सिग्मॉइड भी कहा जाता है, एक वक्र है जो किसी भी वास्तविक मूल्य की संख्या लेने में सक्षम है और चरम को छोड़कर, 0 और 1 के बीच के मूल्य पर मैपिंग करता है। समारोह है:

जहाँ:

  • ई: प्राकृतिक लघुगणक (यूलर की संख्या, या एक्सेल फ़ंक्शन ऍक्स्प) () का आधार
  • b0 + b1 * x: वह वास्तविक सांख्यिक मान है जिसे आप बदलना चाहते हैं।

लॉजिस्टिक प्रतिगमन के लिए उपयोग किया जाने वाला प्रतिनिधित्व

लॉजिस्टिक रिग्रेशन एक समीकरण के रूप में एक प्रतिनिधित्व का उपयोग करता है, जैसे कि रैखिक प्रतिगमन

आउटपुट मान (y) का अनुमान लगाने के लिए इनपुट मान (x) को भार या गुणांक मानों का उपयोग करके रैखिक रूप से संयोजित किया जाता है। रेखीय प्रतिगमन से एक महत्वपूर्ण अंतर यह है कि एक आउटपुट मूल्य एक संख्यात्मक मूल्य के बजाय एक द्विआधारी मूल्य (0 या 1) है।

यहाँ एक लॉजिस्टिक रिग्रेशन समीकरण का एक उदाहरण दिया गया है:

वाई = ई ^ (बी0 + बी 1 * एक्स) / (1 + ई ^ (बी 0 + बी 1 * एक्स))

कबूतर:

  • y आश्रित चर है, अर्थात् अनुमानित मूल्य;
  • b0 ध्रुवीकरण या अवरोधन शब्द है;
  • बी 1 एकल इनपुट मूल्य (x) के लिए गुणांक है।

इनपुट डेटा के प्रत्येक कॉलम में एक संबद्ध बी गुणांक (एक स्थिर वास्तविक मूल्य) होता है जिसे प्रशिक्षण डेटा से सीखना चाहिए।

उस मॉडल का वास्तविक प्रतिनिधित्व जिसे आप मेमोरी या किसी फ़ाइल में संग्रहित करेंगे, समीकरण में गुणांक (बीटा या बी मान) हैं।

लॉजिस्टिक रिग्रेशन संभाव्यता (तकनीकी रेंज) की भविष्यवाणी करता है

लॉजिस्टिक रिग्रेशन डिफॉल्ट क्लास की संभावना को मॉडल करता है।

एक उदाहरण के रूप में, मान लें कि हम लोगों के लिंग को उनकी ऊंचाई से पुरुष या महिला के रूप में मॉडलिंग कर रहे हैं, प्रथम श्रेणी पुरुष हो सकता है, और लॉजिस्टिक रिग्रेशन मॉडल को पुरुष की ऊंचाई, या अधिक दिए जाने की संभावना के रूप में लिखा जा सकता है। औपचारिक रूप से:

पी (सेक्स = पुरुष | ऊंचाई)

दूसरे तरीके से लिखा गया है, हम इस संभावना का मॉडलिंग कर रहे हैं कि एक इनपुट (X) कक्षा पूर्व से संबंधित हैdefiनाइट (वाई = 1), हम इसे इस प्रकार लिख सकते हैं:

पी (एक्स) = पी (वाई = 1 | एक्स)

वास्तव में प्रायिकता की भविष्यवाणी करने के लिए प्रायिकता की भविष्यवाणी को द्विआधारी मान (0 या 1) में बदलना चाहिए।

लॉजिस्टिक रिग्रेशन एक रेखीय विधि है, लेकिन लॉजिस्टिक फ़ंक्शन का उपयोग करके भविष्यवाणियां की जाती हैं। इसका प्रभाव यह है कि हम अब भविष्यवाणियों को इनपुट के रैखिक संयोजन के रूप में नहीं समझ सकते हैं जैसा कि हम रैखिक प्रतिगमन के साथ कर सकते हैं, उदाहरण के लिए, ऊपर से जारी है, मॉडल के रूप में व्यक्त किया जा सकता है:

पी (एक्स) = ई ^ (बी 0 + बी 1 * एक्स) / (1 + ई ^ (बी 0 + बी 1 * एक्स))

अब हम इस प्रकार समीकरण को उल्टा कर सकते हैं। इसे उल्टा करने के लिए हम एक तरफ ई को हटाकर दूसरी तरफ एक प्राकृतिक लघुगणक जोड़कर आगे बढ़ सकते हैं।

ln (p (X) / 1 - p (X)) = b0 + b1 * X

इस तरह हमें यह तथ्य मिलता है कि दाएं तरफ आउटपुट की गणना फिर से रैखिक है (बस रैखिक प्रतिगमन की तरह), और बाईं ओर इनपुट डिफ़ॉल्ट वर्ग की संभावना का एक लघुगणक है।

संभावनाओं की गणना किसी घटना की संभावना से विभाजित घटना की संभावना के अनुपात के रूप में की जाती है, उदा। 0,8 / (1-0,8) जिसका परिणाम 4. है। इसलिए हम इसके बजाय लिख सकते हैं:

ln (बाधाओं) = b0 + b1 * X

चूँकि प्रायिकताएँ लॉग-ट्रांसफ़ॉर्म होती हैं, इसलिए हम इसे लेफ्ट साइडेड लॉग-ऑड्स या प्रोबिट कहते हैं।

हम घातांक को दाईं ओर लौटा सकते हैं और इसे निम्नानुसार लिख सकते हैं:

संभाव्यता = e ^ (b0 + b1 * X)

यह सब हमें यह समझने में मदद करता है कि वास्तव में मॉडल अभी भी इनपुट का एक रैखिक संयोजन है, लेकिन यह रैखिक संयोजन पूर्व वर्ग की लॉग संभावनाओं को संदर्भित करता हैdefiनीता.

लॉजिस्टिक रिग्रेशन मॉडल सीखना

लॉजिस्टिक रिग्रेशन अल्गोरिदम के गुणांक (बीटा या बी मान) सीखने के चरण में अनुमानित हैं। ऐसा करने के लिए, हम अधिकतम संभावना अनुमान का उपयोग करते हैं।

अधिकतम संभावना अनुमान एक शिक्षण एल्गोरिदम है जिसका उपयोग कई मशीन लर्निंग एल्गोरिदम द्वारा किया जाता है। मॉडल से उत्पन्न गुणांक प्री-स्कूल कक्षा के लिए 1 (जैसे पुरुष) के बहुत करीब मूल्य की भविष्यवाणी करते हैंdefiनाइट और दूसरे वर्ग के लिए मान 0 (उदाहरण के लिए महिला) के बहुत करीब है। लॉजिस्टिक रिग्रेशन के लिए अधिकतम संभावना गुणांक (बीटा या ओबी मान) के लिए मान खोजने की एक प्रक्रिया है जो डेटा में उन लोगों के सापेक्ष मॉडल द्वारा अनुमानित संभावनाओं में त्रुटि को कम करती है (उदाहरण के लिए संभावना 1 यदि डेटा प्राथमिक वर्ग है) .

हम प्रशिक्षण डेटा के लिए सर्वोत्तम गुणांक मानों को अनुकूलित करने के लिए एक न्यूनतम एल्गोरिथ्म का उपयोग करेंगे। यह अक्सर एक कुशल संख्यात्मक अनुकूलन एल्गोरिथ्म का उपयोग करके अभ्यास में लागू किया जाता है।

Ercole Palmeri


नवाचार समाचार पत्र
नवाचार पर सबसे महत्वपूर्ण समाचार देखना न भूलें। उन्हें ईमेल द्वारा प्राप्त करने के लिए साइन अप करें।

हाल के लेख

बच्चों के लिए रंग भरने वाले पन्नों के लाभ - सभी उम्र के लोगों के लिए जादू की दुनिया

रंग भरने के माध्यम से बढ़िया मोटर कौशल विकसित करना बच्चों को लेखन जैसे अधिक जटिल कौशल के लिए तैयार करता है। रंग भरना…

2 मई 2024

भविष्य यहाँ है: कैसे शिपिंग उद्योग वैश्विक अर्थव्यवस्था में क्रांति ला रहा है

नौसैनिक क्षेत्र एक सच्ची वैश्विक आर्थिक शक्ति है, जो 150 अरब के बाज़ार की ओर बढ़ चुका है...

1 मई 2024

आर्टिफिशियल इंटेलिजेंस द्वारा संसाधित सूचना के प्रवाह को विनियमित करने के लिए प्रकाशक और ओपनएआई ने समझौते पर हस्ताक्षर किए

पिछले सोमवार को, फाइनेंशियल टाइम्स ने OpenAI के साथ एक समझौते की घोषणा की। एफटी अपनी विश्व स्तरीय पत्रकारिता को लाइसेंस देता है...

अप्रैल 30 2024

ऑनलाइन भुगतान: यहां बताया गया है कि स्ट्रीमिंग सेवाएं आपको हमेशा के लिए भुगतान कैसे कराती हैं

लाखों लोग स्ट्रीमिंग सेवाओं के लिए मासिक सदस्यता शुल्क का भुगतान करते हैं। यह आम राय है कि आप...

अप्रैल 29 2024

अपनी भाषा में इनोवेशन पढ़ें

नवाचार समाचार पत्र
नवाचार पर सबसे महत्वपूर्ण समाचार देखना न भूलें। उन्हें ईमेल द्वारा प्राप्त करने के लिए साइन अप करें।

Seguici