जैसे-जैसे असंरचित डेटा की मात्रा तेजी से बढ़ती जा रही है, वैसे-वैसे मार्केटिंग, वित्त, स्वास्थ्य सेवा और सामाजिक विज्ञान जैसे विविध उद्योगों में सटीक और कुशल टेक्स्ट एनालिटिक्स टूल की आवश्यकता तेजी से महत्वपूर्ण होती जा रही है।
परंपरागत रूप से, नियम-आधारित विधियों और मशीन लर्निंग तकनीकों जैसे स्पासीवाई और ट्रांसफॉर्मर तकनीक का उपयोग करके पाठ विश्लेषण किया गया है। जबकि ये तरीके प्रभावी साबित हुए हैं, उन्हें पूर्ण करने के लिए काफी प्रयास और विशेषज्ञता की आवश्यकता होती है।
बड़े भाषा मॉडल (एलएलएम) जैसे आगमन के साथ ChatGPT di OpenAI. इसने मानव-सदृश पाठ उत्पन्न करने और संदर्भ को समझने में उल्लेखनीय क्षमताओं का प्रदर्शन किया है, जिससे यह पाठ विश्लेषण कार्यों के लिए एक आशाजनक उपकरण बन गया है entity recognition
, sentiment analysis
, और topic modeling
.
आइए अब देखते हैं कि हम चैटजीपीटी का उपयोग करके टेक्स्ट पार्सिंग कैसे कर सकते हैं।
अतीत में, हमने मशीन लर्निंग में अलग-अलग कार्यों के लिए हमेशा अलग-अलग मॉडल का इस्तेमाल किया है। उदाहरण के लिए, यदि मैं किसी पाठ से ज्ञान प्राप्त करना चाहता हूं, तो मुझे एक नामित इकाई पहचान मॉडल (एनईआर - एनईआर) का उपयोग करने की आवश्यकता होगी। Named Entity Recognition
), अगर मुझे अपने पाठ को अलग-अलग वर्गों में वर्गीकृत करने की आवश्यकता है, तो मुझे वर्गीकरण मॉडल की आवश्यकता होगी। प्रत्येक अलग-अलग गतिविधि के लिए मॉडल को प्रत्येक गतिविधि के लिए अलग-अलग प्रशिक्षित करने की आवश्यकता होती है, या तो स्थानांतरण सीखने या प्रशिक्षण द्वारा।
के परिचय के साथ Large Language Modelएस (एलएलएम), एक एलएलएम मॉडल प्रशिक्षण के साथ या उसके बिना कई एनएलपी कार्य करने में सक्षम होगा। कोई भी गतिविधि हो सकती है defiकेवल संकेतों में दिए गए निर्देशों को बदलकर इसे समाप्त किया जा सकता है।
अब आइए देखें कि पारंपरिक एनएलपी कार्य कैसे करें ChatGPT और इसकी तुलना पारंपरिक तरीके से करें। एनएलपी कार्य जो निष्पादित किये जायेंगे ChatGPT इस लेख में हैं:
Sentiment analysis
नामित इकाई पहचान (एनईआर) टेक्स्टुअल डेटा के विभिन्न ब्लॉकों में स्वचालित रूप से शब्दों की पहचान करने के कार्य को संदर्भित करता है। इसका मुख्य रूप से महत्वपूर्ण इकाई श्रेणियों को निकालने के लिए उपयोग किया जाता है जैसे कि क्लिनिकल नोट्स से दवा के नाम, बीमा दावों से दुर्घटना-संबंधी शब्द और रिकॉर्ड से अन्य डोमेन-विशिष्ट शब्द।
ध्यान दें कि यह गतिविधि चिकित्सा क्षेत्र के लिए विशिष्ट है। पाठ में विशिष्ट वर्ग और शब्द को जानने के लिए हमें एकल मॉडल के लिए डेटा की 10.000 से अधिक पंक्तियों को एनोटेट और प्रशिक्षित करने की आवश्यकता होती थी। ChatGPT बिना किसी पूर्व-प्रशिक्षित पाठ या फाइन-ट्यूनिंग के सही ढंग से शब्द की पहचान कर सकता है, जो अपेक्षाकृत अच्छा परिणाम है!
पाठ वर्गीकरण विशाल डेटा से श्रेणियों में पाठ को खोजने और वर्गीकृत करने की स्वचालित प्रक्रिया को संदर्भित करता है, यह पाठ डेटा पुनर्प्राप्ति और निष्कर्षण में एक आवश्यक भूमिका निभाता है। पाठ वर्गीकरण अनुप्रयोगों के उदाहरणों में क्लिनिकल अलर्ट या जोखिम कारक वर्गीकरण, स्वचालित निदान वर्गीकरण और स्पैम पहचान शामिल हैं।
Sentiment analysis
Sentiment analysis
इसमें पाठ के एक टुकड़े में व्यक्त भावना या संवेग को निर्धारित करना शामिल है। इसका उद्देश्य पाठ को पूर्व श्रेणियों में वर्गीकृत करना हैdefiलेखक द्वारा बताई गई अंतर्निहित भावना के आधार पर, सकारात्मक, नकारात्मक या तटस्थ के रूप में।
भावना विश्लेषण के अनुप्रयोगों में शामिल हैं:
स्वचालित सारांश उस प्रक्रिया को संदर्भित करता है जिसके द्वारा एक या अधिक दस्तावेज़ों के मुख्य विषयों की पहचान की जाती है और उन्हें संक्षिप्त और सटीक तरीके से प्रस्तुत किया जाता है। यह उपयोगकर्ता को कम समय में बड़ी मात्रा में डेटा देखने की अनुमति देता है। उदाहरण के अनुप्रयोगों में एक सारांश प्रणाली शामिल होती है जो समाचार लेखों से स्वचालित रूप से सार उत्पन्न करने की अनुमति देती है और शोध पत्र सार से वाक्यों को निकालकर जानकारी का सारांश देती है।
ChatGPT एक उत्कृष्ट सारांश उपकरण है, विशेष रूप से लंबे लेखों और जटिल समीक्षाओं के लिए। ChatGPT में समीक्षाओं को चिपकाकर, हम उत्पाद समीक्षा सारांश को एक नज़र में आसानी से जान सकते हैं।
चूंकि इस लेख का उद्देश्य पाठ विश्लेषण कार्यों को करने के लिए एलएलएम की क्षमता का पता लगाना है, इसलिए उनकी सीमाओं को पहचानना भी आवश्यक है। एलएलएम की कुछ प्रमुख सीमाओं में शामिल हैं:
Ercole Palmeri
रंग भरने के माध्यम से बढ़िया मोटर कौशल विकसित करना बच्चों को लेखन जैसे अधिक जटिल कौशल के लिए तैयार करता है। रंग भरना…
नौसैनिक क्षेत्र एक सच्ची वैश्विक आर्थिक शक्ति है, जो 150 अरब के बाज़ार की ओर बढ़ चुका है...
पिछले सोमवार को, फाइनेंशियल टाइम्स ने OpenAI के साथ एक समझौते की घोषणा की। एफटी अपनी विश्व स्तरीय पत्रकारिता को लाइसेंस देता है...
लाखों लोग स्ट्रीमिंग सेवाओं के लिए मासिक सदस्यता शुल्क का भुगतान करते हैं। यह आम राय है कि आप...