लेख

चैटजीपीटी का उपयोग कर टेक्स्ट पार्सिंग

बड़ी मात्रा में असंरचित टेक्स्ट डेटा से मूल्यवान अंतर्दृष्टि निकालने के लिए टेक्स्ट एनालिटिक्स या टेक्स्ट माइनिंग एक महत्वपूर्ण तकनीक है।

इसमें पैटर्न, रुझान और संबंधों को खोजने के लिए टेक्स्ट को प्रोसेस करना और उसका विश्लेषण करना शामिल है।

यह कंपनियों, शोधकर्ताओं और संगठनों को टेक्स्ट से प्राप्त जानकारी के आधार पर निर्णय लेने की अनुमति देता है।

जैसे-जैसे असंरचित डेटा की मात्रा तेजी से बढ़ती जा रही है, वैसे-वैसे मार्केटिंग, वित्त, स्वास्थ्य सेवा और सामाजिक विज्ञान जैसे विविध उद्योगों में सटीक और कुशल टेक्स्ट एनालिटिक्स टूल की आवश्यकता तेजी से महत्वपूर्ण होती जा रही है।

परंपरागत रूप से, नियम-आधारित विधियों और मशीन लर्निंग तकनीकों जैसे स्पासीवाई और ट्रांसफॉर्मर तकनीक का उपयोग करके पाठ विश्लेषण किया गया है। जबकि ये तरीके प्रभावी साबित हुए हैं, उन्हें पूर्ण करने के लिए काफी प्रयास और विशेषज्ञता की आवश्यकता होती है।

बड़े भाषा मॉडल (एलएलएम) जैसे आगमन के साथ ChatGPT di OpenAI. इसने मानव-सदृश पाठ उत्पन्न करने और संदर्भ को समझने में उल्लेखनीय क्षमताओं का प्रदर्शन किया है, जिससे यह पाठ विश्लेषण कार्यों के लिए एक आशाजनक उपकरण बन गया है entity recognition, sentiment analysis, और topic modeling.

आइए अब देखते हैं कि हम चैटजीपीटी का उपयोग करके टेक्स्ट पार्सिंग कैसे कर सकते हैं।

पारंपरिक विधि (एकल मॉडल) बनाम। एलएलएम

अतीत में, हमने मशीन लर्निंग में अलग-अलग कार्यों के लिए हमेशा अलग-अलग मॉडल का इस्तेमाल किया है। उदाहरण के लिए, यदि मैं किसी पाठ से ज्ञान प्राप्त करना चाहता हूं, तो मुझे एक नामित इकाई पहचान मॉडल (एनईआर - एनईआर) का उपयोग करने की आवश्यकता होगी। Named Entity Recognition), अगर मुझे अपने पाठ को अलग-अलग वर्गों में वर्गीकृत करने की आवश्यकता है, तो मुझे वर्गीकरण मॉडल की आवश्यकता होगी। प्रत्येक अलग-अलग गतिविधि के लिए मॉडल को प्रत्येक गतिविधि के लिए अलग-अलग प्रशिक्षित करने की आवश्यकता होती है, या तो स्थानांतरण सीखने या प्रशिक्षण द्वारा।

के परिचय के साथ Large Language Modelएस (एलएलएम), एक एलएलएम मॉडल प्रशिक्षण के साथ या उसके बिना कई एनएलपी कार्य करने में सक्षम होगा। कोई भी गतिविधि हो सकती है defiकेवल संकेतों में दिए गए निर्देशों को बदलकर इसे समाप्त किया जा सकता है।

अब आइए देखें कि पारंपरिक एनएलपी कार्य कैसे करें ChatGPT और इसकी तुलना पारंपरिक तरीके से करें। एनएलपी कार्य जो निष्पादित किये जायेंगे ChatGPT इस लेख में हैं:

ज्ञान निष्कर्षण (एनईआर)
पाठ वर्गीकरण
Sentiment analysis
सारांश

ज्ञान निष्कर्षण (एनईआर)

नामित इकाई पहचान (एनईआर) टेक्स्टुअल डेटा के विभिन्न ब्लॉकों में स्वचालित रूप से शब्दों की पहचान करने के कार्य को संदर्भित करता है। इसका मुख्य रूप से महत्वपूर्ण इकाई श्रेणियों को निकालने के लिए उपयोग किया जाता है जैसे कि क्लिनिकल नोट्स से दवा के नाम, बीमा दावों से दुर्घटना-संबंधी शब्द और रिकॉर्ड से अन्य डोमेन-विशिष्ट शब्द।

ध्यान दें कि यह गतिविधि चिकित्सा क्षेत्र के लिए विशिष्ट है। पाठ में विशिष्ट वर्ग और शब्द को जानने के लिए हमें एकल मॉडल के लिए डेटा की 10.000 से अधिक पंक्तियों को एनोटेट और प्रशिक्षित करने की आवश्यकता होती थी। ChatGPT बिना किसी पूर्व-प्रशिक्षित पाठ या फाइन-ट्यूनिंग के सही ढंग से शब्द की पहचान कर सकता है, जो अपेक्षाकृत अच्छा परिणाम है!

पाठ वर्गीकरण

पाठ वर्गीकरण विशाल डेटा से श्रेणियों में पाठ को खोजने और वर्गीकृत करने की स्वचालित प्रक्रिया को संदर्भित करता है, यह पाठ डेटा पुनर्प्राप्ति और निष्कर्षण में एक आवश्यक भूमिका निभाता है। पाठ वर्गीकरण अनुप्रयोगों के उदाहरणों में क्लिनिकल अलर्ट या जोखिम कारक वर्गीकरण, स्वचालित निदान वर्गीकरण और स्पैम पहचान शामिल हैं।

`Sentiment analysis`

Sentiment analysis इसमें पाठ के एक टुकड़े में व्यक्त भावना या संवेग को निर्धारित करना शामिल है। इसका उद्देश्य पाठ को पूर्व श्रेणियों में वर्गीकृत करना हैdefiलेखक द्वारा बताई गई अंतर्निहित भावना के आधार पर, सकारात्मक, नकारात्मक या तटस्थ के रूप में।

भावना विश्लेषण के अनुप्रयोगों में शामिल हैं:

ग्राहक समीक्षा और प्रतिक्रिया का विश्लेषण,
सोशल मीडिया भावनाओं को ट्रैक करना,
बाजार के रुझान की निगरानी ई
चुनावी अभियानों के दौरान राजनीतिक भावना का मापन।

सारांश

स्वचालित सारांश उस प्रक्रिया को संदर्भित करता है जिसके द्वारा एक या अधिक दस्तावेज़ों के मुख्य विषयों की पहचान की जाती है और उन्हें संक्षिप्त और सटीक तरीके से प्रस्तुत किया जाता है। यह उपयोगकर्ता को कम समय में बड़ी मात्रा में डेटा देखने की अनुमति देता है। उदाहरण के अनुप्रयोगों में एक सारांश प्रणाली शामिल होती है जो समाचार लेखों से स्वचालित रूप से सार उत्पन्न करने की अनुमति देती है और शोध पत्र सार से वाक्यों को निकालकर जानकारी का सारांश देती है।

ChatGPT एक उत्कृष्ट सारांश उपकरण है, विशेष रूप से लंबे लेखों और जटिल समीक्षाओं के लिए। ChatGPT में समीक्षाओं को चिपकाकर, हम उत्पाद समीक्षा सारांश को एक नज़र में आसानी से जान सकते हैं।

एलएलएम की सीमा

चूंकि इस लेख का उद्देश्य पाठ विश्लेषण कार्यों को करने के लिए एलएलएम की क्षमता का पता लगाना है, इसलिए उनकी सीमाओं को पहचानना भी आवश्यक है। एलएलएम की कुछ प्रमुख सीमाओं में शामिल हैं:

संसाधन प्रयोग : एलएलएम का उपयोग करने के लिए महत्वपूर्ण कम्प्यूटेशनल और वित्तीय संसाधनों की आवश्यकता होती है, जो सीमित संसाधनों वाले छोटे संगठनों या व्यक्तिगत शोधकर्ताओं के लिए एक चुनौती हो सकती है। आज तक, ChatGPT इनपुट और आउटपुट के लिए लगभग 8.000 टोकन स्वीकार करता है, बड़ी मात्रा में डेटा को पार्स करने के लिए, उपयोगकर्ता को डेटा के कई हिस्सों में पाठ को तोड़ने की आवश्यकता होती है, और कार्यों के लिए कई एपीआई कॉल की आवश्यकता हो सकती है।
शीघ्र वाक्य रचना के प्रति संवेदनशीलता : एलएलएम के प्रदर्शन को जिस तरह से संकेत दिए जाते हैं, उससे प्रभावित किया जा सकता है। शीघ्र शब्दों में थोड़ा सा बदलाव अलग-अलग परिणाम उत्पन्न कर सकता है, जो सुसंगत और विश्वसनीय आउटपुट की तलाश में चिंता का कारण हो सकता है।
डोमेन विशिष्ट विशेषज्ञता का अभाव : जबकि एलएलएम के पास विभिन्न डोमेन की सामान्य समझ होती है, उनके पास डोमेन-विशिष्ट डेटा पर प्रशिक्षित विशेष मॉडल के समान स्तर की विशेषज्ञता नहीं हो सकती है। नतीजतन, उनका प्रदर्शन कुछ मामलों में इष्टतम नहीं हो सकता है और विशेष रूप से अत्यधिक विशिष्ट या तकनीकी जानकारी से निपटने के दौरान ठीक-ठीक या बाहरी ज्ञान की आवश्यकता हो सकती है।

Ercole Palmeri