लेख

chatGPT वापरून मजकूर पार्सिंग

मजकूर विश्लेषण, किंवा मजकूर खनन, मोठ्या प्रमाणात असंरचित मजकूर डेटामधून मौल्यवान अंतर्दृष्टी काढण्यासाठी एक महत्त्वपूर्ण तंत्र आहे.

यात नमुने, ट्रेंड आणि संबंध शोधण्यासाठी मजकूरावर प्रक्रिया करणे आणि त्याचे विश्लेषण करणे समाविष्ट आहे.

हे कंपन्यांना, संशोधकांना आणि संस्थांना मजकूरांमधून गोळा केलेल्या माहितीवर आधारित निर्णय घेण्यास अनुमती देते.

असंरचित डेटाचे प्रमाण झपाट्याने वाढत असल्याने, अचूक आणि कार्यक्षम मजकूर विश्लेषण साधनांची गरज विपणन, वित्त, आरोग्यसेवा आणि सामाजिक विज्ञानांसारख्या विविध उद्योगांमध्ये अधिकाधिक गंभीर बनली आहे.

पारंपारिकपणे, नियम-आधारित पद्धती आणि मशीन लर्निंग तंत्र जसे की SpaCY आणि ट्रान्सफॉर्मर तंत्र वापरून मजकूर विश्लेषण केले जाते. या पद्धती प्रभावी ठरल्या असल्या तरी, त्यांना परिपूर्ण करण्यासाठी भरपूर प्रयत्न आणि कौशल्य आवश्यक आहे.

मोठ्या भाषा मॉडेल (LLM) च्या आगमनाने जसे की चॅटजीपीटी di AI उघडा. मानवासारखा मजकूर तयार करण्यात आणि संदर्भ समजून घेण्याच्या उल्लेखनीय क्षमतांचे प्रदर्शन केले आहे, ज्यामुळे ते मजकूर विश्लेषण कार्यांसाठी एक आश्वासक साधन बनले आहे जसे की entity recognition, sentiment analysis, ई topic modeling.

आता आपण ChatGPT वापरून टेक्स्ट पार्सिंग कसे करू शकतो ते पाहू.

पारंपारिक पद्धत (सिंगल मॉडेल) वि. एलएलएम

भूतकाळात, आम्ही नेहमी मशीन लर्निंगमधील वेगवेगळ्या कामांसाठी वेगवेगळी मॉडेल्स वापरली आहेत. उदाहरणार्थ, जर मला एखाद्या मजकुरातून ज्ञान काढायचे असेल, तर मला नामांकित अस्तित्व ओळख मॉडेल वापरावे लागेल (NER – Named Entity Recognition), मला माझ्या मजकुराचे स्वतंत्र वर्गांमध्ये वर्गीकरण करायचे असल्यास, मला वर्गीकरण मॉडेलची आवश्यकता असेल. प्रत्येक वेगळ्या कृतीसाठी मॉडेलला प्रत्येक क्रियाकलापासाठी वेगळ्या पद्धतीने प्रशिक्षण देणे आवश्यक आहे, एकतर हस्तांतरण शिक्षणाद्वारे किंवा प्रशिक्षणाद्वारे.

च्या परिचयाने Large Language Models (LLM), LLM मॉडेल प्रशिक्षणासोबत किंवा त्याशिवाय अनेक NLP कार्ये करण्यास सक्षम असेल. कोणताही उपक्रम असू शकतो defiफक्त प्रॉम्प्ट्समधील सूचना बदलून nished.

आता मध्ये पारंपारिक NLP कार्य कसे करायचे ते पाहू चॅटजीपीटी आणि त्याची पारंपारिक पद्धतीशी तुलना करा. द्वारे केली जाणारी NLP कार्ये चॅटजीपीटी या लेखात आहेत:

नॉलेज एक्स्ट्रॅक्शन (NER)
मजकूर वर्गीकरण
Sentiment analysis
सारांश

नॉलेज एक्स्ट्रॅक्शन (NER)

नेम्ड एंटिटी रेकग्निशन (NER) मजकूर डेटाच्या वेगवेगळ्या ब्लॉक्समधील संज्ञा आपोआप ओळखण्याच्या कार्याचा संदर्भ देते. हे प्रामुख्याने वैद्यकीय नोट्समधून औषधांची नावे, विमा दाव्यांमधून अपघात-संबंधित अटी आणि रेकॉर्डमधून इतर डोमेन-विशिष्ट अटी यासारख्या महत्त्वाच्या घटक श्रेणी काढण्यासाठी वापरला जातो.

लक्षात घ्या की ही क्रिया वैद्यकीय क्षेत्रासाठी विशिष्ट आहे. मजकूरातील विशिष्ट वर्ग आणि संज्ञा जाणून घेण्यासाठी आम्हाला एका मॉडेलसाठी डेटाच्या 10.000 पेक्षा जास्त पंक्तींचे भाष्य आणि प्रशिक्षण देणे आवश्यक होते. ChatGPT कोणत्याही पूर्व-प्रशिक्षित मजकूर किंवा फाइन-ट्यूनिंगशिवाय संज्ञा योग्यरित्या ओळखू शकते, जो तुलनेने चांगला परिणाम आहे!

मजकूर वर्गीकरण

मजकूर वर्गीकरण मोठ्या डेटामधून मजकूर शोधणे आणि वर्गीकरण करण्याच्या स्वयंचलित प्रक्रियेस संदर्भित करते, ते मजकूर डेटा पुनर्प्राप्ती आणि काढण्यात एक आवश्यक भूमिका बजावते. मजकूर वर्गीकरण अनुप्रयोगांच्या उदाहरणांमध्ये क्लिनिकल अलर्ट किंवा जोखीम घटक वर्गीकरण, स्वयंचलित निदान वर्गीकरण आणि स्पॅम शोध यांचा समावेश आहे.

`Sentiment analysis`

Sentiment analysis मजकुराच्या तुकड्यात व्यक्त केलेली भावना किंवा भावना निश्चित करणे समाविष्ट आहे. मजकूराचे पूर्व श्रेणींमध्ये वर्गीकरण करणे हे त्याचे उद्दिष्ट आहेdefinite, सकारात्मक, नकारात्मक किंवा तटस्थ म्हणून, लेखकाने व्यक्त केलेल्या अंतर्निहित भावनांवर आधारित.

भावना विश्लेषणाच्या अनुप्रयोगांमध्ये हे समाविष्ट आहे:

ग्राहक पुनरावलोकने आणि अभिप्रायाचे विश्लेषण,
सोशल मीडिया भावनांचा मागोवा घेणे,
बाजाराच्या ट्रेंडचे निरीक्षण करणे इ
निवडणूक प्रचारादरम्यान राजकीय भावनांचे मोजमाप.

सारांश

स्वयंचलित सारांश त्या प्रक्रियेचा संदर्भ देतात ज्याद्वारे एक किंवा अधिक दस्तऐवजांचे मुख्य विषय ओळखले जातात आणि संक्षिप्त आणि अचूक रीतीने सादर केले जातात. हे वापरकर्त्याला कमी वेळेत डेटाच्या मोठ्या भागांवर एक नजर टाकण्याची परवानगी देते. उदाहरण ऍप्लिकेशन्समध्ये सारांश प्रणाली समाविष्ट आहे जी बातम्यांच्या लेखांमधून अॅब्स्ट्रॅक्ट्सची स्वयंचलित निर्मिती आणि संशोधन पेपर अॅब्स्ट्रॅक्टमधून वाक्ये काढून माहितीचा सारांश तयार करण्यास अनुमती देते.

ChatGPT हे एक उत्कृष्ट सारांश साधन आहे, विशेषत: लांब लेख आणि क्लिष्ट पुनरावलोकनांसाठी. ChatGPT मध्ये पुनरावलोकने पेस्ट करून, आम्ही एका दृष्टीक्षेपात उत्पादन पुनरावलोकन सारांश सहजपणे जाणून घेऊ शकतो.

एलएलएमची मर्यादा

या लेखाचा उद्देश मजकूर विश्लेषण कार्ये करण्यासाठी LLM ची क्षमता शोधणे हा असल्याने, त्यांच्या मर्यादा ओळखणे देखील आवश्यक आहे. LLM च्या काही प्रमुख मर्यादांमध्ये हे समाविष्ट आहे:

संसाधनाचा वापर : LLMs वापरण्यासाठी महत्त्वपूर्ण संगणकीय आणि आर्थिक संसाधने आवश्यक आहेत, जे लहान संस्थांसाठी किंवा मर्यादित संसाधनांसह वैयक्तिक संशोधकांसाठी एक आव्हान असू शकते. आजपर्यंत, चॅटजीपीटी इनपुट आणि आउटपुटसाठी सुमारे 8.000 टोकन स्वीकारते, मोठ्या प्रमाणात डेटाचे विश्लेषण करण्यासाठी, वापरकर्त्याला डेटाच्या अनेक भागांमध्ये मजकूर मोडण्याची आवश्यकता असते आणि कार्यांसाठी एकाधिक API कॉलची आवश्यकता असू शकते.
प्रॉम्प्ट वाक्यांशासाठी संवेदनशीलता : LLM च्या कार्यक्षमतेवर प्रॉम्प्ट शब्दबद्ध करण्याच्या पद्धतीमुळे प्रभावित होऊ शकतात. तत्पर शब्दात थोडासा बदल भिन्न परिणाम देऊ शकतो, जे सातत्यपूर्ण आणि विश्वासार्ह आउटपुट शोधत असताना चिंतेचे कारण असू शकते.
डोमेन विशिष्ट कौशल्याचा अभाव : LLM ला विविध डोमेन्सची सामान्य समज असली तरी, त्यांच्याकडे डोमेन-विशिष्ट डेटावर प्रशिक्षित विशेष मॉडेल्सइतकेच कौशल्य नसू शकते. परिणामी, त्यांचे कार्यप्रदर्शन काही प्रकरणांमध्ये इष्टतम असू शकत नाही आणि विशेषत: उच्च विशिष्ट किंवा तांत्रिक माहितीचा व्यवहार करताना उत्कृष्ट-ट्यूनिंग किंवा बाह्य ज्ञान आवश्यक असू शकते.

Ercole Palmeri