लेख

chatGPT वापरून मजकूर पार्सिंग

मजकूर विश्लेषण, किंवा मजकूर खनन, मोठ्या प्रमाणात असंरचित मजकूर डेटामधून मौल्यवान अंतर्दृष्टी काढण्यासाठी एक महत्त्वपूर्ण तंत्र आहे. 

यात नमुने, ट्रेंड आणि संबंध शोधण्यासाठी मजकूरावर प्रक्रिया करणे आणि त्याचे विश्लेषण करणे समाविष्ट आहे.

हे कंपन्यांना, संशोधकांना आणि संस्थांना मजकूरांमधून गोळा केलेल्या माहितीवर आधारित निर्णय घेण्यास अनुमती देते. 

असंरचित डेटाचे प्रमाण झपाट्याने वाढत असल्याने, अचूक आणि कार्यक्षम मजकूर विश्लेषण साधनांची गरज विपणन, वित्त, आरोग्यसेवा आणि सामाजिक विज्ञानांसारख्या विविध उद्योगांमध्ये अधिकाधिक गंभीर बनली आहे.

पारंपारिकपणे, नियम-आधारित पद्धती आणि मशीन लर्निंग तंत्र जसे की SpaCY आणि ट्रान्सफॉर्मर तंत्र वापरून मजकूर विश्लेषण केले जाते. या पद्धती प्रभावी ठरल्या असल्या तरी, त्यांना परिपूर्ण करण्यासाठी भरपूर प्रयत्न आणि कौशल्य आवश्यक आहे.

मोठ्या भाषा मॉडेल (LLM) च्या आगमनाने जसे की चॅटजीपीटी di AI उघडा. मानवासारखा मजकूर तयार करण्यात आणि संदर्भ समजून घेण्याच्या उल्लेखनीय क्षमतांचे प्रदर्शन केले आहे, ज्यामुळे ते मजकूर विश्लेषण कार्यांसाठी एक आश्वासक साधन बनले आहे जसे की entity recognition, sentiment analysis, ई topic modeling.

आता आपण ChatGPT वापरून टेक्स्ट पार्सिंग कसे करू शकतो ते पाहू.

पारंपारिक पद्धत (सिंगल मॉडेल) वि. एलएलएम

भूतकाळात, आम्ही नेहमी मशीन लर्निंगमधील वेगवेगळ्या कामांसाठी वेगवेगळी मॉडेल्स वापरली आहेत. उदाहरणार्थ, जर मला एखाद्या मजकुरातून ज्ञान काढायचे असेल, तर मला नामांकित अस्तित्व ओळख मॉडेल वापरावे लागेल (NER – Named Entity Recognition), मला माझ्या मजकुराचे स्वतंत्र वर्गांमध्ये वर्गीकरण करायचे असल्यास, मला वर्गीकरण मॉडेलची आवश्यकता असेल. प्रत्येक वेगळ्या कृतीसाठी मॉडेलला प्रत्येक क्रियाकलापासाठी वेगळ्या पद्धतीने प्रशिक्षण देणे आवश्यक आहे, एकतर हस्तांतरण शिक्षणाद्वारे किंवा प्रशिक्षणाद्वारे.

च्या परिचयाने Large Language Models (LLM), LLM मॉडेल प्रशिक्षणासोबत किंवा त्याशिवाय अनेक NLP कार्ये करण्यास सक्षम असेल. कोणताही उपक्रम असू शकतो defiफक्त प्रॉम्प्ट्समधील सूचना बदलून nished.

आता मध्ये पारंपारिक NLP कार्य कसे करायचे ते पाहू चॅटजीपीटी आणि त्याची पारंपारिक पद्धतीशी तुलना करा. द्वारे केली जाणारी NLP कार्ये चॅटजीपीटी या लेखात आहेत:

  • नॉलेज एक्स्ट्रॅक्शन (NER)
  • मजकूर वर्गीकरण
  • Sentiment analysis
  • सारांश

नॉलेज एक्स्ट्रॅक्शन (NER)

नेम्ड एंटिटी रेकग्निशन (NER) मजकूर डेटाच्या वेगवेगळ्या ब्लॉक्समधील संज्ञा आपोआप ओळखण्याच्या कार्याचा संदर्भ देते. हे प्रामुख्याने वैद्यकीय नोट्समधून औषधांची नावे, विमा दाव्यांमधून अपघात-संबंधित अटी आणि रेकॉर्डमधून इतर डोमेन-विशिष्ट अटी यासारख्या महत्त्वाच्या घटक श्रेणी काढण्यासाठी वापरला जातो.

लक्षात घ्या की ही क्रिया वैद्यकीय क्षेत्रासाठी विशिष्ट आहे. मजकूरातील विशिष्ट वर्ग आणि संज्ञा जाणून घेण्यासाठी आम्हाला एका मॉडेलसाठी डेटाच्या 10.000 पेक्षा जास्त पंक्तींचे भाष्य आणि प्रशिक्षण देणे आवश्यक होते. ChatGPT कोणत्याही पूर्व-प्रशिक्षित मजकूर किंवा फाइन-ट्यूनिंगशिवाय संज्ञा योग्यरित्या ओळखू शकते, जो तुलनेने चांगला परिणाम आहे!

मजकूर वर्गीकरण

मजकूर वर्गीकरण मोठ्या डेटामधून मजकूर शोधणे आणि वर्गीकरण करण्याच्या स्वयंचलित प्रक्रियेस संदर्भित करते, ते मजकूर डेटा पुनर्प्राप्ती आणि काढण्यात एक आवश्यक भूमिका बजावते. मजकूर वर्गीकरण अनुप्रयोगांच्या उदाहरणांमध्ये क्लिनिकल अलर्ट किंवा जोखीम घटक वर्गीकरण, स्वयंचलित निदान वर्गीकरण आणि स्पॅम शोध यांचा समावेश आहे.

Sentiment analysis

Sentiment analysis मजकुराच्या तुकड्यात व्यक्त केलेली भावना किंवा भावना निश्चित करणे समाविष्ट आहे. मजकूराचे पूर्व श्रेणींमध्ये वर्गीकरण करणे हे त्याचे उद्दिष्ट आहेdefinite, सकारात्मक, नकारात्मक किंवा तटस्थ म्हणून, लेखकाने व्यक्त केलेल्या अंतर्निहित भावनांवर आधारित. 

भावना विश्लेषणाच्या अनुप्रयोगांमध्ये हे समाविष्ट आहे:

  • ग्राहक पुनरावलोकने आणि अभिप्रायाचे विश्लेषण,
  • सोशल मीडिया भावनांचा मागोवा घेणे,
  • बाजाराच्या ट्रेंडचे निरीक्षण करणे इ
  • निवडणूक प्रचारादरम्यान राजकीय भावनांचे मोजमाप.

सारांश

स्वयंचलित सारांश त्या प्रक्रियेचा संदर्भ देतात ज्याद्वारे एक किंवा अधिक दस्तऐवजांचे मुख्य विषय ओळखले जातात आणि संक्षिप्त आणि अचूक रीतीने सादर केले जातात. हे वापरकर्त्याला कमी वेळेत डेटाच्या मोठ्या भागांवर एक नजर टाकण्याची परवानगी देते. उदाहरण ऍप्लिकेशन्समध्ये सारांश प्रणाली समाविष्ट आहे जी बातम्यांच्या लेखांमधून अॅब्स्ट्रॅक्ट्सची स्वयंचलित निर्मिती आणि संशोधन पेपर अॅब्स्ट्रॅक्टमधून वाक्ये काढून माहितीचा सारांश तयार करण्यास अनुमती देते.

ChatGPT हे एक उत्कृष्ट सारांश साधन आहे, विशेषत: लांब लेख आणि क्लिष्ट पुनरावलोकनांसाठी. ChatGPT मध्ये पुनरावलोकने पेस्ट करून, आम्ही एका दृष्टीक्षेपात उत्पादन पुनरावलोकन सारांश सहजपणे जाणून घेऊ शकतो.

एलएलएमची मर्यादा

या लेखाचा उद्देश मजकूर विश्लेषण कार्ये करण्यासाठी LLM ची क्षमता शोधणे हा असल्याने, त्यांच्या मर्यादा ओळखणे देखील आवश्यक आहे. LLM च्या काही प्रमुख मर्यादांमध्ये हे समाविष्ट आहे:

  1. संसाधनाचा वापर : LLMs वापरण्यासाठी महत्त्वपूर्ण संगणकीय आणि आर्थिक संसाधने आवश्यक आहेत, जे लहान संस्थांसाठी किंवा मर्यादित संसाधनांसह वैयक्तिक संशोधकांसाठी एक आव्हान असू शकते. आजपर्यंत, चॅटजीपीटी इनपुट आणि आउटपुटसाठी सुमारे 8.000 टोकन स्वीकारते, मोठ्या प्रमाणात डेटाचे विश्लेषण करण्यासाठी, वापरकर्त्याला डेटाच्या अनेक भागांमध्ये मजकूर मोडण्याची आवश्यकता असते आणि कार्यांसाठी एकाधिक API कॉलची आवश्यकता असू शकते.
  2. प्रॉम्प्ट वाक्यांशासाठी संवेदनशीलता : LLM च्या कार्यक्षमतेवर प्रॉम्प्ट शब्दबद्ध करण्याच्या पद्धतीमुळे प्रभावित होऊ शकतात. तत्पर शब्दात थोडासा बदल भिन्न परिणाम देऊ शकतो, जे सातत्यपूर्ण आणि विश्वासार्ह आउटपुट शोधत असताना चिंतेचे कारण असू शकते.
  3. डोमेन विशिष्ट कौशल्याचा अभाव : LLM ला विविध डोमेन्सची सामान्य समज असली तरी, त्यांच्याकडे डोमेन-विशिष्ट डेटावर प्रशिक्षित विशेष मॉडेल्सइतकेच कौशल्य नसू शकते. परिणामी, त्यांचे कार्यप्रदर्शन काही प्रकरणांमध्ये इष्टतम असू शकत नाही आणि विशेषत: उच्च विशिष्ट किंवा तांत्रिक माहितीचा व्यवहार करताना उत्कृष्ट-ट्यूनिंग किंवा बाह्य ज्ञान आवश्यक असू शकते.

Ercole Palmeri

इनोव्हेशन वृत्तपत्र
नवोपक्रमावरील सर्वात महत्त्वाच्या बातम्या चुकवू नका. त्यांना ईमेलद्वारे प्राप्त करण्यासाठी साइन अप करा.

अलीकडील लेख

Google ची नवीन कृत्रिम बुद्धिमत्ता डीएनए, आरएनए आणि "जीवनाचे सर्व रेणू" मॉडेल करू शकते

Google DeepMind त्याच्या कृत्रिम बुद्धिमत्ता मॉडेलची सुधारित आवृत्ती सादर करत आहे. नवीन सुधारित मॉडेल केवळ प्रदान करत नाही…

9 मे 2024

लारावेलचे मॉड्यूलर आर्किटेक्चर एक्सप्लोर करत आहे

लारावेल, त्याच्या मोहक वाक्यरचना आणि शक्तिशाली वैशिष्ट्यांसाठी प्रसिद्ध, मॉड्यूलर आर्किटेक्चरसाठी एक भक्कम पाया देखील प्रदान करते. तेथे…

9 मे 2024

सिस्को हायपरशील्ड आणि स्प्लंकचे संपादन सुरक्षेचे नवीन युग सुरू होते

Cisco आणि Splunk ग्राहकांना भविष्यातील सिक्युरिटी ऑपरेशन्स सेंटर (SOC) पर्यंत त्यांचा प्रवास वेगवान करण्यात मदत करत आहेत...

8 मे 2024

आर्थिक बाजूच्या पलीकडे: रॅन्समवेअरची अस्पष्ट किंमत

रॅन्समवेअरने गेल्या दोन वर्षांपासून बातम्यांवर वर्चस्व गाजवले आहे. बऱ्याच लोकांना हे माहित आहे की हल्ले…

6 मे 2024

कॅटानिया पॉलीक्लिनिकमध्ये ऍपल दर्शकासह ऑगमेंटेड रिॲलिटीमध्ये नाविन्यपूर्ण हस्तक्षेप

ऍपल व्हिजन प्रो कमर्शियल व्ह्यूअरचा वापर करून कॅटानिया पॉलीक्लिनिकमध्ये ऑप्थॅल्मोप्लास्टी ऑपरेशन करण्यात आले…

3 मे 2024

मुलांसाठी रंगीत पृष्ठांचे फायदे - सर्व वयोगटांसाठी जादूचे जग

कलरिंगद्वारे उत्तम मोटर कौशल्ये विकसित करणे मुलांना लेखनासारख्या अधिक जटिल कौशल्यांसाठी तयार करते. रंगविण्यासाठी…

2 मे 2024

भविष्य येथे आहे: शिपिंग उद्योग जागतिक अर्थव्यवस्थेत कशी क्रांती घडवत आहे

नौदल क्षेत्र ही एक खरी जागतिक आर्थिक शक्ती आहे, ज्याने 150 अब्जांच्या बाजारपेठेकडे नेव्हिगेट केले आहे...

1 मे 2024

आर्टिफिशियल इंटेलिजन्सद्वारे प्रक्रिया केलेल्या माहितीच्या प्रवाहाचे नियमन करण्यासाठी प्रकाशक आणि OpenAI करारांवर स्वाक्षरी करतात

गेल्या सोमवारी, फायनान्शिअल टाईम्सने OpenAI सह करार जाहीर केला. FT ने त्याच्या जागतिक दर्जाच्या पत्रकारितेचा परवाना…

30 एप्रिल 2024

तुमच्या भाषेत इनोव्हेशन वाचा

इनोव्हेशन वृत्तपत्र
नवोपक्रमावरील सर्वात महत्त्वाच्या बातम्या चुकवू नका. त्यांना ईमेलद्वारे प्राप्त करण्यासाठी साइन अप करा.

आमचे अनुसरण करा