جيئن ته غير منظم ٿيل ڊيٽا جو مقدار تيزي سان وڌي رهيو آهي، درست ۽ ڪارائتو ٽيڪسٽ اينالائيٽڪس اوزارن جي ضرورت تمام صنعتن ۾ تمام گهڻي نازڪ بڻجي وئي آهي جيئن مارڪيٽنگ، فنانس، هيلٿ ڪيئر، ۽ سوشل سائنسز.
روايتي طور تي، ٽيڪسٽ جو تجزيو اصولن تي ٻڌل طريقن ۽ مشين لرننگ ٽيڪنڪ جهڙوڪ SpaCY ۽ ٽرانسفارمر ٽيڪنڪ کي استعمال ڪندي ڪيو ويو آهي. جڏهن ته اهي طريقا اثرائتو ثابت ٿيا آهن، انهن کي ڀرپور ڪوشش ۽ مهارت جي ضرورت آهي.
وڏي ٻولي ماڊلز (LLM) جي اچڻ سان جيئن چيٽ GPT di OpenAI. اهو انسان جهڙو متن پيدا ڪرڻ ۽ مفهوم کي سمجهڻ ۾ قابل ذڪر صلاحيتن جو مظاهرو ڪيو آهي، ان کي متن جي تجزيي جي ڪمن لاء هڪ اميد وارو اوزار بڻائي ٿو جهڙوڪ entity recognition
, sentiment analysis
، اي topic modeling
.
اچو ته ھاڻي ڏسون ته اسان ChatGPT استعمال ڪندي ٽيڪسٽ پارسنگ ڪيئن ڪري سگھون ٿا.
ماضي ۾، اسان هميشه مشين سکيا ۾ مختلف ڪمن لاءِ مختلف ماڊل استعمال ڪيا آهن. مثال طور، جيڪڏهن مان ڪنهن متن مان علم ڪڍڻ چاهيان ٿو، ته مون کي هڪ نالي واري اداري جي سڃاڻپ جو ماڊل استعمال ڪرڻو پوندو (NER - Named Entity Recognition
)، جيڪڏھن مون کي پنھنجي متن کي جدا جدا طبقن ۾ درج ڪرڻ جي ضرورت آھي، مون کي ھڪڙي درجه بندي ماڊل جي ضرورت پوندي. هر مختلف سرگرمي جي ضرورت آهي ته ماڊلز کي هر سرگرمي لاءِ مختلف طريقي سان تربيت ڏني وڃي، يا ته سکيا جي منتقلي ذريعي يا تربيت ذريعي.
جي تعارف سان Large Language Models (LLM)، هڪ LLM ماڊل ڪيترن ئي NLP ڪمن کي انجام ڏيڻ جي قابل هوندو تربيت سان يا بغير. هر سرگرمي ٿي سگهي ٿي defiصرف اشارن ۾ هدايتن کي تبديل ڪندي ختم ڪيو.
هاڻي اچو ته ڏسو ته ڪيئن ڪجي روايتي NLP ڪم ۾ چيٽ GPT ۽ ان کي روايتي طريقي سان ڀيٽيو. اين ايل پي جا ڪم جيڪي انجام ڏنا ويندا چيٽ GPT هن مضمون ۾ آهن:
Sentiment analysis
نالي واري اداري جي سڃاڻپ (NER) متن جي ڊيٽا جي مختلف بلاڪن ۾ خود بخود اصطلاحن کي سڃاڻڻ جي ڪم ڏانهن اشارو ڪري ٿو. اهو خاص طور تي اهم ادارن جي درجي کي ڪڍڻ لاء استعمال ڪيو ويندو آهي جهڙوڪ ڪلينل نوٽس مان دوا جا نالا، انشورنس جي دعوي مان حادثي سان لاڳاپيل شرطون، ۽ رڪارڊ مان ٻين ڊومين-مخصوص اصطلاح.
نوٽ ڪريو ته هي سرگرمي طبي ڊومين لاء مخصوص آهي. اهو اسان کي هڪ ماڊل لاءِ 10.000 قطارن کان وڌيڪ ڊيٽا جي تشريح ۽ تربيت ڏيڻ جي ضرورت پوندي هئي ته متن ۾ مخصوص طبقي ۽ اصطلاح کي ڄاڻڻ لاءِ. ChatGPT ڪنهن به اڳ-تربيت ٿيل ٽيڪسٽ يا فائن ٽيوننگ کانسواءِ اصطلاح کي صحيح طور تي سڃاڻي سگهي ٿو، جيڪو نسبتاً سٺو نتيجو آهي!
متن جي درجه بندي وڏي ڊيٽا مان ٽيڪسٽ کي ڳولڻ ۽ درجه بندي ڪرڻ جي خودڪار عمل ڏانهن اشارو ڪري ٿو، اهو ٽيڪسٽ ڊيٽا جي حاصلات ۽ ڪڍڻ ۾ اهم ڪردار ادا ڪري ٿو. متن جي درجي بندي جي ايپليڪيشنن جي مثالن ۾ شامل آهن ڪلينڪ الرٽ يا خطري جي عنصر جي درجه بندي، خودڪار تشخيصي درجه بندي، ۽ اسپام ڳولڻ.
Sentiment analysis
Sentiment analysis
متن جي ھڪڙي حصي ۾ بيان ڪيل احساس يا جذبي کي طئي ڪرڻ ۾ شامل آھي. ان جو مقصد متن کي اڳئين ڀاڱن ۾ ورهائڻ آهيdefiنائيٽ، جهڙوڪ مثبت، منفي يا غير جانبدار، بنيادي احساس جي بنياد تي ليکڪ طرفان پهچايو ويو آهي.
جذباتي تجزيي جي ايپليڪيشنن ۾ شامل آهن:
خودڪار خلاصو اهو عمل ڏانهن اشارو ڪري ٿو جنهن جي ذريعي هڪ يا وڌيڪ دستاويزن جي مکيه عنوانن جي نشاندهي ڪئي وئي آهي ۽ هڪ جامع ۽ صحيح انداز ۾ پيش ڪيو ويو آهي. هي صارف کي ٿوري وقت ۾ ڊيٽا جي وڏي حصن تي هڪ نظر وٺڻ جي اجازت ڏئي ٿو. مثالن جي ايپليڪيشنن ۾ هڪ خلاصو سسٽم شامل آهي جيڪو خبرن جي آرٽيڪلز مان خلاصن جي خودڪار نسل جي اجازت ڏئي ٿو ۽ تحقيقي پيپر جي خلاصن مان جملن کي ڪڍڻ سان معلومات جو خلاصو.
ChatGPT ھڪڙو بهترين خلاصو اوزار آھي، خاص طور تي ڊگھي مضمونن ۽ پيچيده جائزو لاءِ. ChatGPT ۾ نظرثانيون پيسٽ ڪرڻ سان، اسان آساني سان ڄاڻون ٿا پراڊڪٽ جي نظرثاني خلاصو هڪ نظر ۾.
جيئن ته هن مضمون جو مقصد LLMs جي متن جي تجزيي جي ڪمن کي انجام ڏيڻ جي صلاحيت کي ڳولڻ آهي، اهو ضروري آهي ته انهن جي حدن کي پڻ تسليم ڪيو وڃي. ايل ايل ايم جي ڪجهه اهم حدن ۾ شامل آهن:
Ercole Palmeri
رنگ سازي ذريعي سٺي موٽر صلاحيتن کي ترقي ڪرڻ ٻارن کي وڌيڪ پيچيده صلاحيتن لاء تيار ڪري ٿو جهڙوڪ لکڻ. رنگ ڏيڻ…
بحري شعبي هڪ حقيقي عالمي معاشي طاقت آهي، جيڪا 150 بلين مارڪيٽ جي طرف نيويگيٽ ڪئي آهي ...
گذريل سومر، فنانشل ٽائمز OpenAI سان هڪ ڊيل جو اعلان ڪيو. ايف ٽي پنهنجي عالمي سطح جي صحافت کي لائسنس ڏئي ٿو ...
لکين ماڻهو ادا ڪن ٿا اسٽريمنگ سروسز لاءِ، ادا ڪندا مھينا سبسڪرپشن فيس. اها عام راءِ آهي ته توهان…