مقالات

chatGPT استعمال ڪندي متن پارس ڪرڻ

ٽيڪسٽ اينالائيٽڪس، يا ٽيڪسٽ مائننگ، هڪ اهم ٽيڪنڪ آهي قيمتي بصيرت کي ڪڍڻ لاءِ وڏي مقدار ۾ غير منظم ٽيڪسٽ ڊيٽا. 

اهو نمونن، رجحانات ۽ رشتن کي ڳولڻ لاء متن جي پروسيسنگ ۽ تجزيو شامل آهي.

اهو ڪمپنين، محققن ۽ تنظيمن کي اجازت ڏئي ٿو فيصلا ڪرڻ جي بنياد تي معلومات جي بنياد تي نصوص مان گڏ ڪيل. 

جيئن ته غير منظم ٿيل ڊيٽا جو مقدار تيزي سان وڌي رهيو آهي، درست ۽ ڪارائتو ٽيڪسٽ اينالائيٽڪس اوزارن جي ضرورت تمام صنعتن ۾ تمام گهڻي نازڪ بڻجي وئي آهي جيئن مارڪيٽنگ، فنانس، هيلٿ ڪيئر، ۽ سوشل سائنسز.

روايتي طور تي، ٽيڪسٽ جو تجزيو اصولن تي ٻڌل طريقن ۽ مشين لرننگ ٽيڪنڪ جهڙوڪ SpaCY ۽ ٽرانسفارمر ٽيڪنڪ کي استعمال ڪندي ڪيو ويو آهي. جڏهن ته اهي طريقا اثرائتو ثابت ٿيا آهن، انهن کي ڀرپور ڪوشش ۽ مهارت جي ضرورت آهي.

وڏي ٻولي ماڊلز (LLM) جي اچڻ سان جيئن چيٽ GPT di OpenAI. اهو انسان جهڙو متن پيدا ڪرڻ ۽ مفهوم کي سمجهڻ ۾ قابل ذڪر صلاحيتن جو مظاهرو ڪيو آهي، ان کي متن جي تجزيي جي ڪمن لاء هڪ اميد وارو اوزار بڻائي ٿو جهڙوڪ entity recognition, sentiment analysis، اي topic modeling.

اچو ته ھاڻي ڏسون ته اسان ChatGPT استعمال ڪندي ٽيڪسٽ پارسنگ ڪيئن ڪري سگھون ٿا.

روايتي طريقو (اڪيلو ماڊل) بمقابله. ايل ايل ايم

ماضي ۾، اسان هميشه مشين سکيا ۾ مختلف ڪمن لاءِ مختلف ماڊل استعمال ڪيا آهن. مثال طور، جيڪڏهن مان ڪنهن متن مان علم ڪڍڻ چاهيان ٿو، ته مون کي هڪ نالي واري اداري جي سڃاڻپ جو ماڊل استعمال ڪرڻو پوندو (NER - Named Entity Recognition)، جيڪڏھن مون کي پنھنجي متن کي جدا جدا طبقن ۾ درج ڪرڻ جي ضرورت آھي، مون کي ھڪڙي درجه بندي ماڊل جي ضرورت پوندي. هر مختلف سرگرمي جي ضرورت آهي ته ماڊلز کي هر سرگرمي لاءِ مختلف طريقي سان تربيت ڏني وڃي، يا ته سکيا جي منتقلي ذريعي يا تربيت ذريعي.

جي تعارف سان Large Language Models (LLM)، هڪ LLM ماڊل ڪيترن ئي NLP ڪمن کي انجام ڏيڻ جي قابل هوندو تربيت سان يا بغير. هر سرگرمي ٿي سگهي ٿي defiصرف اشارن ۾ هدايتن کي تبديل ڪندي ختم ڪيو.

هاڻي اچو ته ڏسو ته ڪيئن ڪجي روايتي NLP ڪم ۾ چيٽ GPT ۽ ان کي روايتي طريقي سان ڀيٽيو. اين ايل پي جا ڪم جيڪي انجام ڏنا ويندا چيٽ GPT هن مضمون ۾ آهن:

  • علم ڪڍڻ (NER)
  • متن جي درجه بندي
  • Sentiment analysis
  • ريپليگو

علم ڪڍڻ (NER)

نالي واري اداري جي سڃاڻپ (NER) متن جي ڊيٽا جي مختلف بلاڪن ۾ خود بخود اصطلاحن کي سڃاڻڻ جي ڪم ڏانهن اشارو ڪري ٿو. اهو خاص طور تي اهم ادارن جي درجي کي ڪڍڻ لاء استعمال ڪيو ويندو آهي جهڙوڪ ڪلينل نوٽس مان دوا جا نالا، انشورنس جي دعوي مان حادثي سان لاڳاپيل شرطون، ۽ رڪارڊ مان ٻين ڊومين-مخصوص اصطلاح.

نوٽ ڪريو ته هي سرگرمي طبي ڊومين لاء مخصوص آهي. اهو اسان کي هڪ ماڊل لاءِ 10.000 قطارن کان وڌيڪ ڊيٽا جي تشريح ۽ تربيت ڏيڻ جي ضرورت پوندي هئي ته متن ۾ مخصوص طبقي ۽ اصطلاح کي ڄاڻڻ لاءِ. ChatGPT ڪنهن به اڳ-تربيت ٿيل ٽيڪسٽ يا فائن ٽيوننگ کانسواءِ اصطلاح کي صحيح طور تي سڃاڻي سگهي ٿو، جيڪو نسبتاً سٺو نتيجو آهي!

متن جي درجه بندي

متن جي درجه بندي وڏي ڊيٽا مان ٽيڪسٽ کي ڳولڻ ۽ درجه بندي ڪرڻ جي خودڪار عمل ڏانهن اشارو ڪري ٿو، اهو ٽيڪسٽ ڊيٽا جي حاصلات ۽ ڪڍڻ ۾ اهم ڪردار ادا ڪري ٿو. متن جي درجي بندي جي ايپليڪيشنن جي مثالن ۾ شامل آهن ڪلينڪ الرٽ يا خطري جي عنصر جي درجه بندي، خودڪار تشخيصي درجه بندي، ۽ اسپام ڳولڻ.

Sentiment analysis

Sentiment analysis متن جي ھڪڙي حصي ۾ بيان ڪيل احساس يا جذبي کي طئي ڪرڻ ۾ شامل آھي. ان جو مقصد متن کي اڳئين ڀاڱن ۾ ورهائڻ آهيdefiنائيٽ، جهڙوڪ مثبت، منفي يا غير جانبدار، بنيادي احساس جي بنياد تي ليکڪ طرفان پهچايو ويو آهي. 

جذباتي تجزيي جي ايپليڪيشنن ۾ شامل آهن:

  • ڪسٽمر تبصرا ۽ راء جو تجزيو،
  • سماجي ميڊيا جي جذبي کي ٽريڪ ڪرڻ،
  • مارڪيٽ جي رجحانات جي نگراني e
  • چونڊ مهم دوران سياسي جذبي جي ماپ.

ريپليگو

خودڪار خلاصو اهو عمل ڏانهن اشارو ڪري ٿو جنهن جي ذريعي هڪ يا وڌيڪ دستاويزن جي مکيه عنوانن جي نشاندهي ڪئي وئي آهي ۽ هڪ جامع ۽ صحيح انداز ۾ پيش ڪيو ويو آهي. هي صارف کي ٿوري وقت ۾ ڊيٽا جي وڏي حصن تي هڪ نظر وٺڻ جي اجازت ڏئي ٿو. مثالن جي ايپليڪيشنن ۾ هڪ خلاصو سسٽم شامل آهي جيڪو خبرن جي آرٽيڪلز مان خلاصن جي خودڪار نسل جي اجازت ڏئي ٿو ۽ تحقيقي پيپر جي خلاصن مان جملن کي ڪڍڻ سان معلومات جو خلاصو.

ChatGPT ھڪڙو بهترين خلاصو اوزار آھي، خاص طور تي ڊگھي مضمونن ۽ پيچيده جائزو لاءِ. ChatGPT ۾ نظرثانيون پيسٽ ڪرڻ سان، اسان آساني سان ڄاڻون ٿا پراڊڪٽ جي نظرثاني خلاصو هڪ نظر ۾.

LLMs جي حد

جيئن ته هن مضمون جو مقصد LLMs جي متن جي تجزيي جي ڪمن کي انجام ڏيڻ جي صلاحيت کي ڳولڻ آهي، اهو ضروري آهي ته انهن جي حدن کي پڻ تسليم ڪيو وڃي. ايل ايل ايم جي ڪجهه اهم حدن ۾ شامل آهن:

  1. وسيلن جي استعمال : LLMs استعمال ڪرڻ لاءِ اھم حسابي ۽ مالي وسيلن جي ضرورت آھي، جيڪي محدود وسيلن سان ننڍين تنظيمن يا انفرادي محققن لاءِ چيلنج ٿي سگھن ٿيون. اڄ تائين، ChatGPT صرف 8.000 ٽوڪن کي ان پٽ ۽ آئوٽ پُٽ لاءِ قبول ڪري ٿو، ڊيٽا جي وڏي مقدار کي پارس ڪرڻ لاءِ، صارف کي متن جي ڪيترن ئي حصن ۾ ڊيٽا کي ٽوڙڻ جي ضرورت آهي، ۽ ڪمن لاءِ ڪيترن ئي API ڪالن جي ضرورت ٿي سگھي ٿي.
  2. تڪڙي جملي کي حساسيت : LLMs جي ڪارڪردگي متاثر ٿي سگھي ٿي طريقي سان لفظن جي اشارن سان. تڪڙي لفظن ۾ هڪ معمولي تبديلي مختلف نتيجا پيدا ڪري سگهي ٿي، جيڪا مسلسل ۽ قابل اعتماد پيداوار جي ڳولا ۾ پريشاني جو سبب ٿي سگهي ٿي.
  3. ڊومين مخصوص ماهر جي کوٽ : جڏهن ته LLMs کي مختلف ڊومينز جي عام ڄاڻ هوندي آهي، پر شايد انهن وٽ ماهرن جي ساڳي سطح نه هوندي آهي جيئن مخصوص ماڊلز کي ڊومين جي مخصوص ڊيٽا تي تربيت ڏني ويندي آهي. نتيجي طور، انھن جي ڪارڪردگي ڪجھ ڪيسن ۾ بھترين نه ٿي سگھي ٿي ۽ ٿي سگھي ٿو ٺيڪ ٺاھڻ يا بيروني علم جي ضرورت آھي، خاص طور تي جڏھن اعليٰ خاص يا ٽيڪنيڪل معلومات سان معاملو ڪيو وڃي.

Ercole Palmeri

جدت نيوز ليٽر
جدت تي سڀ کان اهم خبر نه وڃايو. انهن کي اي ميل ذريعي حاصل ڪرڻ لاء سائن اپ ڪريو.

تازيون مضمونون

ٻارن لاءِ رنگين صفحن جا فائدا - سڀني عمرن لاءِ جادوءَ جي دنيا

رنگ سازي ذريعي سٺي موٽر صلاحيتن کي ترقي ڪرڻ ٻارن کي وڌيڪ پيچيده صلاحيتن لاء تيار ڪري ٿو جهڙوڪ لکڻ. رنگ ڏيڻ…

2 2024

مستقبل هتي آهي: ڪيئن شپنگ انڊسٽري عالمي معيشت ۾ انقلاب آڻيندي آهي

بحري شعبي هڪ حقيقي عالمي معاشي طاقت آهي، جيڪا 150 بلين مارڪيٽ جي طرف نيويگيٽ ڪئي آهي ...

1 2024

پبلشرز ۽ OpenAI مصنوعي ذهانت پاران پروسيس ڪيل معلومات جي وهڪري کي منظم ڪرڻ لاءِ معاهدن تي دستخط ڪن ٿا

گذريل سومر، فنانشل ٽائمز OpenAI سان هڪ ڊيل جو اعلان ڪيو. ايف ٽي پنهنجي عالمي سطح جي صحافت کي لائسنس ڏئي ٿو ...

30 اپريل 2024

آن لائين ادائگيون: ھتي آھي ڪيئن اسٽريمنگ سروسز توھان کي ھميشه لاءِ ادا ڪنديون آھن

لکين ماڻهو ادا ڪن ٿا اسٽريمنگ سروسز لاءِ، ادا ڪندا مھينا سبسڪرپشن فيس. اها عام راءِ آهي ته توهان…

29 اپريل 2024

پنھنجي ٻوليءَ ۾ جدت پڙھو

جدت نيوز ليٽر
جدت تي سڀ کان اهم خبر نه وڃايو. انهن کي اي ميل ذريعي حاصل ڪرڻ لاء سائن اپ ڪريو.

اسان جي تابعداري ڪريو