مع استمرار نمو حجم البيانات غير المهيكلة بشكل كبير ، أصبحت الحاجة إلى أدوات تحليل نصية دقيقة وفعالة أمرًا بالغ الأهمية عبر صناعات متنوعة مثل التسويق والتمويل والرعاية الصحية والعلوم الاجتماعية.
تقليديا ، تم إجراء تحليل النص باستخدام الأساليب القائمة على القواعد وتقنيات التعلم الآلي مثل SpaCY وتقنية المحولات. بينما أثبتت هذه الأساليب فعاليتها ، إلا أنها تتطلب جهدًا وخبرة كبيرة لإتقانها.
مع ظهور نماذج اللغات الكبيرة (LLM) مثل شات جي بي تي di OpenAI. لقد أظهر قدرات رائعة في إنشاء نص يشبه الإنسان وفهم السياق ، مما يجعله أداة واعدة لمهام تحليل النص مثل entity recognition
, sentiment analysis
و topic modeling
.
لنرى الآن كيف يمكننا إجراء تحليل النص باستخدام ChatGPT.
في الماضي ، استخدمنا دائمًا نماذج مختلفة لمهام مختلفة في التعلم الآلي. على سبيل المثال ، إذا كنت أرغب في استخراج المعرفة من نص ما ، فسوف أحتاج إلى استخدام نموذج التعرف على الكيان المسمى (NER - Named Entity Recognition
) ، إذا كنت بحاجة إلى تصنيف نصي إلى فئات منفصلة ، فسوف أحتاج إلى نموذج تصنيف. يتطلب كل نشاط مختلف النماذج يتم تدريبها بشكل مختلف لكل نشاط ، إما عن طريق نقل التعلم أو عن طريق التدريب.
مع مقدمة Large Language Models (LLM)، سيكون نموذج LLM قادرًا على أداء مهام البرمجة اللغوية العصبية المتعددة مع أو بدون تدريب. يمكن أن يكون أي نشاط definished ببساطة عن طريق تغيير التعليمات في المطالبات.
الآن دعنا نرى كيفية القيام بمهمة البرمجة اللغوية العصبية التقليدية بتنسيق شات جي بي تي ومقارنتها بالطريقة التقليدية. مهام البرمجة اللغوية العصبية التي سيتم تنفيذها بواسطة شات جي بي تي في هذه المقالة هي:
Sentiment analysis
يشير التعرف على الكيانات المسماة (NER) إلى مهمة تحديد المصطلحات تلقائيًا في مجموعات مختلفة من البيانات النصية. يتم استخدامه بشكل أساسي لاستخراج فئات الكيانات المهمة مثل أسماء الأدوية من الملاحظات السريرية ، والمصطلحات المتعلقة بالحوادث من مطالبات التأمين ، وغيرها من المصطلحات الخاصة بالمجال من السجلات.
لاحظ أن هذا النشاط خاص بالمجال الطبي. كان يتطلب منا وضع تعليقات توضيحية وتدريب أكثر من 10.000 صف من البيانات لنموذج واحد لمعرفة الفئة والمصطلح المحددين في النص. يمكن لـ ChatGPT تحديد المصطلح بشكل صحيح دون أي نص مدرب مسبقًا أو ضبط دقيق ، وهي نتيجة جيدة نسبيًا!
تشير تصنيفات النص إلى العملية التلقائية لإيجاد النص وتصنيفه إلى فئات من البيانات الضخمة ، ويلعب دورًا أساسيًا في استرجاع البيانات النصية واستخراجها. تتضمن أمثلة تطبيقات تصنيف النص التنبيهات السريرية أو تصنيف عوامل الخطر والتصنيف التلقائي للتشخيص واكتشاف البريد العشوائي.
Sentiment analysis
Sentiment analysis
يتضمن تحديد الشعور أو العاطفة التي يتم التعبير عنها في جزء من النص. يهدف إلى تصنيف النص إلى فئات مسبقةdefinite ، سواء كان إيجابيا أو سلبيا أو محايدا ، بناء على المشاعر الأساسية التي ينقلها المؤلف.
تشمل تطبيقات تحليل المشاعر ما يلي:
تشير الملخصات التلقائية إلى العملية التي يتم من خلالها تحديد الموضوعات الرئيسية لوثيقة واحدة أو أكثر وتقديمها بطريقة موجزة ودقيقة. يتيح ذلك للمستخدم إلقاء نظرة على أجزاء كبيرة من البيانات في فترة زمنية قصيرة. تتضمن التطبيقات النموذجية نظامًا موجزًا يسمح بإنشاء الملخصات تلقائيًا من المقالات الإخبارية وتلخيص المعلومات عن طريق استخراج الجمل من ملخصات الأوراق البحثية.
ChatGPT هي أداة تلخيص ممتازة ، خاصة للمقالات الطويلة والمراجعات المعقدة. من خلال لصق المراجعات في ChatGPT ، يمكننا بسهولة معرفة ملخص مراجعة المنتج في لمحة.
نظرًا لأن الغرض من هذه المقالة هو استكشاف قدرة LLM على أداء مهام تحليل النص ، فمن الضروري أيضًا التعرف على قيودها. تتضمن بعض القيود الرئيسية لـ LLMs ما يلي:
Ercole Palmeri
يعد القطاع البحري قوة اقتصادية عالمية حقيقية، وقد اتجه نحو سوق يبلغ حجمه 150 مليارًا...
أعلنت صحيفة فاينانشيال تايمز يوم الاثنين الماضي عن صفقة مع OpenAI. "فاينانشيال تايمز" ترخص صحافتها ذات المستوى العالمي...
يدفع الملايين من الأشخاص مقابل خدمات البث، ويدفعون رسوم الاشتراك الشهرية. من الشائع أنك…
سوف تستمر شركة Coveware by Veeam في تقديم خدمات الاستجابة لحوادث الابتزاز السيبراني. ستوفر Coveware إمكانات الطب الشرعي والمعالجة...