מאמרים

ניתוח טקסט באמצעות chatGPT

ניתוח טקסט, או כריית טקסט, היא טכניקה חיונית להפקת תובנות חשובות מכמויות גדולות של נתוני טקסט לא מובנים.

זה כולל עיבוד וניתוח טקסט כדי לגלות דפוסים, מגמות ויחסים.

הוא מאפשר לחברות, חוקרים וארגונים לקבל החלטות על סמך מידע שנאסף מטקסטים.

ככל שנפח הנתונים הלא מובנים ממשיך לגדול באופן אקספוננציאלי, הצורך בכלים מדויקים ויעילים לניתוח טקסט הפך יותר ויותר קריטי בתעשיות מגוונות כמו שיווק, פיננסים, בריאות ומדעי החברה.

באופן מסורתי, ניתוח טקסט בוצע באמצעות שיטות מבוססות כללים וטכניקות למידת מכונה כגון SpaCY וטכניקת שנאי. בעוד ששיטות אלו הוכחו כיעילות, הן דורשות מאמץ רב ומומחיות כדי להשתכלל.

עם הופעת מודלים של שפה גדולה (LLM) כגון ChatGPT di OpenAI. הוא הוכיח יכולות יוצאות דופן ביצירת טקסט דמוי אדם והבנת הקשר, מה שהפך אותו לכלי מבטיח למשימות ניתוח טקסט כגון entity recognition, sentiment analysisו - topic modeling.

בואו נראה כעת כיצד אנו יכולים לבצע ניתוח טקסט באמצעות ChatGPT.

שיטה מסורתית (מודלים בודדים) לעומת LLM

בעבר, תמיד השתמשנו במודלים שונים למשימות שונות בלמידת מכונה. לדוגמה, אם אני רוצה לחלץ ידע מטקסט, אצטרך להשתמש במודל זיהוי ישויות בשם (NER – Named Entity Recognition), אם אני צריך לסווג את הטקסט שלי למחלקות נפרדות, אצטרך מודל סיווג. כל פעילות שונה הצריכה הכשרה שונה של המודלים עבור כל פעילות, או על ידי למידה העברה או על ידי אימון.

עם הצגת Large Language Models (LLM), מודל LLM יוכל לבצע משימות NLP מרובות עם או בלי הכשרה. כל פעילות יכולה להיות defiהסתיים פשוט על ידי שינוי ההוראות בהנחיות.

עכשיו בואו נראה כיצד לבצע את משימת ה-NLP המסורתית ב ChatGPT ולהשוות את זה לדרך המסורתית. משימות ה-NLP שיבוצעו על ידי ChatGPT במאמר זה הם:

חילוץ ידע (NER)
סיווג טקסט
Sentiment analysis
סיכום

חילוץ ידע (NER)

זיהוי ישות בשם (NER) מתייחס למשימה של זיהוי אוטומטי של מונחים בלוקים שונים של נתונים טקסטואליים. הוא משמש בעיקר כדי לחלץ קטגוריות ישויות חשובות כמו שמות תרופות מהערות קליניות, מונחים הקשורים לתאונות מתביעות ביטוח ומונחים ספציפיים לתחום אחרים מהרשומות.

שימו לב שפעילות זו היא ספציפית לתחום הרפואי. זה היה דורש מאיתנו להוסיף הערות ולאמן יותר מ-10.000 שורות של נתונים עבור מודל יחיד כדי לדעת את המחלקה והמונח הספציפיים בטקסט. ChatGPT יכול לזהות נכון את המונח ללא כל טקסט מאומן מראש או כוונון עדין, וזו תוצאה טובה יחסית!

סיווג טקסט

סיווגי טקסט מתייחסים לתהליך האוטומטי של מציאת וסיווג טקסט לקטגוריות מנתונים עצומים, הוא ממלא תפקיד חיוני באחזור וחילוץ נתוני טקסט. דוגמאות ליישומי סיווג טקסט כוללות התראות קליניות או סיווג גורמי סיכון, סיווג אבחון אוטומטי וזיהוי דואר זבל.

`Sentiment analysis`

Sentiment analysis כרוך בקביעת התחושה או הרגש המובעים בקטע טקסט. מטרתו היא לסווג טקסט לקטגוריות מראשdefinite, כחיובי, שלילי או ניטרלי, בהתבסס על הסנטימנט הבסיסי שהעביר המחבר.

יישומים של ניתוח סנטימנט כוללים:

ניתוח ביקורות ומשוב של לקוחות,
מעקב אחר סנטימנט המדיה החברתית,
מעקב אחר מגמות בשוק ה
מדידת הסנטימנט הפוליטי במהלך מסעות בחירות.

סיכום

סיכומים אוטומטיים מתייחסים לתהליך שבו הנושאים העיקריים של מסמך אחד או יותר מזוהים ומוצגים בצורה תמציתית ומדויקת. זה מאפשר למשתמש להסתכל על נתחי נתונים גדולים תוך פרק זמן קצר. יישומים לדוגמה כוללים מערכת סיכומים המאפשרת יצירה אוטומטית של תקצירים ממאמרי חדשות וסיכום מידע על ידי חילוץ משפטים מתקצירי עבודת מחקר.

ChatGPT הוא כלי סיכום מצוין, במיוחד עבור מאמרים ארוכים וביקורות מסובכות. על ידי הדבקת הביקורות ב-ChatGPT, נוכל לדעת בקלות את סיכום סקירת המוצר במבט חטוף.

מגבלה של תואר שני

מכיוון שמטרת מאמר זה היא לחקור את היכולת של LLMs לבצע משימות ניתוח טקסט, חיוני להכיר גם במגבלות שלהם. חלק מהמגבלות העיקריות של לימודי LLM כוללות:

ניצול משאבים : שימוש ב-LLM מצריך משאבים חישוביים ופיננסיים משמעותיים, מה שיכול להיות אתגר עבור ארגונים קטנים יותר או חוקרים בודדים עם משאבים מוגבלים. נכון להיום, ChatGPT מקבל רק כ-8.000 אסימונים עבור קלט ופלט, כדי לנתח כמות גדולה של נתונים, דורש מהמשתמש לפרק טקסט למספר נתחים של נתונים, ועלול לדרוש מספר קריאות API עבור משימות.
רגישות לניסוח מהיר : הביצועים של LLMs יכולים להיות מושפעים מהאופן שבו ההנחיות מנוסחות. שינוי קל בניסוח המהיר יכול להניב תוצאות שונות, שיכולות להוות סיבה לדאגה כאשר מחפשים פלט עקבי ואמין.
חוסר מומחיות ספציפית לתחום : בעוד ל-LLM יש הבנה כללית של תחומים שונים, ייתכן שאין להם את אותה רמת מומחיות כמו מודלים מיוחדים שהוכשרו על נתונים ספציפיים לתחום. כתוצאה מכך, הביצועים שלהם עשויים שלא להיות אופטימליים במקרים מסוימים ועשויים לדרוש כוונון עדין או ידע חיצוני, במיוחד כאשר עוסקים במידע מיוחד מאוד או טכני.

Ercole Palmeri