מאמרים

ניתוח טקסט באמצעות chatGPT

ניתוח טקסט, או כריית טקסט, היא טכניקה חיונית להפקת תובנות חשובות מכמויות גדולות של נתוני טקסט לא מובנים. 

זה כולל עיבוד וניתוח טקסט כדי לגלות דפוסים, מגמות ויחסים.

הוא מאפשר לחברות, חוקרים וארגונים לקבל החלטות על סמך מידע שנאסף מטקסטים. 

ככל שנפח הנתונים הלא מובנים ממשיך לגדול באופן אקספוננציאלי, הצורך בכלים מדויקים ויעילים לניתוח טקסט הפך יותר ויותר קריטי בתעשיות מגוונות כמו שיווק, פיננסים, בריאות ומדעי החברה.

באופן מסורתי, ניתוח טקסט בוצע באמצעות שיטות מבוססות כללים וטכניקות למידת מכונה כגון SpaCY וטכניקת שנאי. בעוד ששיטות אלו הוכחו כיעילות, הן דורשות מאמץ רב ומומחיות כדי להשתכלל.

עם הופעת מודלים של שפה גדולה (LLM) כגון ChatGPT di OpenAI. הוא הוכיח יכולות יוצאות דופן ביצירת טקסט דמוי אדם והבנת הקשר, מה שהפך אותו לכלי מבטיח למשימות ניתוח טקסט כגון entity recognition, sentiment analysisו - topic modeling.

בואו נראה כעת כיצד אנו יכולים לבצע ניתוח טקסט באמצעות ChatGPT.

שיטה מסורתית (מודלים בודדים) לעומת LLM

בעבר, תמיד השתמשנו במודלים שונים למשימות שונות בלמידת מכונה. לדוגמה, אם אני רוצה לחלץ ידע מטקסט, אצטרך להשתמש במודל זיהוי ישויות בשם (NER – Named Entity Recognition), אם אני צריך לסווג את הטקסט שלי למחלקות נפרדות, אצטרך מודל סיווג. כל פעילות שונה הצריכה הכשרה שונה של המודלים עבור כל פעילות, או על ידי למידה העברה או על ידי אימון.

עם הצגת Large Language Models (LLM), מודל LLM יוכל לבצע משימות NLP מרובות עם או בלי הכשרה. כל פעילות יכולה להיות defiהסתיים פשוט על ידי שינוי ההוראות בהנחיות.

עכשיו בואו נראה כיצד לבצע את משימת ה-NLP המסורתית ב ChatGPT ולהשוות את זה לדרך המסורתית. משימות ה-NLP שיבוצעו על ידי ChatGPT במאמר זה הם:

  • חילוץ ידע (NER)
  • סיווג טקסט
  • Sentiment analysis
  • סיכום

חילוץ ידע (NER)

זיהוי ישות בשם (NER) מתייחס למשימה של זיהוי אוטומטי של מונחים בלוקים שונים של נתונים טקסטואליים. הוא משמש בעיקר כדי לחלץ קטגוריות ישויות חשובות כמו שמות תרופות מהערות קליניות, מונחים הקשורים לתאונות מתביעות ביטוח ומונחים ספציפיים לתחום אחרים מהרשומות.

שימו לב שפעילות זו היא ספציפית לתחום הרפואי. זה היה דורש מאיתנו להוסיף הערות ולאמן יותר מ-10.000 שורות של נתונים עבור מודל יחיד כדי לדעת את המחלקה והמונח הספציפיים בטקסט. ChatGPT יכול לזהות נכון את המונח ללא כל טקסט מאומן מראש או כוונון עדין, וזו תוצאה טובה יחסית!

סיווג טקסט

סיווגי טקסט מתייחסים לתהליך האוטומטי של מציאת וסיווג טקסט לקטגוריות מנתונים עצומים, הוא ממלא תפקיד חיוני באחזור וחילוץ נתוני טקסט. דוגמאות ליישומי סיווג טקסט כוללות התראות קליניות או סיווג גורמי סיכון, סיווג אבחון אוטומטי וזיהוי דואר זבל.

Sentiment analysis

Sentiment analysis כרוך בקביעת התחושה או הרגש המובעים בקטע טקסט. מטרתו היא לסווג טקסט לקטגוריות מראשdefinite, כחיובי, שלילי או ניטרלי, בהתבסס על הסנטימנט הבסיסי שהעביר המחבר. 

יישומים של ניתוח סנטימנט כוללים:

  • ניתוח ביקורות ומשוב של לקוחות,
  • מעקב אחר סנטימנט המדיה החברתית,
  • מעקב אחר מגמות בשוק ה
  • מדידת הסנטימנט הפוליטי במהלך מסעות בחירות.

סיכום

סיכומים אוטומטיים מתייחסים לתהליך שבו הנושאים העיקריים של מסמך אחד או יותר מזוהים ומוצגים בצורה תמציתית ומדויקת. זה מאפשר למשתמש להסתכל על נתחי נתונים גדולים תוך פרק זמן קצר. יישומים לדוגמה כוללים מערכת סיכומים המאפשרת יצירה אוטומטית של תקצירים ממאמרי חדשות וסיכום מידע על ידי חילוץ משפטים מתקצירי עבודת מחקר.

ChatGPT הוא כלי סיכום מצוין, במיוחד עבור מאמרים ארוכים וביקורות מסובכות. על ידי הדבקת הביקורות ב-ChatGPT, נוכל לדעת בקלות את סיכום סקירת המוצר במבט חטוף.

מגבלה של תואר שני

מכיוון שמטרת מאמר זה היא לחקור את היכולת של LLMs לבצע משימות ניתוח טקסט, חיוני להכיר גם במגבלות שלהם. חלק מהמגבלות העיקריות של לימודי LLM כוללות:

  1. ניצול משאבים : שימוש ב-LLM מצריך משאבים חישוביים ופיננסיים משמעותיים, מה שיכול להיות אתגר עבור ארגונים קטנים יותר או חוקרים בודדים עם משאבים מוגבלים. נכון להיום, ChatGPT מקבל רק כ-8.000 אסימונים עבור קלט ופלט, כדי לנתח כמות גדולה של נתונים, דורש מהמשתמש לפרק טקסט למספר נתחים של נתונים, ועלול לדרוש מספר קריאות API עבור משימות.
  2. רגישות לניסוח מהיר : הביצועים של LLMs יכולים להיות מושפעים מהאופן שבו ההנחיות מנוסחות. שינוי קל בניסוח המהיר יכול להניב תוצאות שונות, שיכולות להוות סיבה לדאגה כאשר מחפשים פלט עקבי ואמין.
  3. חוסר מומחיות ספציפית לתחום : בעוד ל-LLM יש הבנה כללית של תחומים שונים, ייתכן שאין להם את אותה רמת מומחיות כמו מודלים מיוחדים שהוכשרו על נתונים ספציפיים לתחום. כתוצאה מכך, הביצועים שלהם עשויים שלא להיות אופטימליים במקרים מסוימים ועשויים לדרוש כוונון עדין או ידע חיצוני, במיוחד כאשר עוסקים במידע מיוחד מאוד או טכני.

Ercole Palmeri

ניוזלטר חדשנות
אל תחמיצו את החדשות החשובות ביותר בנושא חדשנות. הירשם כדי לקבל אותם במייל.

מאמרים אחרונים

ניתוח רבעוני של Cisco Talos: הודעות דוא"ל ארגוניות הממוקדות על ידי פושעים ייצור, חינוך ושירותי בריאות הם המגזרים המושפעים ביותר

הפשרה של אימיילים של החברה גדלה יותר מכפול בשלושת החודשים הראשונים של 2024 בהשוואה לרבעון האחרון של...

14 מאי 2024

עיקרון הפרדת ממשק (ISP), עקרון SOLID רביעי

עקרון הפרדת הממשק הוא אחד מחמשת העקרונות המוצקים של עיצוב מונחה עצמים. לכיתה צריכה להיות…

14 מאי 2024

כיצד לארגן בצורה הטובה ביותר נתונים ונוסחאות באקסל, לניתוח מוצלח

Microsoft Excel הוא כלי ההתייחסות לניתוח נתונים, מכיוון שהוא מציע תכונות רבות לארגון מערכי נתונים,...

14 מאי 2024

מסקנה חיובית לשני פרויקטים חשובים של Walliance Equity Crowdfunding: Jesolo Wave Island ו-Milano Via Ravenna

Walliance, SIM ופלטפורמה בין המובילות באירופה בתחום מימון המונים בנדל"ן מאז 2017, מכריזה על השלמת...

13 מאי 2024

מהו פילאמנט וכיצד להשתמש ב-Laravel Filament

Filament הוא מסגרת פיתוח "מואצת" של Laravel, המספקת מספר רכיבים מלאים. זה נועד לפשט את התהליך של...

13 מאי 2024

תחת שליטה של ​​בינה מלאכותית

"אני חייב לחזור כדי להשלים את האבולוציה שלי: אני אשליך את עצמי בתוך המחשב ואהפוך לאנרגיה טהורה. לאחר שהתמקמו…

10 מאי 2024

הבינה המלאכותית החדשה של גוגל יכולה לדגמן DNA, RNA ו"כל מולקולות החיים"

Google DeepMind מציגה גרסה משופרת של מודל הבינה המלאכותית שלה. הדגם החדש המשופר מספק לא רק...

9 מאי 2024

חקר האדריכלות המודולרית של לראוול

Laravel, המפורסמת בתחביר האלגנטי והתכונות החזקות שלו, מספקת גם בסיס איתן לארכיטקטורה מודולרית. שם…

9 מאי 2024

קרא חדשנות בשפה שלך

ניוזלטר חדשנות
אל תחמיצו את החדשות החשובות ביותר בנושא חדשנות. הירשם כדי לקבל אותם במייל.

Seguici