ווי דער באַנד פון אַנסטראַקטשערד דאַטן האלט צו וואַקסן עקספּאָונענשאַלי, די נויט פֿאַר פּינטלעך און עפעקטיוו טעקסט אַנאַליטיקס מכשירים איז געווארן ינקריסינגלי קריטיש אין ינדאַסטריז ווי דייווערס ווי פֿאַרקויף, פינאַנצן, כעלטקער און סאציאל ססיענסעס.
טראַדישאַנאַלי, טעקסט אַנאַליסיס איז דורכגעקאָכט מיט הערשן-באזירט מעטהאָדס און מאַשין לערנען טעקניקס אַזאַ ווי SpaCY און די טראַנספאָרמער טעכניק. כאָטש די מעטהאָדס האָבן פּראָווען עפעקטיוו, זיי דאַרפן היפּש מי און עקספּערטיז צו שליימעסדיק.
מיט די אַדווענט פון גרויס שפּראַך מאָדעלס (LLM) אַזאַ ווי טשאַטגפּט di OpenAI. עס האט דעמאַנסטרייטיד מערקווירדיק קייפּאַבילאַטיז אין דזשענערייטינג מענטש-ווי טעקסט און פארשטאנד קאָנטעקסט, מאכן עס אַ פּראַמאַסינג געצייַג פֿאַר טעקסט אַנאַליסיס טאַסקס אַזאַ ווי entity recognition
, sentiment analysis
, און topic modeling
.
לאָמיר איצט זען ווי מיר קענען דורכפירן טעקסט פּאַרסינג ניצן ChatGPT.
אין דער פאַרגאַנגענהייט, מיר האָבן שטענדיק געוויינט פאַרשידענע מאָדעלס פֿאַר פאַרשידענע טאַסקס אין מאַשין לערנען. פֿאַר בייַשפּיל, אויב איך ווילן צו עקסטראַקט וויסן פון אַ טעקסט, איך וועט דאַרפֿן צו נוצן אַ געהייסן ענטיטי דערקענונג מאָדעל (NER - Named Entity Recognition
), אויב איך דאַרפֿן צו קלאַסיפיצירן מיין טעקסט אין באַזונדער קלאסן, איך וועט דאַרפֿן אַ קלאַסאַפאַקיישאַן מאָדעל. יעדער אַנדערש טעטיקייט פארלאנגט די מאָדעלס צו זיין טריינד דיפערענטלי פֿאַר יעדער טעטיקייט, אָדער דורך אַריבערפירן לערנען אָדער דורך טריינינג.
מיט די הקדמה פון Large Language Models (LLM), אַ LLM מאָדעל וועט קענען צו דורכפירן קייפל NLP טאַסקס מיט אָדער אָן טריינינג. קיין טעטיקייט קענען זיין defiפשוט דורכגעקאָכט דורך טשאַנגינג די ינסטראַקשאַנז אין די פּראַמפּס.
איצט לאָמיר זען ווי צו טאָן די טראדיציאנעלן NLP אַרבעט אין טשאַטגפּט און פאַרגלייַכן עס מיט די טראדיציאנעלן וועג. די NLP טאַסקס וואָס וועט זיין דורכגעקאָכט דורך טשאַטגפּט אין דעם אַרטיקל זענען:
Sentiment analysis
געהייסן ענטיטי רעקאָגניטיאָן (NER) רעפערס צו די אַרבעט פון אויטאָמאַטיש ידענטיפיצירן טערמינען אין פאַרשידענע בלאַקס פון טעקסטשאַוואַל דאַטן. עס איז דער הויפּט געניצט צו עקסטראַקט וויכטיק ענטיטי קאַטעגאָריעס אַזאַ ווי מעדיצין נעמען פון קליניש הערות, אַקסאַדאַנץ-פֿאַרבונדענע טערמינען פון פאַרזיכערונג קליימז און אנדערע פעלד-ספּעציפיש טערמינען פון רעקאָרדס.
באַמערקונג אַז די טעטיקייט איז ספּעציפיש פֿאַר די מעדיציניש פעלד. עס געניצט צו דאַרפן אונדז צו אַנאַטייט און באַן מער ווי 10.000 ראָוז פון דאַטן פֿאַר אַ איין מאָדעל צו וויסן די ספּעציפיש קלאַס און טערמין אין דעם טעקסט. ChatGPT קענען ריכטיק ידענטיפיצירן דעם טערמין אָן קיין פאַר-טריינד טעקסט אָדער פיין-טונינג, וואָס איז אַ לעפיערעך גוט רעזולטאַט!
טעקסט קלאַסאַפאַקיישאַנז רעפערס צו די אָטאַמאַטיק פּראָצעס פון דערגייונג און קלאַסאַפייינג טעקסט אין קאַטעגאָריעס פֿון ריזיק דאַטן, עס פיעסעס אַ יקערדיק ראָלע אין ריטריוואַל און יקסטראַקשאַן פון טעקסט דאַטן. ביישפילן פון טעקסט קלאַסאַפאַקיישאַן אַפּלאַקיישאַנז אַרייַננעמען קליניש אַלערץ אָדער ריזיקירן פאַקטאָר קאַטאַגעריזיישאַן, אָטאַמאַטיק דיאַגנאָסטיק קלאַסאַפאַקיישאַן און ספּאַם דיטעקשאַן.
Sentiment analysis
Sentiment analysis
ינוואַלווז באַשטימען די געפיל אָדער עמאָציע אויסגעדריקט אין אַ שטיק פון טעקסט. עס יימז צו קלאַסיפיצירן טעקסט אין פאַר קאַטעגאָריעסdefiניט, ווי positive, נעגאַטיוו אָדער נייטראַל, באזירט אויף די אַנדערלייינג סענטימענט קאַנווייד דורך דער מחבר.
אַפּפּליקאַטיאָנס פון סענטימענט אַנאַליסיס אַרייַננעמען:
אָטאַמאַטיק סאַמעריז אָפּשיקן צו דעם פּראָצעס דורך וואָס די הויפּט טעמעס פון איין אָדער מער דאָקומענטן זענען יידענאַפייד און דערלאנגט אין אַ קאַנסייס און פּינטלעך שטייגער. דאָס אַלאַוז דער באַניצער צו נעמען אַ קוק אין גרויס טשאַנגקס פון דאַטן אין אַ קורץ צייט. ביישפּיל אַפּלאַקיישאַנז אַרייַננעמען אַ קיצער סיסטעם וואָס אַלאַוז די אָטאַמאַטיק דור פון אַבסטראַקץ פון נייַעס אַרטיקלען און סאַמעריזיישאַן פון אינפֿאָרמאַציע דורך עקסטראַקט זאצן פון פאָרשונג פּאַפּיר אַבסטראַקץ.
ChatGPT איז אַ ויסגעצייכנט קיצער געצייַג, ספּעציעל פֿאַר לאַנג אַרטיקלען און קאָמפּליצירט באריכטן. דורך פּאַסטינג די באריכטן אין ChatGPT, מיר קענען לייכט וויסן די פּראָדוקט באריכטן קיצער אין אַ בליק.
זינט דער ציל פון דעם אַרטיקל איז צו ויספאָרשן די פיייקייט פון LLMs צו דורכפירן טעקסט אַנאַליסיס טאַסקס, עס איז יקערדיק צו דערקענען זייער לימיטיישאַנז. עטלעכע פון די שליסל לימיטיישאַנז פון LLMs אַרייַננעמען:
Ercole Palmeri
Coveware דורך Veeam וועט פאָרזעצן צו צושטעלן ענטפער באַדינונגס פֿאַר סייבער יקסטאָרשאַן אינצידענט. קאָוועוואַרע וועט פאָרשלאָגן פאָרענסיקס און רימעדייישאַן קייפּאַבילאַטיז ...
פּרידיקטיוו וישאַלט איז רעוואַלושאַנייזינג די ייל & גאַז סעקטאָר, מיט אַן ינאַווייטיוו און פּראָואַקטיוו צוגאַנג צו פאַבריק פאַרוואַלטונג.…
די UK CMA האט ארויס אַ ווארענונג וועגן ביג טעק ס נאַטור אין די קינסטלעך סייכל מאַרק. דאָרט…
די "קאַסע גרין" דעקרעט, פארמולירט דורך די אייראפעישע יוניאַן צו פאַרבעסערן די ענערגיע עפעקטיווקייַט פון בנינים, האט פארענדיקט זיין לעגיסלאַטיווע פּראָצעס מיט ...