Artikoloj

Analizo de tekstoj per chatGPT

Tekstanalitiko, aŭ tekstminado, estas esenca tekniko por ĉerpi valorajn komprenojn de grandaj kvantoj da nestrukturitaj tekstaj datumoj. 

Ĝi implikas prilabori kaj analizi tekston por malkovri ŝablonojn, tendencojn kaj rilatojn.

Ĝi permesas al kompanioj, esploristoj kaj organizoj fari decidojn surbaze de informoj kolektitaj el tekstoj. 

Ĉar la volumo de nestrukturitaj datumoj daŭre kreskas eksponente, la bezono de precizaj kaj efikaj tekst-analitikaj iloj fariĝis ĉiam pli kritika en industrioj same diversaj kiel merkatado, financo, sanservo kaj sociaj sciencoj.

Tradicie, tekstanalizo estis farita uzante regul-bazitajn metodojn kaj maŝinlernajn teknikojn kiel ekzemple SpaCY kaj la transformiltekniko. Kvankam ĉi tiuj metodoj pruvis efikaj, ili postulas konsiderindan penadon kaj kompetentecon por perfektigi.

Kun la apero de grandaj lingvomodeloj (LLM) kiel ekz Babilado GPT di OpenAI. Ĝi montris rimarkindajn kapablojn en generado de homsimila teksto kaj komprenado de kunteksto, igante ĝin promesplena ilo por tekstaj analiztaskoj kiel ekzemple entity recognition, sentiment analysis, kaj topic modeling.

Ni vidu nun kiel ni povas fari tekstoan analizon per ChatGPT.

Tradicia metodo (unuopaj modeloj) vs. LLM

En la pasinteco, ni ĉiam uzis malsamajn modelojn por malsamaj taskoj en maŝinlernado. Ekzemple, se mi volas ĉerpi scion el teksto, mi devos uzi modelon de rekono de nomita ento (NER - Named Entity Recognition), se mi bezonas klasifiki mian tekston en apartajn klasojn, mi bezonos klasifikmodelon. Ĉiu malsama agado postulis la modelojn esti trejnitaj alimaniere por ĉiu agado, aŭ per transiga lernado aŭ per trejnado.

Kun la enkonduko de Large Language Models (LLM), LLM-modelo povos plenumi plurajn NLP-taskojn kun aŭ sen trejnado. Ĉiu agado povas esti defifinite simple ŝanĝante la instrukciojn en la invitiloj.

Nun ni vidu kiel fari la tradician NLP-taskon en Babilado GPT kaj komparu ĝin kun la tradicia maniero. La NLP-taskoj kiuj estos plenumitaj de Babilado GPT en ĉi tiu artikolo estas:

  • Scia Eltiro (NER)
  • Klasifiko de tekstoj
  • Sentiment analysis
  • Resumo

Scia Eltiro (NER)

Named Entity Recognition (NER) rilatas al la tasko aŭtomate identigi terminojn en malsamaj blokoj de tekstaj datumoj. Ĝi estas ĉefe uzata por ĉerpi gravajn entajn kategoriojn kiel medikamentnomojn el klinikaj notoj, akcidento-rilatajn terminojn el asekuraj reklamoj kaj aliajn domajn-specifajn terminojn el registroj.

Notu, ke ĉi tiu agado estas specifa por la medicina domajno. Ĝi kutimis postuli nin komenti kaj trejni pli ol 10.000 vicojn da datumoj por ununura modelo koni la specifan klason kaj terminon en la teksto. ChatGPT povas ĝuste identigi la terminon sen iu antaŭtrejnita teksto aŭ fajnagordado, kio estas relative bona rezulto!

Klasifiko de tekstoj

Tekstaj klasifikoj rilatas al la aŭtomata procezo trovi kaj klasifiki tekston en kategoriojn el grandegaj datumoj, ĝi ludas esencan rolon en rehavigo kaj eltiro de tekstaj datumoj. Ekzemploj de tekstaj klasifik-aplikoj inkluzivas klinikajn atentigojn aŭ riskfaktorkategoriadon, aŭtomatan diagnozan klasifikon kaj spam-detekton.

Sentiment analysis

Sentiment analysis implikas determini la senton aŭ emocion esprimitan en tekstopeco. Ĝi celas klasifiki tekston en antaŭkategoriojndefinite, kiel pozitiva, negativa aŭ neŭtrala, surbaze de la subesta sento transdonita de la aŭtoro. 

Aplikoj de sentanalizo inkluzivas:

  • analizo de klientaj recenzoj kaj sugestoj,
  • spuri socian amaskomunikilaron senton,
  • monitori merkatajn tendencojn e
  • la mezurado de politika sento dum balotkampanjoj.

Resumo

Aŭtomataj resumoj rilatas al la procezo per kiu la ĉefaj temoj de unu aŭ pluraj dokumentoj estas identigitaj kaj prezentitaj en konciza kaj preciza maniero. Ĉi tio permesas al la uzanto rigardi grandajn partojn da datumoj en mallonga tempo. Ekzemplaj aplikoj inkluzivas resuman sistemon, kiu permesas la aŭtomatan generacion de resumaĵoj de novaĵartikoloj kaj la resumon de informoj ĉerpante frazojn el esploraj abstraktaĵoj.

ChatGPT estas bonega resuma ilo, precipe por longaj artikoloj kaj komplikaj recenzoj. Algluante la recenzojn en ChatGPT, ni povas facile scii la produktan recenzresumon per unu ekrigardo.

Limo de la LLM-oj

Ĉar la celo de ĉi tiu artikolo estas esplori la kapablon de LLM-oj plenumi tekstajn analizajn taskojn, estas esence ankaŭ rekoni iliajn limojn. Kelkaj el la ĉefaj limigoj de LLM-oj inkluzivas:

  1. Uzado de rimedoj : Uzi LLMojn postulas signifajn komputilajn kaj financajn rimedojn, kiuj povas esti defio por pli malgrandaj organizoj aŭ individuaj esploristoj kun limigitaj rimedoj. De hodiaŭ, ChatGPT nur akceptas ĉirkaŭ 8.000 ĵetonojn por enigo kaj eligo, por analizi grandan kvanton da datumoj, postulas la uzanton rompi tekston en plurajn partojn da datumoj, kaj povas postuli plurajn API-vokojn por taskoj.
  2. Sentemo al prompta vortumo : La agado de LLM-oj povas esti tuŝita de la maniero kiel instigoj estas vortigitaj. Malgranda ŝanĝo en prompta vortumo povas produkti malsamajn rezultojn, kiuj povus esti kaŭzo de maltrankvilo kiam oni serĉas konsekvencan kaj fidindan produktaĵon.
  3. Manko de domajna specifa kompetenteco : Dum LLM-oj havas ĝeneralan komprenon pri diversaj domajnoj, ili eble ne havas la saman nivelon de kompetenteco kiel specialecaj modeloj trejnitaj pri domajnaj specifaj datumoj. Kiel rezulto, ilia efikeco eble ne estas optimuma en kelkaj kazoj kaj povas postuli fajnagordan aŭ eksteran scion, precipe kiam traktas tre specialiĝintajn aŭ teknikajn informojn.

Ercole Palmeri

Informilo pri novigo
Ne maltrafu la plej gravajn novaĵojn pri novigado. Registriĝi por ricevi ilin retpoŝte.

Lastaj artikoloj

Eldonistoj kaj OpenAI subskribas interkonsentojn por reguligi la fluon de informoj prilaboritaj de Artefarita Inteligenteco

Pasintlunde, la Financial Times anoncis interkonsenton kun OpenAI. FT licencas sian mondklasan ĵurnalismon...

30 aprilo 2024

Interretaj Pagoj: Jen Kiel Fluaj Servoj Faras Vin Pagi Eterne

Milionoj da homoj pagas por streaming-servoj, pagante monatajn abonkotizojn. Estas komuna opinio, ke vi...

29 aprilo 2024

Veeam havas la plej ampleksan subtenon por ransomware, de protekto ĝis respondo kaj reakiro

Coveware de Veeam daŭre liveros servojn de respondaj incidentoj pri ciberĉantaĝo. Coveware ofertos krimmedicinajn kaj solvajn kapablojn...

23 aprilo 2024

Verda kaj Cifereca Revolucio: Kiel Prognoza Prizorgado Transformas la Petrolo kaj Gasa Industrio

Prognoza prizorgado revolucias la petrolon kaj gasan sektoron, kun noviga kaj iniciatema aliro al plantadministrado...

22 aprilo 2024