Articole

Analiza textului folosind chatGPT

Analiza textului, sau text mining, este o tehnică fundamentală pentru extragerea de informații valoroase din cantități mari de date text nestructurate. 

Implica procesarea și analizarea textului pentru a descoperi modele, tendințe și relații.

Permite companiilor, cercetătorilor și organizațiilor să ia decizii pe baza informațiilor extrapolate din texte. 

Pe măsură ce volumul de date nestructurate continuă să crească exponențial, nevoia de instrumente precise și eficiente de analiză a textului a devenit din ce în ce mai critică în diverse domenii, cum ar fi marketing, finanțe, asistență medicală și științe sociale.

În mod tradițional, analiza textului a fost efectuată folosind metode bazate pe reguli și tehnici de învățare automată, cum ar fi SpaCY și tehnica transformatorului. Deși aceste metode s-au dovedit eficiente, ele necesită un efort considerabil și expertiză pentru a fi perfecte.

Odată cu apariția modelelor lingvistice mari (LLM), cum ar fi Chat GPT di OpenAI. A demonstrat capacități remarcabile în generarea de text asemănător omului și înțelegerea contextului, făcându-l un instrument promițător pentru sarcini de analiză a textului, cum ar fi entity recognition, sentiment analysis, Şi topic modeling.

Să vedem acum cum putem efectua analize de text folosind ChatGPT.

Metoda tradițională (modele individuale) vs. LLM

În trecut, am folosit întotdeauna modele diferite pentru diferite sarcini în învățarea automată. De exemplu, dacă vreau să extrag cunoștințe dintr-un text, va trebui să folosesc un model de recunoaștere a entității numite (NER – Named Entity Recognition), dacă trebuie să-mi clasific textul în clase separate, voi avea nevoie de un model de clasificare. Fiecare sarcină diferită a necesitat ca modelele să fie antrenate diferit în funcție de sarcină, fie prin transfer de învățare, fie prin formare.

Odată cu introducerea Large Language Models (LLM), un model LLM va fi capabil să efectueze mai multe sarcini NLP cu sau fără pregătire. Fiecare activitate poate fi defiterminat prin simpla modificare a instrucțiunilor din prompturi.

Acum să vedem cum să îndeplinim sarcina tradițională NLP în Chat GPT și comparați-l cu modul tradițional. Sarcinile NLP care vor fi efectuate de Chat GPT in acest articol sunt:

  • Extragerea cunoștințelor (NER)
  • Clasificarea textelor
  • Sentiment analysis
  • Riepilogo

Extragerea cunoștințelor (NER)

Recunoașterea entității numite (NER) se referă la sarcina de a identifica automat termeni în diferite blocuri de date textuale. Este folosit în principal pentru a extrage categorii importante de entități, cum ar fi numele medicamentelor din notele clinice, termenii de accident din daunele de asigurare și alți termeni specifici domeniului din înregistrări.

Rețineți că această sarcină este specifică domeniului medical. Anterior, ne cerea să adnotăm și să antrenăm mai mult de 10.000 de rânduri de date pentru un singur model pentru a cunoaște clasa și termenul specific din text. ChatGPT poate identifica corect termenul fără niciun text pre-antrenat sau ajustare fină, ceea ce este un rezultat relativ bun!

Clasificarea textelor

Clasificarea textului se referă la procesul automat de găsire și clasificare a textului în categorii din date uriașe, joacă un rol esențial în extragerea și extragerea datelor text. Exemple de aplicații de clasificare a textului includ alerta clinică sau clasificarea factorilor de risc, clasificarea automată a diagnosticului și detectarea spam-ului.

Sentiment analysis

Sentiment analysis implică determinarea sentimentului sau emoției exprimate într-o bucată de text. Are scopul de a clasifica textul în pre-categoriidefinite, cum ar fi pozitiv, negativ sau neutru, pe baza sentimentului de bază transmis de autor. 

Aplicațiile analizei sentimentelor includ:

  • analiza recenziilor și feedback-ului clienților,
  • monitorizarea sentimentului rețelelor sociale,
  • monitorizarea tendințelor pieței e
  • măsurarea sentimentului politic în timpul campaniilor electorale.

Riepilogo

Rezumatele automate se referă la procesul prin care subiectele principale ale unuia sau mai multor documente sunt identificate și prezentate în mod concis și corect. Acest lucru permite utilizatorului să arunce o privire asupra blocurilor mari de date într-un timp scurt. Exemplele de aplicații includ un sistem de rezumare care permite generarea automată de rezumate din articole de știri și rezumarea informațiilor prin extragerea propozițiilor din rezumatele lucrărilor de cercetare.

ChatGPT este un instrument excelent de rezumat, în special pentru articole lungi și recenzii complicate. Lipind recenzii în ChatGPT, putem cunoaște cu ușurință rezumatul recenziilor despre produse dintr-o privire.

Limita LLM-urilor

Deoarece scopul acestui articol este de a explora capacitatea LLM-urilor de a efectua sarcini de analiză a textului, este esențial să le recunoaștem și limitările. Unele dintre principalele limitări ale LLM includ:

  1. Utilizarea resurselor : Utilizarea LLM necesită resurse computaționale și financiare semnificative, ceea ce poate reprezenta o provocare pentru organizațiile mai mici sau pentru cercetătorii individuali cu resurse limitate. Până în prezent, ChatGPT acceptă doar aproximativ 8.000 de jetoane pentru intrare și ieșire, pentru a analiza o cantitate mare de date, solicită utilizatorului să împartă textul în mai multe blocuri de date și poate necesita mai multe apeluri API pentru sarcini.
  2. Sensibilitate la formularea promptă : Performanța LLM poate fi afectată de modul în care sunt formulate solicitările. O ușoară modificare a textului promptului poate produce rezultate diferite, care ar putea fi o îngrijorare atunci când se caută rezultate consistente și de încredere.
  3. Lipsa expertizei specifice domeniului : Deși LLM-urile au o înțelegere generală a diferitelor domenii, este posibil să nu aibă același nivel de expertiză ca modelele specializate instruite pe date specifice domeniului. Ca urmare, performanța lor poate fi suboptimă în unele cazuri și necesită o reglare fină sau cunoștințe externe, în special atunci când aveți de-a face cu informații foarte specializate sau tehnice.

Ercole Palmeri

Buletin informativ de inovare
Nu rata cele mai importante știri despre inovație. Înscrieți-vă pentru a le primi pe e-mail.

Articole recente

Editorii și OpenAI semnează acorduri pentru a reglementa fluxul de informații procesate de Inteligența Artificială

Luni trecută, Financial Times a anunțat un acord cu OpenAI. FT își licențiază jurnalismul de clasă mondială...

Aprilie 30 2024

Plăți online: Iată cum serviciile de streaming vă fac să plătiți pentru totdeauna

Milioane de oameni plătesc pentru serviciile de streaming, plătind taxe lunare de abonament. Este o părere comună că tu...

Aprilie 29 2024

Veeam oferă cel mai complet suport pentru ransomware, de la protecție la răspuns și recuperare

Coveware de la Veeam va continua să ofere servicii de răspuns la incidente de extorcare cibernetică. Coveware va oferi capacități criminalistice și de remediere...

Aprilie 23 2024

Revoluția verde și digitală: cum întreținerea predictivă transformă industria petrolului și gazelor

Întreținerea predictivă revoluționează sectorul petrolului și gazelor, cu o abordare inovatoare și proactivă a managementului uzinelor...

Aprilie 22 2024