Pe măsură ce volumul de date nestructurate continuă să crească exponențial, nevoia de instrumente precise și eficiente de analiză a textului a devenit din ce în ce mai critică în diverse domenii, cum ar fi marketing, finanțe, asistență medicală și științe sociale.
În mod tradițional, analiza textului a fost efectuată folosind metode bazate pe reguli și tehnici de învățare automată, cum ar fi SpaCY și tehnica transformatorului. Deși aceste metode s-au dovedit eficiente, ele necesită un efort considerabil și expertiză pentru a fi perfecte.
Odată cu apariția modelelor lingvistice mari (LLM), cum ar fi Chat GPT di OpenAI. A demonstrat capacități remarcabile în generarea de text asemănător omului și înțelegerea contextului, făcându-l un instrument promițător pentru sarcini de analiză a textului, cum ar fi entity recognition
, sentiment analysis
, Şi topic modeling
.
Să vedem acum cum putem efectua analize de text folosind ChatGPT.
În trecut, am folosit întotdeauna modele diferite pentru diferite sarcini în învățarea automată. De exemplu, dacă vreau să extrag cunoștințe dintr-un text, va trebui să folosesc un model de recunoaștere a entității numite (NER – Named Entity Recognition
), dacă trebuie să-mi clasific textul în clase separate, voi avea nevoie de un model de clasificare. Fiecare sarcină diferită a necesitat ca modelele să fie antrenate diferit în funcție de sarcină, fie prin transfer de învățare, fie prin formare.
Odată cu introducerea Large Language Models (LLM), un model LLM va fi capabil să efectueze mai multe sarcini NLP cu sau fără pregătire. Fiecare activitate poate fi defiterminat prin simpla modificare a instrucțiunilor din prompturi.
Acum să vedem cum să îndeplinim sarcina tradițională NLP în Chat GPT și comparați-l cu modul tradițional. Sarcinile NLP care vor fi efectuate de Chat GPT in acest articol sunt:
Sentiment analysis
Recunoașterea entității numite (NER) se referă la sarcina de a identifica automat termeni în diferite blocuri de date textuale. Este folosit în principal pentru a extrage categorii importante de entități, cum ar fi numele medicamentelor din notele clinice, termenii de accident din daunele de asigurare și alți termeni specifici domeniului din înregistrări.
Rețineți că această sarcină este specifică domeniului medical. Anterior, ne cerea să adnotăm și să antrenăm mai mult de 10.000 de rânduri de date pentru un singur model pentru a cunoaște clasa și termenul specific din text. ChatGPT poate identifica corect termenul fără niciun text pre-antrenat sau ajustare fină, ceea ce este un rezultat relativ bun!
Clasificarea textului se referă la procesul automat de găsire și clasificare a textului în categorii din date uriașe, joacă un rol esențial în extragerea și extragerea datelor text. Exemple de aplicații de clasificare a textului includ alerta clinică sau clasificarea factorilor de risc, clasificarea automată a diagnosticului și detectarea spam-ului.
Sentiment analysis
Sentiment analysis
implică determinarea sentimentului sau emoției exprimate într-o bucată de text. Are scopul de a clasifica textul în pre-categoriidefinite, cum ar fi pozitiv, negativ sau neutru, pe baza sentimentului de bază transmis de autor.
Aplicațiile analizei sentimentelor includ:
Rezumatele automate se referă la procesul prin care subiectele principale ale unuia sau mai multor documente sunt identificate și prezentate în mod concis și corect. Acest lucru permite utilizatorului să arunce o privire asupra blocurilor mari de date într-un timp scurt. Exemplele de aplicații includ un sistem de rezumare care permite generarea automată de rezumate din articole de știri și rezumarea informațiilor prin extragerea propozițiilor din rezumatele lucrărilor de cercetare.
ChatGPT este un instrument excelent de rezumat, în special pentru articole lungi și recenzii complicate. Lipind recenzii în ChatGPT, putem cunoaște cu ușurință rezumatul recenziilor despre produse dintr-o privire.
Deoarece scopul acestui articol este de a explora capacitatea LLM-urilor de a efectua sarcini de analiză a textului, este esențial să le recunoaștem și limitările. Unele dintre principalele limitări ale LLM includ:
Ercole Palmeri
Luni trecută, Financial Times a anunțat un acord cu OpenAI. FT își licențiază jurnalismul de clasă mondială...
Milioane de oameni plătesc pentru serviciile de streaming, plătind taxe lunare de abonament. Este o părere comună că tu...
Coveware de la Veeam va continua să ofere servicii de răspuns la incidente de extorcare cibernetică. Coveware va oferi capacități criminalistice și de remediere...
Întreținerea predictivă revoluționează sectorul petrolului și gazelor, cu o abordare inovatoare și proactivă a managementului uzinelor...