Namate die volume ongestruktureerde data eksponensieel aanhou groei, het die behoefte aan akkurate en doeltreffende teksanalise-instrumente toenemend krities geword oor nywerhede so uiteenlopend soos bemarking, finansies, gesondheidsorg en sosiale wetenskappe.
Tradisioneel is teksanalise uitgevoer met behulp van reëlgebaseerde metodes en masjienleertegnieke soos SpaCY en die transformatortegniek. Alhoewel hierdie metodes doeltreffend bewys is, verg dit aansienlike moeite en kundigheid om te vervolmaak.
Met die koms van groot taalmodelle (LLM) soos Klets GPT di OpenAI. Dit het merkwaardige vermoëns getoon om mensagtige teks te genereer en konteks te verstaan, wat dit 'n belowende hulpmiddel maak vir teksanalise take soos entity recognition
, sentiment analysis
En topic modeling
.
Kom ons kyk nou hoe ons teksontleding kan uitvoer met ChatGPT.
In die verlede het ons altyd verskillende modelle vir verskillende take in masjienleer gebruik. As ek byvoorbeeld kennis uit 'n teks wil onttrek, sal ek 'n benoemde entiteitsherkenningsmodel moet gebruik (NER – Named Entity Recognition
), as ek my teks in aparte klasse moet klassifiseer, sal ek 'n klassifikasiemodel nodig hê. Elke verskillende aktiwiteit het vereis dat die modelle anders opgelei moes word vir elke aktiwiteit, hetsy deur oordragleer of deur opleiding.
Met die bekendstelling van Large Language Models (LLM), sal 'n LLM-model veelvuldige NLP-take met of sonder opleiding kan uitvoer. Enige aktiwiteit kan wees defieenvoudig deur die instruksies in die aanwysings te verander.
Kom ons kyk nou hoe om die tradisionele NLP-taak in te doen Klets GPT en vergelyk dit met die tradisionele manier. Die NLP take wat uitgevoer sal word deur Klets GPT in hierdie artikel is:
Sentiment analysis
Benoemde Entiteitsherkenning (NER) verwys na die taak om terme in verskillende blokke tekstuele data outomaties te identifiseer. Dit word hoofsaaklik gebruik om belangrike entiteitskategorieë soos dwelmname uit kliniese notas, ongelukverwante terme uit versekeringseise en ander domeinspesifieke terme uit rekords te onttrek.
Let daarop dat hierdie aktiwiteit spesifiek vir die mediese domein is. Dit het vroeër vereis dat ons meer as 10.000 XNUMX rye data vir 'n enkele model annoteer en oplei om die spesifieke klas en term in die teks te ken. ChatGPT kan die term korrek identifiseer sonder enige vooraf-opgeleide teks of verfyn, wat 'n relatief goeie resultaat is!
Teksklassifikasies verwys na die outomatiese proses om teks in kategorieë te vind en te klassifiseer vanaf groot data, dit speel 'n noodsaaklike rol in teksdata-herwinning en onttrekking. Voorbeelde van teksklassifikasietoepassings sluit in kliniese waarskuwings of risikofaktorkategorisering, outomatiese diagnostiese klassifikasie en strooiposbespeuring.
Sentiment analysis
Sentiment analysis
behels die bepaling van die gevoel of emosie wat in 'n stuk teks uitgedruk word. Dit het ten doel om teks in voorafkategorieë te klassifiseerdefinèt, as positief, negatief of neutraal, gebaseer op die onderliggende sentiment wat deur die skrywer oorgedra word.
Toepassings van sentimentanalise sluit in:
Outomatiese opsommings verwys na die proses waardeur die hoofonderwerpe van een of meer dokumente geïdentifiseer en op 'n bondige en akkurate wyse aangebied word. Dit stel die gebruiker in staat om in 'n kort tyd na groot stukke data te kyk. Voorbeeldtoepassings sluit 'n opsommingstelsel in wat voorsiening maak vir die outomatiese generering van opsommings uit nuusartikels en die opsomming van inligting deur sinne uit navorsingsreferaatopsommings te onttrek.
ChatGPT is 'n uitstekende opsommingsinstrument, veral vir lang artikels en ingewikkelde resensies. Deur die resensies in ChatGPT te plak, kan ons maklik die produkresensie-opsomming in 'n oogopslag ken.
Aangesien die doel van hierdie artikel is om die vermoë van LLM's om teksontledingstake uit te voer, te ondersoek, is dit noodsaaklik om ook hul beperkings te erken. Sommige van die sleutelbeperkings van LLM's sluit in:
Ercole Palmeri
Die ontwikkeling van fyn motoriese vaardighede deur inkleur berei kinders voor vir meer komplekse vaardighede soos skryf. Om in te kleur...
Die vlootsektor is 'n ware globale ekonomiese moondheid, wat na 'n 150 miljard-mark navigeer het ...
Verlede Maandag het die Financial Times 'n ooreenkoms met OpenAI aangekondig. FT lisensieer sy wêreldklas-joernalistiek ...
Miljoene mense betaal vir stromingsdienste en betaal maandelikse intekengeld. Dit is algemene opinie dat jy...