Artikels

Teksontleding met chatGPT

Teksanalise, of teksontginning, is 'n noodsaaklike tegniek om waardevolle insigte uit groot hoeveelhede ongestruktureerde teksdata te onttrek. 

Dit behels die verwerking en ontleding van teks om patrone, neigings en verwantskappe te ontdek.

Dit stel maatskappye, navorsers en organisasies in staat om besluite te neem op grond van inligting wat uit tekste verkry is. 

Namate die volume ongestruktureerde data eksponensieel aanhou groei, het die behoefte aan akkurate en doeltreffende teksanalise-instrumente toenemend krities geword oor nywerhede so uiteenlopend soos bemarking, finansies, gesondheidsorg en sosiale wetenskappe.

Tradisioneel is teksanalise uitgevoer met behulp van reëlgebaseerde metodes en masjienleertegnieke soos SpaCY en die transformatortegniek. Alhoewel hierdie metodes doeltreffend bewys is, verg dit aansienlike moeite en kundigheid om te vervolmaak.

Met die koms van groot taalmodelle (LLM) soos Klets GPT di OpenAI. Dit het merkwaardige vermoëns getoon om mensagtige teks te genereer en konteks te verstaan, wat dit 'n belowende hulpmiddel maak vir teksanalise take soos entity recognition, sentiment analysisEn topic modeling.

Kom ons kyk nou hoe ons teksontleding kan uitvoer met ChatGPT.

Tradisionele metode (enkelmodelle) vs. LLM

In die verlede het ons altyd verskillende modelle vir verskillende take in masjienleer gebruik. As ek byvoorbeeld kennis uit 'n teks wil onttrek, sal ek 'n benoemde entiteitsherkenningsmodel moet gebruik (NER – Named Entity Recognition), as ek my teks in aparte klasse moet klassifiseer, sal ek 'n klassifikasiemodel nodig hê. Elke verskillende aktiwiteit het vereis dat die modelle anders opgelei moes word vir elke aktiwiteit, hetsy deur oordragleer of deur opleiding.

Met die bekendstelling van Large Language Models (LLM), sal 'n LLM-model veelvuldige NLP-take met of sonder opleiding kan uitvoer. Enige aktiwiteit kan wees defieenvoudig deur die instruksies in die aanwysings te verander.

Kom ons kyk nou hoe om die tradisionele NLP-taak in te doen Klets GPT en vergelyk dit met die tradisionele manier. Die NLP take wat uitgevoer sal word deur Klets GPT in hierdie artikel is:

  • Kennisonttrekking (NER)
  • Teksklassifikasie
  • Sentiment analysis
  • Opsomming

Kennisonttrekking (NER)

Benoemde Entiteitsherkenning (NER) verwys na die taak om terme in verskillende blokke tekstuele data outomaties te identifiseer. Dit word hoofsaaklik gebruik om belangrike entiteitskategorieë soos dwelmname uit kliniese notas, ongelukverwante terme uit versekeringseise en ander domeinspesifieke terme uit rekords te onttrek.

Let daarop dat hierdie aktiwiteit spesifiek vir die mediese domein is. Dit het vroeër vereis dat ons meer as 10.000 XNUMX rye data vir 'n enkele model annoteer en oplei om die spesifieke klas en term in die teks te ken. ChatGPT kan die term korrek identifiseer sonder enige vooraf-opgeleide teks of verfyn, wat 'n relatief goeie resultaat is!

Teksklassifikasie

Teksklassifikasies verwys na die outomatiese proses om teks in kategorieë te vind en te klassifiseer vanaf groot data, dit speel 'n noodsaaklike rol in teksdata-herwinning en onttrekking. Voorbeelde van teksklassifikasietoepassings sluit in kliniese waarskuwings of risikofaktorkategorisering, outomatiese diagnostiese klassifikasie en strooiposbespeuring.

Sentiment analysis

Sentiment analysis behels die bepaling van die gevoel of emosie wat in 'n stuk teks uitgedruk word. Dit het ten doel om teks in voorafkategorieë te klassifiseerdefinèt, as positief, negatief of neutraal, gebaseer op die onderliggende sentiment wat deur die skrywer oorgedra word. 

Toepassings van sentimentanalise sluit in:

  • ontleding van klantresensies en -terugvoer,
  • dop sosiale media sentimente,
  • monitering van markneigings e
  • die meting van politieke sentiment tydens verkiesingsveldtogte.

Opsomming

Outomatiese opsommings verwys na die proses waardeur die hoofonderwerpe van een of meer dokumente geïdentifiseer en op 'n bondige en akkurate wyse aangebied word. Dit stel die gebruiker in staat om in 'n kort tyd na groot stukke data te kyk. Voorbeeldtoepassings sluit 'n opsommingstelsel in wat voorsiening maak vir die outomatiese generering van opsommings uit nuusartikels en die opsomming van inligting deur sinne uit navorsingsreferaatopsommings te onttrek.

ChatGPT is 'n uitstekende opsommingsinstrument, veral vir lang artikels en ingewikkelde resensies. Deur die resensies in ChatGPT te plak, kan ons maklik die produkresensie-opsomming in 'n oogopslag ken.

Limiet van die LLM's

Aangesien die doel van hierdie artikel is om die vermoë van LLM's om teksontledingstake uit te voer, te ondersoek, is dit noodsaaklik om ook hul beperkings te erken. Sommige van die sleutelbeperkings van LLM's sluit in:

  1. Hulpbronbenutting : Die gebruik van LLM's vereis aansienlike rekenaar- en finansiële hulpbronne, wat 'n uitdaging kan wees vir kleiner organisasies of individuele navorsers met beperkte hulpbronne. Van vandag af aanvaar ChatGPT slegs ongeveer 8.000 XNUMX tokens vir invoer en uitvoer, om 'n groot hoeveelheid data te ontleed, vereis dat die gebruiker teks in verskeie stukke data opbreek, en kan verskeie API-oproepe vir take vereis.
  2. Sensitiwiteit vir vinnige frasering : Die prestasie van LLM'e kan beïnvloed word deur die manier waarop aansporings bewoord word. 'n Effense verandering in vinnige bewoording kan verskillende resultate lewer, wat 'n rede tot kommer kan wees wanneer daar na konsekwente en betroubare uitset gesoek word.
  3. Gebrek aan domein spesifieke kundigheid : Terwyl LLM's 'n algemene begrip van verskeie domeine het, het hulle dalk nie dieselfde vlak van kundigheid as gespesialiseerde modelle wat op domeinspesifieke data opgelei is nie. Gevolglik kan hul werkverrigting in sommige gevalle nie optimaal wees nie en kan dit fyninstelling of eksterne kennis vereis, veral wanneer dit met hoogs gespesialiseerde of tegniese inligting handel.

Ercole Palmeri

Innovasie nuusbrief
Moenie die belangrikste nuus oor innovasie mis nie. Registreer om hulle per e-pos te ontvang.

Onlangse artikels

Die voordele van inkleurbladsye vir kinders - 'n wêreld van magie vir alle ouderdomme

Die ontwikkeling van fyn motoriese vaardighede deur inkleur berei kinders voor vir meer komplekse vaardighede soos skryf. Om in te kleur...

2 Mei 2024

Die toekoms is hier: hoe die verskepingsbedryf die wêreldekonomie revolusioneer

Die vlootsektor is 'n ware globale ekonomiese moondheid, wat na 'n 150 miljard-mark navigeer het ...

1 Mei 2024

Uitgewers en OpenAI onderteken ooreenkomste om die vloei van inligting wat deur Kunsmatige Intelligensie verwerk word, te reguleer

Verlede Maandag het die Financial Times 'n ooreenkoms met OpenAI aangekondig. FT lisensieer sy wêreldklas-joernalistiek ...

30 April 2024

Aanlynbetalings: Hier is hoe stroomdienste jou vir altyd laat betaal

Miljoene mense betaal vir stromingsdienste en betaal maandelikse intekengeld. Dit is algemene opinie dat jy...

29 April 2024