Artikler

Tekstparsing ved hjelp av chatGPT

Tekstanalyse, eller tekstutvinning, er en viktig teknikk for å trekke ut verdifull innsikt fra store mengder ustrukturerte tekstdata. 

Det innebærer å bearbeide og analysere tekst for å oppdage mønstre, trender og sammenhenger.

Den lar bedrifter, forskere og organisasjoner ta beslutninger basert på informasjon hentet fra tekster. 

Ettersom volumet av ustrukturerte data fortsetter å vokse eksponentielt, har behovet for nøyaktige og effektive tekstanalyseverktøy blitt stadig mer kritisk på tvers av så forskjellige bransjer som markedsføring, finans, helsevesen og samfunnsvitenskap.

Tradisjonelt har tekstanalyse blitt utført ved bruk av regelbaserte metoder og maskinlæringsteknikker som SpaCY og transformatorteknikken. Selv om disse metodene har vist seg effektive, krever de betydelig innsats og ekspertise for å perfeksjonere.

Med inntoget av store språkmodeller (LLM) som f.eks ChatGPT di OpenAI. Den har vist bemerkelsesverdige evner til å generere menneskelignende tekst og forstå kontekst, noe som gjør den til et lovende verktøy for tekstanalyseoppgaver som f.eks. entity recognition, sentiment analysisOg topic modeling.

La oss nå se hvordan vi kan utføre tekstparsing ved hjelp av ChatGPT.

Tradisjonell metode (enkeltmodeller) vs. LLM

Tidligere har vi alltid brukt forskjellige modeller for forskjellige oppgaver innen maskinlæring. For eksempel, hvis jeg vil trekke ut kunnskap fra en tekst, må jeg bruke en navngitt enhetsgjenkjenningsmodell (NER – Named Entity Recognition), hvis jeg trenger å klassifisere teksten min i separate klasser, trenger jeg en klassifiseringsmodell. Hver forskjellig aktivitet krevde at modellene trenes forskjellig for hver aktivitet, enten ved overføringslæring eller ved trening.

Med introduksjonen av Large Language Models (LLM), vil en LLM-modell kunne utføre flere NLP-oppgaver med eller uten opplæring. Enhver aktivitet kan være defifullført ganske enkelt ved å endre instruksjonene i ledetekstene.

La oss nå se hvordan du gjør den tradisjonelle NLP-oppgaven i ChatGPT og sammenligne det med den tradisjonelle måten. NLP-oppgavene som skal utføres av ChatGPT i denne artikkelen er:

  • Kunnskapsutvinning (NER)
  • Tekstklassifisering
  • Sentiment analysis
  • Riepilogo

Kunnskapsutvinning (NER)

Named Entity Recognition (NER) refererer til oppgaven med å automatisk identifisere termer i forskjellige blokker med tekstdata. Det brukes hovedsakelig til å trekke ut viktige enhetskategorier som legemiddelnavn fra kliniske notater, ulykkesrelaterte termer fra forsikringskrav og andre domenespesifikke termer fra poster.

Merk at denne aktiviteten er spesifikk for det medisinske domenet. Det pleide å kreve at vi annoterte og trener mer enn 10.000 XNUMX rader med data for en enkelt modell for å kjenne den spesifikke klassen og begrepet i teksten. ChatGPT kan identifisere begrepet korrekt uten forhåndsopplært tekst eller finjustering, noe som er et relativt godt resultat!

Tekstklassifisering

Tekstklassifiseringer refererer til den automatiske prosessen med å finne og klassifisere tekst i kategorier fra enorme data, den spiller en viktig rolle i gjenfinning og utvinning av tekstdata. Eksempler på tekstklassifiseringsapplikasjoner inkluderer kliniske varsler eller risikofaktorkategorisering, automatisk diagnostisk klassifisering og spamdeteksjon.

Sentiment analysis

Sentiment analysis innebærer å bestemme følelsen eller følelsen som uttrykkes i et tekststykke. Den tar sikte på å klassifisere tekst i forhåndskategorierdefinite, som positiv, negativ eller nøytral, basert på den underliggende følelsen formidlet av forfatteren. 

Anvendelser av sentimentanalyse inkluderer:

  • analyse av kundeanmeldelser og tilbakemeldinger,
  • sporing av følelser i sosiale medier,
  • overvåke markedstrender e
  • måling av politisk sentiment under valgkamper.

Riepilogo

Automatiske sammendrag refererer til prosessen der hovedemnene i ett eller flere dokumenter identifiseres og presenteres på en kortfattet og nøyaktig måte. Dette lar brukeren ta en titt på store databiter på kort tid. Eksempelapplikasjoner inkluderer et oppsummeringssystem som tillater automatisk generering av sammendrag fra nyhetsartikler og oppsummering av informasjon ved å trekke ut setninger fra forskningsrapporter.

ChatGPT er et utmerket oppsummeringsverktøy, spesielt for lange artikler og kompliserte anmeldelser. Ved å lime inn anmeldelsene i ChatGPT kan vi enkelt få oversikt over produktanmeldelser.

Grensen for LLM-ene

Siden hensikten med denne artikkelen er å utforske LLMs evne til å utføre tekstanalyseoppgaver, er det viktig å også gjenkjenne deres begrensninger. Noen av de viktigste begrensningene til LLM-er inkluderer:

  1. Ressursutnyttelse : Bruk av LLM krever betydelige beregningsmessige og økonomiske ressurser, noe som kan være en utfordring for mindre organisasjoner eller individuelle forskere med begrensede ressurser. Per i dag godtar ChatGPT bare rundt 8.000 tokens for input og output, for å analysere en stor mengde data, krever at brukeren deler tekst i flere databiter, og kan kreve flere API-kall for oppgaver.
  2. Følsomhet for rask frasering : Ytelsen til LLM-er kan påvirkes av måten forespørsler er formulert på. En liten endring i umiddelbar ordlyd kan gi forskjellige resultater, noe som kan være grunn til bekymring når du ser etter konsistente og pålitelige resultater.
  3. Mangel på domenespesifikk ekspertise : Selv om LLM-er har en generell forståelse av ulike domener, har de kanskje ikke samme ekspertisenivå som spesialiserte modeller som er trent på domenespesifikke data. Som et resultat kan det hende at ytelsen deres ikke er optimal i noen tilfeller og kan kreve finjustering eller ekstern kunnskap, spesielt når det gjelder høyt spesialisert eller teknisk informasjon.

Ercole Palmeri

Nyhetsbrev for innovasjon
Ikke gå glipp av de viktigste nyhetene om innovasjon. Registrer deg for å motta dem på e-post.

Siste artikler

Fremtiden er her: Hvordan shippingindustrien revolusjonerer den globale økonomien

Marinesektoren er en ekte global økonomisk makt, som har navigert mot et 150 milliarder marked...

1 mai 2024

Utgivere og OpenAI signerer avtaler for å regulere flyten av informasjon som behandles av kunstig intelligens

Sist mandag kunngjorde Financial Times en avtale med OpenAI. FT lisensierer sin journalistikk i verdensklasse...

30 april 2024

Nettbetalinger: Her er hvordan strømmetjenester får deg til å betale for alltid

Millioner av mennesker betaler for strømmetjenester og betaler månedlige abonnementsavgifter. Det er vanlig oppfatning at du...

29 april 2024

Veeam har den mest omfattende støtten for løsepengevare, fra beskyttelse til respons og gjenoppretting

Coveware by Veeam vil fortsette å tilby responstjenester for cyberutpressing. Coveware vil tilby kriminaltekniske og utbedringsmuligheter...

23 april 2024