Artiklar

Texttolkning med chatGPT

Textanalys, eller textmining, är en viktig teknik för att extrahera värdefulla insikter från stora mängder ostrukturerad textdata. 

Det handlar om att bearbeta och analysera text för att upptäcka mönster, trender och samband.

Det gör det möjligt för företag, forskare och organisationer att fatta beslut baserat på information från texter. 

När volymen av ostrukturerad data fortsätter att växa exponentiellt, har behovet av korrekta och effektiva textanalysverktyg blivit allt mer kritiskt inom så olika branscher som marknadsföring, finans, hälsovård och samhällsvetenskap.

Traditionellt har textanalys utförts med hjälp av regelbaserade metoder och maskininlärningstekniker som SpaCY och transformatortekniken. Även om dessa metoder har visat sig effektiva, kräver de avsevärd ansträngning och expertis för att perfekta.

Med tillkomsten av stora språkmodeller (LLM) som t.ex ChatGPT di OpenAI. Den har visat anmärkningsvärda möjligheter att skapa människoliknande text och förstå sammanhang, vilket gör det till ett lovande verktyg för textanalysuppgifter som t.ex. entity recognition, sentiment analysisOch topic modeling.

Låt oss nu se hur vi kan utföra textanalys med ChatGPT.

Traditionell metod (enkla modeller) vs. LLM

Tidigare har vi alltid använt olika modeller för olika uppgifter inom maskininlärning. Till exempel, om jag vill extrahera kunskap från en text, måste jag använda en namngiven enhetsigenkänningsmodell (NER – Named Entity Recognition), om jag behöver klassificera min text i separata klasser, behöver jag en klassificeringsmodell. Varje aktivitet krävde att modellerna tränades på olika sätt för varje aktivitet, antingen genom överföringsinlärning eller genom träning.

Med införandet av Large Language Models (LLM), kommer en LLM-modell att kunna utföra flera NLP-uppgifter med eller utan utbildning. Vilken aktivitet som helst kan vara defiavslutas helt enkelt genom att ändra instruktionerna i anvisningarna.

Låt oss nu se hur man gör den traditionella NLP-uppgiften i ChatGPT och jämför det med det traditionella sättet. NLP-uppgifterna som kommer att utföras av ChatGPT i den här artikeln är:

  • Knowledge Extraction (NER)
  • Textklassificering
  • Sentiment analysis
  • Riepilogo

Knowledge Extraction (NER)

Named Entity Recognition (NER) hänvisar till uppgiften att automatiskt identifiera termer i olika block av textdata. Det används främst för att extrahera viktiga enhetskategorier som läkemedelsnamn från kliniska anteckningar, olycksrelaterade termer från försäkringskrav och andra domänspecifika termer från register.

Observera att denna aktivitet är specifik för den medicinska domänen. Det brukade kräva att vi antecknade och tränade mer än 10.000 XNUMX rader med data för en enda modell för att känna till den specifika klassen och termen i texten. ChatGPT kan korrekt identifiera termen utan någon förtränad text eller finjustering, vilket är ett relativt bra resultat!

Textklassificering

Textklassificeringar hänvisar till den automatiska processen att hitta och klassificera text i kategorier från enorma data, det spelar en viktig roll vid hämtning och extrahering av textdata. Exempel på textklassificeringstillämpningar inkluderar kliniska varningar eller riskfaktorkategorisering, automatisk diagnostisk klassificering och skräppostdetektering.

Sentiment analysis

Sentiment analysis innebär att bestämma känslan eller känslan som uttrycks i en text. Det syftar till att klassificera text i förkategorierdefinite, som positiv, negativ eller neutral, baserat på den underliggande känslan som förmedlas av författaren. 

Tillämpningar av sentimentanalys inkluderar:

  • analys av kundrecensioner och feedback,
  • spåra känslor i sociala medier,
  • övervakning av marknadstrender e
  • mätning av politiska känslor under valkampanjer.

Riepilogo

Automatiska sammanfattningar avser den process genom vilken huvudämnena i ett eller flera dokument identifieras och presenteras på ett kortfattat och korrekt sätt. Detta gör att användaren kan ta en titt på stora bitar av data på kort tid. Exempel på tillämpningar inkluderar ett sammanfattningssystem som möjliggör automatisk generering av sammanfattningar från nyhetsartiklar och sammanfattning av information genom att extrahera meningar från sammanfattningar av forskningsrapporter.

ChatGPT är ett utmärkt sammanfattningsverktyg, speciellt för långa artiklar och komplicerade recensioner. Genom att klistra in recensionerna i ChatGPT kan vi enkelt få reda på sammanfattningen av produktrecensionen med ett ögonkast.

Gräns ​​för LLM

Eftersom syftet med den här artikeln är att undersöka LLM:ers förmåga att utföra textanalysuppgifter, är det viktigt att också känna igen deras begränsningar. Några av de viktigaste begränsningarna för LLM inkluderar:

  1. Resursanvändning : Att använda LLM kräver betydande beräknings- och ekonomiska resurser, vilket kan vara en utmaning för mindre organisationer eller enskilda forskare med begränsade resurser. Från och med idag accepterar ChatGPT endast cirka 8.000 XNUMX tokens för inmatning och utmatning, för att analysera en stor mängd data, kräver att användaren delar upp text i flera databitar och kan kräva flera API-anrop för uppgifter.
  2. Känslighet för snabb frasering : Prestandan för LLM:er kan påverkas av hur uppmaningar är formulerade. En liten ändring av snabb formulering kan ge olika resultat, vilket kan vara en anledning till oro när man letar efter konsekvent och tillförlitlig produktion.
  3. Brist på domänspecifik expertis : Även om LLM:er har en allmän förståelse för olika domäner, kanske de inte har samma sakkunskapsnivå som specialiserade modeller utbildade på domänspecifika data. Som ett resultat kan deras prestanda i vissa fall inte vara optimal och kan kräva finjustering eller extern kunskap, särskilt när det handlar om mycket specialiserad eller teknisk information.

Ercole Palmeri

Nyhetsbrev för innovation
Missa inte de viktigaste nyheterna om innovation. Registrera dig för att få dem via e-post.

Articoli recenti

Fördelarna med målarbok för barn - en värld av magi för alla åldrar

Att utveckla finmotorik genom färgläggning förbereder barn för mer komplexa färdigheter som att skriva. Att färglägga…

2 maj 2024

Framtiden är här: Hur sjöfartsindustrin revolutionerar den globala ekonomin

Marinesektorn är en sann global ekonomisk makt, som har navigerat mot en marknad på 150 miljarder...

1 maj 2024

Publishers och OpenAI tecknar avtal för att reglera flödet av information som bearbetas av artificiell intelligens

I måndags tillkännagav Financial Times ett avtal med OpenAI. FT licensierar sin journalistik i världsklass...

30 April 2024

Onlinebetalningar: Här är hur streamingtjänster får dig att betala för alltid

Miljontals människor betalar för streamingtjänster och betalar månatliga prenumerationsavgifter. Det är en allmän uppfattning att du...

29 April 2024