När volymen av ostrukturerad data fortsätter att växa exponentiellt, har behovet av korrekta och effektiva textanalysverktyg blivit allt mer kritiskt inom så olika branscher som marknadsföring, finans, hälsovård och samhällsvetenskap.
Traditionellt har textanalys utförts med hjälp av regelbaserade metoder och maskininlärningstekniker som SpaCY och transformatortekniken. Även om dessa metoder har visat sig effektiva, kräver de avsevärd ansträngning och expertis för att perfekta.
Med tillkomsten av stora språkmodeller (LLM) som t.ex ChatGPT di OpenAI. Den har visat anmärkningsvärda möjligheter att skapa människoliknande text och förstå sammanhang, vilket gör det till ett lovande verktyg för textanalysuppgifter som t.ex. entity recognition
, sentiment analysis
Och topic modeling
.
Låt oss nu se hur vi kan utföra textanalys med ChatGPT.
Tidigare har vi alltid använt olika modeller för olika uppgifter inom maskininlärning. Till exempel, om jag vill extrahera kunskap från en text, måste jag använda en namngiven enhetsigenkänningsmodell (NER – Named Entity Recognition
), om jag behöver klassificera min text i separata klasser, behöver jag en klassificeringsmodell. Varje aktivitet krävde att modellerna tränades på olika sätt för varje aktivitet, antingen genom överföringsinlärning eller genom träning.
Med införandet av Large Language Models (LLM), kommer en LLM-modell att kunna utföra flera NLP-uppgifter med eller utan utbildning. Vilken aktivitet som helst kan vara defiavslutas helt enkelt genom att ändra instruktionerna i anvisningarna.
Låt oss nu se hur man gör den traditionella NLP-uppgiften i ChatGPT och jämför det med det traditionella sättet. NLP-uppgifterna som kommer att utföras av ChatGPT i den här artikeln är:
Sentiment analysis
Named Entity Recognition (NER) hänvisar till uppgiften att automatiskt identifiera termer i olika block av textdata. Det används främst för att extrahera viktiga enhetskategorier som läkemedelsnamn från kliniska anteckningar, olycksrelaterade termer från försäkringskrav och andra domänspecifika termer från register.
Observera att denna aktivitet är specifik för den medicinska domänen. Det brukade kräva att vi antecknade och tränade mer än 10.000 XNUMX rader med data för en enda modell för att känna till den specifika klassen och termen i texten. ChatGPT kan korrekt identifiera termen utan någon förtränad text eller finjustering, vilket är ett relativt bra resultat!
Textklassificeringar hänvisar till den automatiska processen att hitta och klassificera text i kategorier från enorma data, det spelar en viktig roll vid hämtning och extrahering av textdata. Exempel på textklassificeringstillämpningar inkluderar kliniska varningar eller riskfaktorkategorisering, automatisk diagnostisk klassificering och skräppostdetektering.
Sentiment analysis
Sentiment analysis
innebär att bestämma känslan eller känslan som uttrycks i en text. Det syftar till att klassificera text i förkategorierdefinite, som positiv, negativ eller neutral, baserat på den underliggande känslan som förmedlas av författaren.
Tillämpningar av sentimentanalys inkluderar:
Automatiska sammanfattningar avser den process genom vilken huvudämnena i ett eller flera dokument identifieras och presenteras på ett kortfattat och korrekt sätt. Detta gör att användaren kan ta en titt på stora bitar av data på kort tid. Exempel på tillämpningar inkluderar ett sammanfattningssystem som möjliggör automatisk generering av sammanfattningar från nyhetsartiklar och sammanfattning av information genom att extrahera meningar från sammanfattningar av forskningsrapporter.
ChatGPT är ett utmärkt sammanfattningsverktyg, speciellt för långa artiklar och komplicerade recensioner. Genom att klistra in recensionerna i ChatGPT kan vi enkelt få reda på sammanfattningen av produktrecensionen med ett ögonkast.
Eftersom syftet med den här artikeln är att undersöka LLM:ers förmåga att utföra textanalysuppgifter, är det viktigt att också känna igen deras begränsningar. Några av de viktigaste begränsningarna för LLM inkluderar:
Ercole Palmeri
Att utveckla finmotorik genom färgläggning förbereder barn för mer komplexa färdigheter som att skriva. Att färglägga…
Marinesektorn är en sann global ekonomisk makt, som har navigerat mot en marknad på 150 miljarder...
I måndags tillkännagav Financial Times ett avtal med OpenAI. FT licensierar sin journalistik i världsklass...
Miljontals människor betalar för streamingtjänster och betalar månatliga prenumerationsavgifter. Det är en allmän uppfattning att du...