Vzhledem k tomu, že objem nestrukturovaných dat stále exponenciálně roste, je potřeba přesných a účinných nástrojů pro analýzu textu stále důležitější v různých odvětvích, jako je marketing, finance, zdravotnictví a společenské vědy.
Textová analýza byla tradičně prováděna pomocí metod založených na pravidlech a technik strojového učení, jako je SpaCY a technika transformátoru. I když se tyto metody ukázaly jako účinné, vyžadují značné úsilí a odborné znalosti k dokonalosti.
S příchodem velkých jazykových modelů (LLM) jako např ChatGPT di OpenAI. Prokázal pozoruhodné schopnosti při generování lidského textu a porozumění kontextu, což z něj činí slibný nástroj pro úlohy analýzy textu, jako je např. entity recognition
, sentiment analysis
A topic modeling
.
Podívejme se nyní, jak můžeme provést analýzu textu pomocí ChatGPT.
V minulosti jsme vždy používali různé modely pro různé úkoly ve strojovém učení. Například, pokud chci extrahovat znalosti z textu, budu muset použít pojmenovaný model rozpoznávání entit (NER – Named Entity Recognition
), pokud potřebuji zařadit svůj text do samostatných tříd, budu potřebovat klasifikační model. Každá odlišná aktivita vyžadovala, aby byly modely pro každou aktivitu trénovány odlišně, buď přenosovým učením, nebo tréninkem.
Se zavedením Large Language Models (LLM), model LLM bude schopen provádět více úkolů NLP s nebo bez školení. Jakákoli činnost může být defidokončit jednoduše změnou pokynů ve výzvách.
Nyní se podívejme, jak provést tradiční úkol NLP v ChatGPT a porovnat to s tradičním způsobem. Úkoly NLP, které bude provádět ChatGPT v tomto článku jsou:
Sentiment analysis
Rozpoznávání pojmenovaných entit (NER) se týká úlohy automatické identifikace termínů v různých blocích textových dat. Používá se hlavně k extrakci důležitých kategorií entit, jako jsou názvy léků z klinických poznámek, termíny související s nehodami z pojistných událostí a další termíny specifické pro doménu ze záznamů.
Všimněte si, že tato činnost je specifická pro lékařskou doménu. Dříve jsme museli anotovat a trénovat více než 10.000 XNUMX řádků dat pro jeden model, abychom znali konkrétní třídu a termín v textu. ChatGPT dokáže správně identifikovat termín bez předem trénovaného textu nebo dolaďování, což je poměrně dobrý výsledek!
Textové klasifikace označuje automatický proces vyhledávání a třídění textu do kategorií z velkých dat, hraje zásadní roli při vyhledávání a extrakci textových dat. Příklady aplikací pro klasifikaci textu zahrnují klinická upozornění nebo kategorizaci rizikových faktorů, automatickou diagnostickou klasifikaci a detekci spamu.
Sentiment analysis
Sentiment analysis
zahrnuje určení pocitu nebo emoce vyjádřené v textu. Jeho cílem je zařadit text do předkategoriídefinite, jako pozitivní, negativní nebo neutrální, na základě základního sentimentu zprostředkovaného autorem.
Aplikace analýzy sentimentu zahrnují:
Automatické souhrny se týkají procesu, kterým jsou identifikována hlavní témata jednoho nebo více dokumentů a prezentována stručným a přesným způsobem. To umožňuje uživateli podívat se na velké kusy dat v krátkém čase. Příklady aplikací zahrnují souhrnný systém, který umožňuje automatické generování abstraktů ze zpravodajských článků a sumarizaci informací extrahováním vět z abstraktů výzkumných prací.
ChatGPT je vynikající souhrnný nástroj, zejména pro dlouhé články a komplikované recenze. Vložením recenzí do ChatGPT můžeme snadno na první pohled znát souhrn recenzí produktu.
Vzhledem k tomu, že účelem tohoto článku je prozkoumat schopnost LLM provádět úlohy analýzy textu, je nezbytné také rozpoznat jejich omezení. Některá z klíčových omezení LLM zahrnují:
Ercole Palmeri
Rozvíjení jemné motoriky prostřednictvím vybarvování připravuje děti na složitější dovednosti, jako je psaní. Barvit…
Námořní sektor je skutečnou globální ekonomickou velmocí, která se dostala na 150miliardový trh...
Minulé pondělí Financial Times oznámily dohodu s OpenAI. FT licencuje svou prvotřídní žurnalistiku…
Miliony lidí platí za streamovací služby a platí měsíční předplatné. Je obecný názor, že jste…