Ahogy a strukturálatlan adatok mennyisége továbbra is exponenciálisan növekszik, a pontos és hatékony szövegelemző eszközök iránti igény egyre kritikusabbá vált az olyan sokszínű iparágakban, mint a marketing, a pénzügy, az egészségügy és a társadalomtudomány.
Hagyományosan a szövegelemzést szabályalapú módszerekkel és gépi tanulási technikákkal, például a SpaCY-vel és a transzformátortechnikával végezték. Bár ezek a módszerek hatékonynak bizonyultak, a tökéletesítésük jelentős erőfeszítést és szakértelmet igényel.
A nagy nyelvi modellek (LLM) megjelenésével, mint pl ChatGPT di OpenAI. Figyelemre méltó képességekről tett tanúbizonyságot az emberszerű szöveg létrehozásában és a kontextus megértésében, így ígéretes eszközzé teszi olyan szövegelemzési feladatokhoz, mint pl. entity recognition
, sentiment analysis
És topic modeling
.
Lássuk most, hogyan hajthatunk végre szövegelemzést a ChatGPT használatával.
A múltban mindig különböző modelleket használtunk a gépi tanulás különböző feladataihoz. Például, ha tudást akarok kinyerni egy szövegből, akkor egy elnevezett entitásfelismerési modellt (NER – Named Entity Recognition
), ha a szövegemet külön osztályokba kell sorolnom, szükségem lesz egy osztályozási modellre. Minden egyes tevékenység megkövetelte, hogy a modelleket az egyes tevékenységekhez eltérően képezzék, akár transzfertanulás, akár képzés útján.
Bevezetésével Large Language Models (LLM), egy LLM modell képes lesz több NLP feladat végrehajtására képzéssel vagy anélkül. Bármilyen tevékenység lehet defiegyszerűen a promptokban lévő utasítások megváltoztatásával érhető el.
Most nézzük meg, hogyan kell elvégezni a hagyományos NLP feladatot ChatGPT és hasonlítsa össze a hagyományos módon. Azok az NLP feladatok, amelyeket a ChatGPT ebben a cikkben a következők:
Sentiment analysis
A nevesített entitásfelismerés (NER) a különböző szöveges adatblokkokban lévő kifejezések automatikus azonosításának feladatára utal. Főleg olyan fontos entitáskategóriák kinyerésére szolgál, mint a gyógyszernevek a klinikai feljegyzésekből, a balesetekkel kapcsolatos kifejezések a biztosítási kárigényekből, és más, tartományspecifikus kifejezések a nyilvántartásokból.
Vegye figyelembe, hogy ez a tevékenység az orvosi területre jellemző. Korábban több mint 10.000 XNUMX adatsort kellett megjegyzésekkel ellátnunk és betanítani egyetlen modellhez, hogy ismerjük az adott osztályt és kifejezést a szövegben. A ChatGPT minden előre betanított szöveg vagy finomhangolás nélkül pontosan tudja azonosítani a kifejezést, ami viszonylag jó eredmény!
A szövegbesorolás a hatalmas adatokból a szöveg keresésének és kategóriákba sorolásának automatikus folyamatát jelenti, lényeges szerepet játszik a szöveges adatok visszakeresésében és kinyerésében. A szöveges osztályozási alkalmazások példái közé tartoznak a klinikai figyelmeztetések vagy a kockázati tényezők kategorizálása, az automatikus diagnosztikai osztályozás és a levélszemét-észlelés.
Sentiment analysis
Sentiment analysis
magában foglalja a szövegrészben kifejezett érzés vagy érzelem meghatározását. Célja, hogy a szöveget előzetes kategóriákba soroljadefivéges, mint pozitív, negatív vagy semleges, a szerző által közvetített mögöttes érzelmek alapján.
A hangulatelemzés alkalmazásai a következők:
Az automatikus összefoglalók azt a folyamatot jelentik, amelynek során egy vagy több dokumentum fő témáit azonosítják, és tömören és pontosan bemutatják. Ez lehetővé teszi a felhasználó számára, hogy rövid időn belül nagy mennyiségű adatot tekintsen meg. A példaalkalmazások közé tartozik egy összefoglaló rendszer, amely lehetővé teszi a hírcikkek kivonatainak automatikus generálását és az információk összegzését a kutatási cikkek absztraktjaiból származó mondatok kivonásával.
A ChatGPT kiváló összefoglaló eszköz, különösen hosszú cikkekhez és bonyolult áttekintésekhez. Ha beilleszti a véleményeket a ChatGPT-be, egy pillantással könnyen megismerhetjük a termékértékelés összefoglalóját.
Mivel ennek a cikknek az a célja, hogy feltárja az LLM-ek azon képességét, hogy szövegelemzési feladatokat végezzenek, elengedhetetlen, hogy felismerjük korlátaikat is. Az LLM-ek néhány fő korlátozása a következők:
Ercole Palmeri
A finom motoros készségek színezéssel történő fejlesztése felkészíti a gyerekeket olyan összetettebb készségekre, mint az írás. Kiszínezni…
A haditengerészeti szektor igazi világgazdasági hatalom, amely egy 150 milliárdos piac felé navigált...
Múlt hétfőn a Financial Times bejelentette, hogy megállapodást köt az OpenAI-val. Az FT engedélyezi világszínvonalú újságírását…
Emberek milliói fizetnek a streaming szolgáltatásokért, havi előfizetési díjat fizetve. Általános vélemény, hogy Ön…