Greinar

Textaþáttun með chatGPT

Textagreining, eða textanám, er mikilvæg tækni til að ná dýrmætri innsýn úr miklu magni af óskipulögðum textagögnum.

Það felur í sér að vinna og greina texta til að uppgötva mynstur, stefnur og tengsl.

Það gerir fyrirtækjum, rannsakendum og stofnunum kleift að taka ákvarðanir byggðar á upplýsingum sem fengnar eru úr texta.

Þar sem magn ómótaðra gagna heldur áfram að stækka veldishraða hefur þörfin fyrir nákvæm og skilvirk textagreiningartæki orðið sífellt mikilvægari í jafn ólíkum atvinnugreinum eins og markaðssetningu, fjármálum, heilsugæslu og félagsvísindum.

Hefð er fyrir því að textagreining hafi verið framkvæmd með reglubundnum aðferðum og vélanámsaðferðum eins og SpaCY og spennitækninni. Þó að þessar aðferðir hafi reynst árangursríkar, þurfa þær talsverða fyrirhöfn og sérfræðiþekkingu til að fullkomna.

Með tilkomu stórra mállíkana (LLM) eins og SpjallGPT di OpenAI. Það hefur sýnt ótrúlega hæfileika við að búa til mannlegan texta og skilja samhengi, sem gerir það að efnilegu tæki fyrir textagreiningarverkefni eins og entity recognition, sentiment analysisOg topic modeling.

Við skulum sjá núna hvernig við getum framkvæmt textaþáttun með ChatGPT.

Hefðbundin aðferð (stök módel) vs. LLM

Í fortíðinni höfum við alltaf notað mismunandi gerðir fyrir mismunandi verkefni í vélanámi. Til dæmis, ef ég vil draga þekkingu úr texta, þá þarf ég að nota nafngreint einingaþekkingarlíkan (NER – Named Entity Recognition), ef ég þarf að flokka textann minn í aðskilda flokka, þá þarf ég flokkunarlíkan. Hver mismunandi starfsemi krafðist þess að módelin væru þjálfuð á mismunandi hátt fyrir hverja starfsemi, annað hvort með flutningsnámi eða með þjálfun.

Með tilkomu Large Language Models (LLM), LLM líkan mun geta framkvæmt mörg NLP verkefni með eða án þjálfunar. Hvaða starfsemi getur verið defilauk einfaldlega með því að breyta leiðbeiningunum í leiðbeiningunum.

Nú skulum við sjá hvernig á að gera hefðbundið NLP verkefni í SpjallGPT og bera það saman við hefðbundinn hátt. NLP verkefnin sem verða unnin af SpjallGPT í þessari grein eru:

Knowledge Extract (NER)
Textaflokkun
Sentiment analysis
Samantekt

Knowledge Extract (NER)

Named Entity Recognition (NER) vísar til þess verkefnis að auðkenna sjálfkrafa hugtök í mismunandi blokkum textagagna. Það er aðallega notað til að draga mikilvæga einingaflokka eins og lyfjanöfn úr klínískum athugasemdum, slysatengd hugtök úr tryggingakröfum og önnur lénssértæk hugtök úr skrám.

Athugaðu að þessi starfsemi er sértæk fyrir læknasviðið. Það var notað til að krefjast þess að við myndum athugasemdir og þjálfum meira en 10.000 raðir af gögnum fyrir eitt líkan til að þekkja tiltekna flokkinn og hugtakið í textanum. ChatGPT getur borið kennsl á hugtakið rétt án nokkurs fyrirfram þjálfaðs texta eða fínstillingar, sem er tiltölulega góður árangur!

Textaflokkun

Textaflokkun vísar til sjálfvirks ferlis við að finna og flokka texta í flokka úr risastórum gögnum, það gegnir mikilvægu hlutverki við endurheimt og útdrátt textagagna. Dæmi um textaflokkunarforrit eru klínískar viðvaranir eða flokkun áhættuþátta, sjálfvirk greiningarflokkun og uppgötvun ruslpósts.

`Sentiment analysis`

Sentiment analysis felur í sér að ákvarða tilfinningu eða tilfinningu sem birtist í texta. Það miðar að því að flokka texta í forflokkadefinítt, sem jákvætt, neikvætt eða hlutlaust, byggt á undirliggjandi viðhorfi sem höfundur miðlar.

Notkun tilfinningagreiningar felur í sér:

greining á umsögnum viðskiptavina og endurgjöf,
fylgjast með tilfinningum á samfélagsmiðlum,
fylgjast með markaðsþróun e
mælingar á pólitískum viðhorfum í kosningabaráttu.

Samantekt

Með sjálfvirkum samantektum er átt við ferlið þar sem helstu efni eins eða fleiri skjala eru auðkennd og sett fram á hnitmiðaðan og nákvæman hátt. Þetta gerir notandanum kleift að skoða stóra klumpa af gögnum á stuttum tíma. Dæmi um forrit fela í sér yfirlitskerfi sem gerir kleift að búa til sjálfvirka útdrætti úr fréttagreinum og draga saman upplýsingar með því að draga setningar úr útdrætti rannsóknarritgerða.

ChatGPT er frábært samantektartæki, sérstaklega fyrir langar greinar og flóknar umsagnir. Með því að líma umsagnirnar í ChatGPT getum við auðveldlega vitað samantekt vöruumsagna í fljótu bragði.

Takmörk LLMs

Þar sem tilgangur þessarar greinar er að kanna getu LLMs til að framkvæma textagreiningarverkefni, er nauðsynlegt að viðurkenna einnig takmarkanir þeirra. Sumar af helstu takmörkunum LLMs eru:

Auðlindanýting : Notkun LLM krefst umtalsverðs reikni- og fjárhagslegs fjármagns, sem getur verið áskorun fyrir smærri stofnanir eða einstaka vísindamenn með takmarkað fjármagn. Frá og með deginum í dag tekur ChatGPT aðeins við um 8.000 tákn fyrir inntak og úttak, til að flokka mikið magn af gögnum, krefst þess að notandinn skipti texta í marga bita af gögnum og gæti þurft mörg API símtöl fyrir verkefni.
Næmni fyrir skyndikynni : Frammistaða LLMs getur haft áhrif á hvernig leiðbeiningar eru orðaðar. Lítilsháttar breyting á hvetjandi orðalagi getur skilað mismunandi niðurstöðum, sem gæti valdið áhyggjum þegar leitað er að samkvæmri og áreiðanlegri framleiðslu.
Skortur á sérfræðiþekkingu á léni : Þó að LLMs hafi almennan skilning á ýmsum sviðum, er ekki víst að þeir hafi sama sérfræðiþekkingu og sérhæfð líkön sem eru þjálfuð á lénssértækum gögnum. Fyrir vikið getur frammistaða þeirra ekki verið ákjósanleg í sumum tilfellum og gæti þurft fínstillingu eða utanaðkomandi þekkingu, sérstaklega þegar fjallað er um mjög sérhæfðar eða tæknilegar upplýsingar.

Ercole Palmeri