artikuluak

Testu-analisia chatGPT erabiliz

Testu-analisia edo testu-meatzaritza ezinbesteko teknika da egituratu gabeko testu-datu kopuru handietatik informazio baliotsuak ateratzeko.

Testua prozesatzea eta aztertzea dakar ereduak, joerak eta harremanak ezagutzeko.

Enpresei, ikertzaileei eta erakundeei aukera ematen die erabakiak hartzeko testuetatik jasotako informazioan oinarrituta.

Egituratu gabeko datuen bolumena modu esponentzialean hazten doan heinean, testu-analisirako tresna zehatz eta eraginkorren beharra gero eta kritikoagoa bihurtu da marketin, finantza, osasungintza eta gizarte zientzien bezalako hainbat sektoretan.

Tradizionalki, testuen azterketa arauetan oinarritutako metodoak eta ikaskuntza automatikoko teknikak erabiliz egin da, hala nola SpaCY eta transformadorearen teknika. Metodo hauek eraginkorrak frogatu badira ere, esfortzu eta esperientzia handia behar dute perfekzionatzeko.

Hizkuntza-eredu handien (LLM) agerpenarekin, esaterako Txateatu GPT di OpenAI. Gaitasun nabarmenak erakutsi ditu gizakiaren antzeko testuak sortzeko eta testuingurua ulertzeko, eta tresna itxaropentsua da testuak aztertzeko zereginetarako, esate baterako. entity recognition, sentiment analysisEta topic modeling.

Ikus dezagun orain nola egin dezakegun testu-analisia ChatGPT erabiliz.

Metodo tradizionala (eredu bakarrak) vs. LLM

Iraganean, beti erabili izan ditugu eredu desberdinak ikasketa automatikoko zeregin ezberdinetarako. Adibidez, testu batetik ezagutza atera nahi badut, izendatutako entitateen aitorpen eredu bat erabili beharko dut (NER - Named Entity Recognition), nire testua klase bereizietan sailkatu behar badut, sailkapen eredu bat beharko dut. Jarduera ezberdin bakoitzak jarduera bakoitzerako ereduak ezberdin trebatzea eskatzen zuen, transferentzia ikaskuntzaren bidez edo prestakuntzaren bidez.

-ren sarrerarekin Large Language Models (LLM), LLM eredu batek NLP zeregin anitz egiteko gai izango da prestakuntzarekin edo gabe. Jarduera oro izan daiteke defigonbitetako argibideak aldatuz amaitu besterik ez dago.

Orain ikus dezagun nola egin NLP zeregin tradizionala Txateatu GPT eta alderatu modu tradizionalarekin. Egingo dituen NLP zereginak Txateatu GPT artikulu honetan hauek dira:

Ezagutza Erauztea (NER)
Testuen sailkapena
Sentiment analysis
Laburpen

Ezagutza Erauztea (NER)

Named Entity Recognition (NER) testu-datuen bloke ezberdinetako terminoak automatikoki identifikatzeko zereginari egiten dio erreferentzia. Batez ere, entitate-kategoria garrantzitsuak ateratzeko erabiltzen da, hala nola sendagaien izenak ohar klinikoetatik, istripuekin lotutako terminoak aseguru-erreklamazioetatik eta domeinu espezifikoko beste termino batzuk erregistroetatik.

Kontuan izan jarduera hau mediku-eremurako espezifikoa dela. Lehen, 10.000 datu errenkada baino gehiago komentatu eta trebatzea eskatzen zigun eredu bakar baterako, testuko klase eta termino zehatza ezagutzeko. ChatGPT-k terminoa behar bezala identifika dezake aurrez trebatutako testurik edo doikuntzarik gabe, eta hori emaitza nahiko ona da!

Testuen sailkapena

Testu-sailkapenak datu handietatik testua kategorietan aurkitzeko eta sailkatzeko prozesu automatikoari egiten dio erreferentzia, ezinbesteko papera betetzen du testu-datuen berreskurapenean eta erauzketan. Testuak sailkatzeko aplikazioen adibideak honako hauek dira: alerta klinikoak edo arrisku-faktoreen kategorizazioa, diagnostiko-sailkapen automatikoa eta spam-a hautematea.

`Sentiment analysis`

Sentiment analysis testu zati batean adierazitako sentimendua edo emozioa zehaztea dakar. Testua aurrekategoriatan sailkatzea du helburudefinice, hala nola positiboa, negatiboa edo neutroa, egileak helarazten duen azpiko sentipenean oinarrituta.

Sentimenduen analisiaren aplikazioak honako hauek dira:

bezeroen iritzien eta iritzien azterketa,
sare sozialen sentimendua jarraitzea,
merkatuko joeren jarraipena e
sentimendu politikoaren neurketa hauteskunde kanpainetan.

Laburpen

Laburpen automatikoak dokumentu baten edo gehiagoren gai nagusiak identifikatu eta modu zehatz eta zehatzean identifikatzeko prozesuari egiten dio erreferentzia. Horri esker, erabiltzaileak datu-zati handiei begirada bat eman diezaieke denbora gutxian. Adibide-aplikazioen artean, laburpen-sistema bat dago, albiste-artikuluetako laburpenak automatikoki sortzea eta informazioa laburbiltzea, ikerketa-lanen laburpenetatik esaldiak ateraz.

ChatGPT laburpen tresna bikaina da, batez ere artikulu luzeetarako eta berrikuspen konplikatuetarako. Iritziak ChatGPT-en itsatsita, produktuaren berrikuspenaren laburpena begi-bistan ezagutu dezakegu.

LLMen muga

Artikulu honen helburua LLMek testuak aztertzeko lanak egiteko duten gaitasuna aztertzea denez, ezinbestekoa da haien mugak ere aitortzea. LLMen funtsezko muga batzuk hauek dira:

Baliabideen erabilera : LLMak erabiltzeak baliabide konputazional eta finantzario garrantzitsuak behar ditu, eta hori erronka izan daiteke baliabide mugatuak dituzten erakunde txikiagoentzat edo ikertzaile indibidualentzat. Gaurtik aurrera, ChatGPT-k 8.000 token inguru bakarrik onartzen ditu sarrera eta irteerarako, datu kopuru handia analizatzeko, erabiltzaileak testua hainbat datu zatitan zatitzea eskatzen du eta API dei bat baino gehiago behar ditu zereginetarako.
Esaldi gonbitarako sentikortasuna : LLMen errendimenduari eragin diezaioke eskaerak idazteko moduaren arabera. Gutun-idazkeran aldaketa txiki batek emaitza desberdinak sor ditzake, eta horrek kezka eragin dezake emaitza koherente eta fidagarria bilatzean.
Domeinu espezifikoen espezializazio falta : LLMek hainbat domeinuren ulermen orokorra duten arren, baliteke domeinu espezifikoen datuetan trebatutako eredu espezializatuen esperientzia maila bera ez izatea. Ondorioz, baliteke haien errendimendua ez izatea optimoa kasu batzuetan eta doikuntza zehatza edo kanpoko ezagutza eska dezakete, batez ere informazio oso espezializatua edo teknikoa tratatzerakoan.

Ercole Palmeri