Kuna struktureerimata andmete maht kasvab jätkuvalt plahvatuslikult, on vajadus täpsete ja tõhusate tekstianalüütika tööriistade järele muutunud üha kriitilisemaks nii erinevates tööstusharudes nagu turundus, rahandus, tervishoid ja sotsiaalteadused.
Traditsiooniliselt on tekstianalüüs tehtud reeglipõhiste meetodite ja masinõppetehnikate, nagu SpaCY ja trafotehnika abil. Kuigi need meetodid on osutunud tõhusaks, nõuavad nende täiustamiseks märkimisväärseid jõupingutusi ja teadmisi.
Suurte keelemudelite (LLM) tulekuga nagu ChatGPT di OpenAI. See on näidanud märkimisväärseid võimeid luua inimsarnast teksti ja mõista konteksti, muutes selle paljutõotavaks tööriistaks tekstianalüüsi ülesannete jaoks, nagu entity recognition
, sentiment analysis
Ja topic modeling
.
Vaatame nüüd, kuidas saame ChatGPT abil teksti sõeluda.
Varem oleme masinõppes erinevate ülesannete jaoks alati kasutanud erinevaid mudeleid. Näiteks kui tahan tekstist teadmisi ammutada, pean kasutama nimega olemi tuvastamise mudelit (NER – Named Entity Recognition
), kui mul on vaja oma tekst liigitada eraldi klassidesse, on mul vaja klassifitseerimismudelit. Iga erinev tegevus eeldas mudelite koolitamist iga tegevuse jaoks erinevalt, kas ülekandeõppe või koolituse teel.
Koos kasutuselevõtuga Large Language Models (LLM), LLM-mudel suudab täita mitmeid NLP-ülesandeid koos koolitusega või ilma. Igasugune tegevus võib olla defilihtsalt viipade juhiseid muutes.
Nüüd vaatame, kuidas teha traditsioonilist NLP-ülesannet ChatGPT ja võrrelda seda traditsioonilise meetodiga. NLP ülesanded, mida täidab ChatGPT selles artiklis on:
Sentiment analysis
Nimetatud olemi tuvastamine (NER) viitab ülesandele automaatselt tuvastada terminid erinevates tekstiandmete plokkides. Seda kasutatakse peamiselt oluliste üksuste kategooriate eraldamiseks, nagu ravimite nimed kliinilistest märkmetest, õnnetustega seotud terminid kindlustusnõuetest ja muud domeenispetsiifilised terminid kirjetest.
Pange tähele, et see tegevus on spetsiifiline meditsiinivaldkonnas. See nõudis meilt ühe mudeli jaoks rohkem kui 10.000 XNUMX andmerida märkuste lisamist ja koolitamist, et teada saada konkreetset klassi ja terminit tekstis. ChatGPT suudab termini õigesti tuvastada ilma eelkoolitatud tekstita või peenhäälestuseta, mis on suhteliselt hea tulemus!
Teksti klassifikatsioon viitab automaatsele protsessile teksti leidmiseks ja kategooriatesse klassifitseerimiseks tohututest andmetest, see mängib olulist rolli tekstiandmete otsimisel ja ekstraheerimisel. Teksti klassifitseerimise rakenduste näideteks on kliinilised hoiatused või riskitegurite kategoriseerimine, automaatne diagnostiline klassifitseerimine ja rämpsposti tuvastamine.
Sentiment analysis
Sentiment analysis
hõlmab tekstiosas väljendatud tunde või emotsiooni kindlaksmääramist. Selle eesmärk on liigitada tekst eelkategooriatessedefilõputu, positiivsena, negatiivsena või neutraalsena, tuginedes autori poolt edastatud meeleolule.
Sentimentanalüüsi rakendused hõlmavad järgmist:
Automaatsed kokkuvõtted viitavad protsessile, mille käigus tuvastatakse ühe või mitme dokumendi põhiteemad ning esitatakse need lühidalt ja täpselt. See võimaldab kasutajal lühikese aja jooksul vaadata suuri andmeid. Näidisrakendused hõlmavad kokkuvõtesüsteemi, mis võimaldab automaatselt genereerida uudisteartiklitest kokkuvõtteid ja teha teabe kokkuvõtteid, eraldades uurimistööde kokkuvõtetest lauseid.
ChatGPT on suurepärane kokkuvõttetööriist, eriti pikkade artiklite ja keeruliste ülevaadete jaoks. Kui kleepite arvustused ChatGPT-sse, saame hõlpsalt teada toote arvustuste kokkuvõtte ühe pilguga.
Kuna selle artikli eesmärk on uurida LLM-ide võimet täita tekstianalüüsi ülesandeid, on oluline mõista ka nende piiranguid. Mõned LLM-ide peamised piirangud on järgmised:
Ercole Palmeri
Veeami Coveware jätkab küberväljapressimise juhtumitele reageerimise teenuste pakkumist. Coveware pakub kohtuekspertiisi ja heastamisvõimalusi…
Ennustav hooldus muudab nafta- ja gaasisektori pöördeliseks uuendusliku ja ennetava lähenemisega tehaste juhtimisele.…
Ühendkuningriigi CMA on väljastanud hoiatuse Big Techi käitumise kohta tehisintellekti turul. Seal…
Euroopa Liidu poolt hoonete energiatõhususe suurendamiseks koostatud roheliste majade dekreet on lõpetanud oma seadusandliku protsessi…