Artiklid

Teksti sõelumine chatGPT abil

Tekstianalüütika ehk tekstikaeve on ülitähtis tehnika suurest struktureerimata tekstiandmete hulgast väärtusliku ülevaate saamiseks. 

See hõlmab teksti töötlemist ja analüüsimist, et avastada mustreid, suundumusi ja seoseid.

See võimaldab ettevõtetel, teadlastel ja organisatsioonidel teha otsuseid tekstidest kogutud teabe põhjal. 

Kuna struktureerimata andmete maht kasvab jätkuvalt plahvatuslikult, on vajadus täpsete ja tõhusate tekstianalüütika tööriistade järele muutunud üha kriitilisemaks nii erinevates tööstusharudes nagu turundus, rahandus, tervishoid ja sotsiaalteadused.

Traditsiooniliselt on tekstianalüüs tehtud reeglipõhiste meetodite ja masinõppetehnikate, nagu SpaCY ja trafotehnika abil. Kuigi need meetodid on osutunud tõhusaks, nõuavad nende täiustamiseks märkimisväärseid jõupingutusi ja teadmisi.

Suurte keelemudelite (LLM) tulekuga nagu ChatGPT di OpenAI. See on näidanud märkimisväärseid võimeid luua inimsarnast teksti ja mõista konteksti, muutes selle paljutõotavaks tööriistaks tekstianalüüsi ülesannete jaoks, nagu entity recognition, sentiment analysisJa topic modeling.

Vaatame nüüd, kuidas saame ChatGPT abil teksti sõeluda.

Traditsiooniline meetod (üksikud mudelid) vs. LLM

Varem oleme masinõppes erinevate ülesannete jaoks alati kasutanud erinevaid mudeleid. Näiteks kui tahan tekstist teadmisi ammutada, pean kasutama nimega olemi tuvastamise mudelit (NER – Named Entity Recognition), kui mul on vaja oma tekst liigitada eraldi klassidesse, on mul vaja klassifitseerimismudelit. Iga erinev tegevus eeldas mudelite koolitamist iga tegevuse jaoks erinevalt, kas ülekandeõppe või koolituse teel.

Koos kasutuselevõtuga Large Language Models (LLM), LLM-mudel suudab täita mitmeid NLP-ülesandeid koos koolitusega või ilma. Igasugune tegevus võib olla defilihtsalt viipade juhiseid muutes.

Nüüd vaatame, kuidas teha traditsioonilist NLP-ülesannet ChatGPT ja võrrelda seda traditsioonilise meetodiga. NLP ülesanded, mida täidab ChatGPT selles artiklis on:

  • Teadmiste ammutamine (NER)
  • Teksti klassifikatsioon
  • Sentiment analysis
  • Kokkuvõte

Teadmiste ammutamine (NER)

Nimetatud olemi tuvastamine (NER) viitab ülesandele automaatselt tuvastada terminid erinevates tekstiandmete plokkides. Seda kasutatakse peamiselt oluliste üksuste kategooriate eraldamiseks, nagu ravimite nimed kliinilistest märkmetest, õnnetustega seotud terminid kindlustusnõuetest ja muud domeenispetsiifilised terminid kirjetest.

Pange tähele, et see tegevus on spetsiifiline meditsiinivaldkonnas. See nõudis meilt ühe mudeli jaoks rohkem kui 10.000 XNUMX andmerida märkuste lisamist ja koolitamist, et teada saada konkreetset klassi ja terminit tekstis. ChatGPT suudab termini õigesti tuvastada ilma eelkoolitatud tekstita või peenhäälestuseta, mis on suhteliselt hea tulemus!

Teksti klassifikatsioon

Teksti klassifikatsioon viitab automaatsele protsessile teksti leidmiseks ja kategooriatesse klassifitseerimiseks tohututest andmetest, see mängib olulist rolli tekstiandmete otsimisel ja ekstraheerimisel. Teksti klassifitseerimise rakenduste näideteks on kliinilised hoiatused või riskitegurite kategoriseerimine, automaatne diagnostiline klassifitseerimine ja rämpsposti tuvastamine.

Sentiment analysis

Sentiment analysis hõlmab tekstiosas väljendatud tunde või emotsiooni kindlaksmääramist. Selle eesmärk on liigitada tekst eelkategooriatessedefilõputu, positiivsena, negatiivsena või neutraalsena, tuginedes autori poolt edastatud meeleolule. 

Sentimentanalüüsi rakendused hõlmavad järgmist:

  • klientide arvustuste ja tagasiside analüüs,
  • sotsiaalmeedia meeleolu jälgimine,
  • turutrendide jälgimine e
  • poliitilise meeleolu mõõtmine valimiskampaaniate ajal.

Kokkuvõte

Automaatsed kokkuvõtted viitavad protsessile, mille käigus tuvastatakse ühe või mitme dokumendi põhiteemad ning esitatakse need lühidalt ja täpselt. See võimaldab kasutajal lühikese aja jooksul vaadata suuri andmeid. Näidisrakendused hõlmavad kokkuvõtesüsteemi, mis võimaldab automaatselt genereerida uudisteartiklitest kokkuvõtteid ja teha teabe kokkuvõtteid, eraldades uurimistööde kokkuvõtetest lauseid.

ChatGPT on suurepärane kokkuvõttetööriist, eriti pikkade artiklite ja keeruliste ülevaadete jaoks. Kui kleepite arvustused ChatGPT-sse, saame hõlpsalt teada toote arvustuste kokkuvõtte ühe pilguga.

LLM-ide piirang

Kuna selle artikli eesmärk on uurida LLM-ide võimet täita tekstianalüüsi ülesandeid, on oluline mõista ka nende piiranguid. Mõned LLM-ide peamised piirangud on järgmised:

  1. Ressursi kasutamine : LLM-ide kasutamine nõuab märkimisväärseid arvutus- ja rahalisi ressursse, mis võib olla väljakutse väiksematele organisatsioonidele või piiratud ressurssidega üksikutele teadlastele. Tänase seisuga aktsepteerib ChatGPT ainult umbes 8.000 sisendit ja väljundit, et sõeluda suures koguses andmeid, kasutaja peab teksti jagama mitmeks andmerühmaks ja võib nõuda ülesannete jaoks mitut API-kutset.
  2. Tundlikkus kiire sõnastuse suhtes : LLM-ide toimivust võib mõjutada viipade sõnastus. Väike muudatus kiires sõnastuses võib anda erinevaid tulemusi, mis võib järjepideva ja usaldusväärse väljundi otsimisel olla murettekitav.
  3. Domeenispetsiifiliste teadmiste puudumine : Kuigi LLM-idel on üldine arusaam erinevatest valdkondadest, ei pruugi neil olla samal tasemel teadmisi kui domeenispetsiifiliste andmete põhjal koolitatud spetsialiseeritud mudelitel. Seetõttu ei pruugi nende jõudlus mõnel juhul olla optimaalne ja nõuda peenhäälestamist või väliseid teadmisi, eriti kui tegemist on väga spetsiifilise või tehnilise teabega.

Ercole Palmeri

Innovatsiooni uudiskiri
Ärge jätke ilma kõige olulisematest uuendustest. Registreeruge, et saada neid meili teel.

Viimased artiklid

Veeam pakub lunavarale kõige põhjalikumat tuge alates kaitsest kuni reageerimise ja taastamiseni

Veeami Coveware jätkab küberväljapressimise juhtumitele reageerimise teenuste pakkumist. Coveware pakub kohtuekspertiisi ja heastamisvõimalusi…

Aprill 23 2024

Roheline ja digitaalne revolutsioon: kuidas ennustav hooldus muudab nafta- ja gaasitööstust

Ennustav hooldus muudab nafta- ja gaasisektori pöördeliseks uuendusliku ja ennetava lähenemisega tehaste juhtimisele.…

Aprill 22 2024

Ühendkuningriigi monopolivastane regulaator tõstab BigTechi häire GenAI pärast

Ühendkuningriigi CMA on väljastanud hoiatuse Big Techi käitumise kohta tehisintellekti turul. Seal…

Aprill 18 2024

Casa Green: energiarevolutsioon jätkusuutliku tuleviku nimel Itaalias

Euroopa Liidu poolt hoonete energiatõhususe suurendamiseks koostatud roheliste majade dekreet on lõpetanud oma seadusandliku protsessi…

Aprill 18 2024