Artikulo

Pag-parse sa teksto gamit ang chatGPT

Ang analitika sa teksto, o pagmina sa teksto, usa ka hinungdanon nga pamaagi alang sa pagkuha sa hinungdanon nga mga panan-aw gikan sa daghang wala’y istruktura nga datos sa teksto. 

Naglakip kini sa pagproseso ug pag-analisar sa teksto aron mahibal-an ang mga sumbanan, uso ug relasyon.

Gitugotan niini ang mga kompanya, tigdukiduki ug organisasyon sa paghimog mga desisyon base sa kasayuran nga nakuha gikan sa mga teksto. 

Samtang ang gidaghanon sa wala ma-istruktura nga datos nagpadayon sa pag-uswag sa hilabihan, ang panginahanglan alang sa tukma ug episyente nga mga himan sa pagtuki sa teksto nahimong mas kritikal sa nagkalain-laing mga industriya, sama sa marketing, finance, healthcare, ug social sciences.

Sa naandan, ang pagtuki sa teksto gihimo gamit ang mga pamaagi nga nakabase sa lagda ug mga pamaagi sa pagkat-on sa makina sama sa SpaCY ug ang teknik sa transformer. Samtang kini nga mga pamaagi napamatud-an nga epektibo, kini nanginahanglan daghang paningkamot ug kahanas aron mahingpit.

Sa pag-abot sa dagkong mga modelo sa pinulongan (LLMs) sama sa Chat GPT di OpenAI. Nagpakita kini og talagsaon nga mga kapabilidad sa paghimo og sama sa tawo nga teksto ug pagsabot sa konteksto, nga naghimo niini nga usa ka maayong himan alang sa mga buluhaton sa pagtuki sa teksto sama sa entity recognition, sentiment analysis, e topic modeling.

Atong tan-awon karon kung giunsa nato paghimo ang text parsing gamit ang ChatGPT.

Tradisyonal nga pamaagi (usa ka modelo) vs. LLM

Kaniadto, kanunay namong gigamit ang lainlaing mga modelo alang sa lainlaing mga buluhaton sa pagkat-on sa makina. Pananglitan, kung gusto nako nga makuha ang kahibalo gikan sa usa ka teksto, kinahanglan nako nga mogamit usa ka modelo sa pag-ila sa entidad (NER - Named Entity Recognition), kung kinahanglan nako nga iklasipikar ang akong teksto sa lainlaing mga klase, kinahanglan nako ang usa ka modelo sa klasipikasyon. Ang matag lainlain nga kalihokan nanginahanglan nga ang mga modelo mabansay sa lahi nga paagi alang sa matag kalihokan, pinaagi sa pagbalhin sa pagkat-on o pinaagi sa pagbansay.

Uban sa pagpaila sa Large Language Models (LLM), usa ka LLM nga modelo ang makahimo sa daghang mga buluhaton sa NLP nga adunay o wala’y pagbansay. Ang bisan unsang kalihokan mahimo definatapos pinaagi lamang sa pagbag-o sa mga instruksyon sa mga prompt.

Karon tan-awon naton kung giunsa pagbuhat ang tradisyonal nga buluhaton sa NLP Chat GPT ug itandi kini sa tradisyonal nga paagi. Ang mga buluhaton sa NLP nga himuon sa Chat GPT niini nga artikulo mao ang:

  • Pagkuha sa Kahibalo (NER)
  • Klasipikasyon sa teksto
  • Sentiment analysis
  • Katingbanan

Pagkuha sa Kahibalo (NER)

Ang Named Entity Recognition (NER) nagtumong sa tahas sa awtomatikong pag-ila sa mga termino sa lain-laing mga bloke sa textual nga datos. Kini kasagarang gigamit sa pagkuha sa importanteng mga kategoriya sa entidad sama sa mga ngalan sa tambal gikan sa mga nota sa klinika, mga termino nga may kalabotan sa aksidente gikan sa mga pag-angkon sa insurance, ug uban pang termino nga espesipiko sa domain gikan sa mga rekord.

Timan-i nga kini nga kalihokan espesipiko sa medikal nga domain. Kaniadto gikinahanglan nga kami mag-annotate ug magbansay sa labaw sa 10.000 ka laray sa datos alang sa usa ka modelo aron mahibal-an ang piho nga klase ug termino sa teksto. Ang ChatGPT makahimo sa husto nga pag-ila sa termino nga walay bisan unsang pre-trained text o fine-tuning, nga medyo maayo nga resulta!

Klasipikasyon sa teksto

Ang mga klasipikasyon sa teksto nagtumong sa awtomatik nga proseso sa pagpangita ug pagklasipikar sa teksto ngadto sa mga kategorya gikan sa dako nga datos, kini adunay mahinungdanong papel sa pagkuha ug pagkuha sa datos sa teksto. Ang mga pananglitan sa mga aplikasyon sa pagklasipikar sa teksto naglakip sa mga clinical alert o risk factor categorization, automatic diagnostic classification, ug spam detection.

Sentiment analysis

Sentiment analysis naglakip sa pagtino sa pagbati o emosyon nga gipahayag sa usa ka piraso sa teksto. Kini nagtumong sa pagklasipikar sa teksto ngadto sa mga pre-categorydefigabii, isip positibo, negatibo, o neyutral, pinasikad sa nagpahiping sentimento nga gipahayag sa tagsulat. 

Ang mga aplikasyon sa pagtuki sa sentimento naglakip sa:

  • pagtuki sa mga review ug feedback sa kustomer,
  • pagsubay sa sentimento sa social media,
  • pagmonitor sa uso sa merkado e
  • ang pagsukod sa sentimento sa politika panahon sa mga kampanya sa eleksyon.

Katingbanan

Ang mga awtomatik nga summary nagtumong sa proseso diin ang mga nag-unang mga hilisgutan sa usa o daghan pa nga mga dokumento giila ug gipresentar sa usa ka mubo ug tukma nga paagi. Gitugotan niini ang tiggamit sa pagtan-aw sa daghang mga tipik sa datos sa mubo nga oras. Ang panig-ingnan nga mga aplikasyon naglakip sa usa ka summary system nga nagtugot alang sa awtomatik nga paghimo sa abstracts gikan sa mga artikulo sa balita ug ang summarization sa impormasyon pinaagi sa pagkuha sa mga sentence gikan sa research paper abstracts.

Ang ChatGPT usa ka maayo kaayo nga himan sa katingbanan, labi na alang sa taas nga mga artikulo ug komplikado nga mga pagsusi. Pinaagi sa pag-paste sa mga review sa ChatGPT, dali natong mahibal-an ang summary sa review sa produkto sa usa ka pagtan-aw.

Limitasyon sa mga LLM

Tungod kay ang katuyoan niini nga artikulo mao ang pagsusi sa katakus sa mga LLM sa paghimo sa mga buluhaton sa pag-analisar sa teksto, hinungdanon nga mailhan usab ang ilang mga limitasyon. Ang pipila sa mga mahinungdanong limitasyon sa LLMs naglakip sa:

  1. Paggamit sa kahinguhaan : Ang paggamit sa LLMs nanginahanglan ug mahinungdanong computational ug financial resources, nga mahimong usa ka hagit alang sa gagmay nga mga organisasyon o indibidwal nga mga tigdukiduki nga adunay limitado nga mga kapanguhaan. Hangtud karon, ang ChatGPT modawat lamang sa mga 8.000 ka mga token para sa input ug output, aron ma-parse ang usa ka dako nga kantidad sa data, nagkinahanglan sa user sa pagbungkag sa teksto ngadto sa daghang mga chunks sa data, ug mahimong magkinahanglan og daghang mga tawag sa API alang sa mga buluhaton.
  2. Pagkasensitibo sa pag-aghat nga hugpong sa mga pulong : Ang paghimo sa mga LLM mahimong maapektuhan sa paagi sa mga pag-aghat sa mga pulong. Ang usa ka gamay nga pagbag-o sa dali nga mga pulong mahimo’g makapatunghag lainlaing mga resulta, nga mahimong hinungdan sa kabalaka kung nangita alang sa makanunayon ug kasaligan nga output.
  3. Kakulang sa domain piho nga kahanas : Samtang ang mga LLM adunay kinatibuk-ang pagsabot sa lain-laing mga dominyo, sila mahimong dili parehas nga lebel sa kahanas sama sa mga pinasahi nga modelo nga gibansay sa datos nga piho sa domain. Ingon usa ka sangputanan, ang ilang pasundayag mahimo’g dili maayo sa pipila ka mga kaso ug mahimo’g magkinahanglan og maayo nga pag-tune o eksternal nga kahibalo, labi na kung nag-atubang sa labi ka espesyal o teknikal nga kasayuran.

Ercole Palmeri

newsletter sa kabag-ohan
Ayaw kalimti ang labing hinungdanon nga balita sa kabag-ohan. Pag-sign up aron madawat sila pinaagi sa email.

Bag-ong mga artikulo

Cisco Talos quarterly analysis: corporate emails nga gitarget sa mga kriminal Paggama, Edukasyon ug Healthcare mao ang labing apektado nga mga sektor

Ang pagkompromiso sa mga email sa kompanya misaka labaw sa doble sa unang tulo ka bulan sa 2024 kumpara sa katapusang quarter sa…

14 Mayo 2024

Interface segregation principle (ISP), ikaupat nga SOLID nga prinsipyo

Ang prinsipyo sa interface segregation maoy usa sa lima ka SOLID nga prinsipyo sa object-oriented nga disenyo. Ang usa ka klase kinahanglan adunay…

14 Mayo 2024

Giunsa ang labing maayo nga pag-organisar sa datos ug mga pormula sa Excel, alang sa usa ka maayo nga pagtuki

Ang Microsoft Excel mao ang himan sa pakisayran alang sa pagtuki sa datos, tungod kay nagtanyag kini daghang mga bahin alang sa pag-organisar sa mga set sa datos,…

14 Mayo 2024

Positibo nga konklusyon para sa duha ka importante nga Walliance Equity Crowdfunding nga mga proyekto: Jesolo Wave Island ug Milano Via Ravenna

Walliance, SIM ug plataporma sa mga lider sa Europe sa natad sa Real Estate Crowdfunding sukad 2017, nagpahibalo sa pagkompleto…

13 Mayo 2024

Unsa ang Filament ug kung giunsa paggamit ang Laravel Filament

Ang filament usa ka "gipadali" nga balangkas sa pagpalambo sa Laravel, nga naghatag daghang mga sangkap nga puno sa stack. Gidisenyo kini aron mapasimple ang proseso sa…

13 Mayo 2024

Ubos sa kontrol sa Artipisyal nga Kaalam

«Kinahanglan kong mobalik aron makompleto ang akong ebolusyon: I-proyekto nako ang akong kaugalingon sa sulod sa kompyuter ug mahimong puro nga kusog. Sa dihang nahusay na sa…

10 Mayo 2024

Ang bag-ong artificial intelligence sa Google mahimong modelo sa DNA, RNA ug "tanan nga molekula sa kinabuhi"

Gipaila sa Google DeepMind ang usa ka gipaayo nga bersyon sa modelo sa artipisyal nga paniktik niini. Ang bag-ong gipaayo nga modelo naghatag dili lamang…

9 Mayo 2024

Pagsuhid sa Modular Architecture ni Laravel

Ang Laravel, bantog sa iyang eleganteng syntax ug gamhanang mga bahin, naghatag usab ug lig-on nga pundasyon para sa modular nga arkitektura. didto…

9 Mayo 2024