Samtang ang gidaghanon sa wala ma-istruktura nga datos nagpadayon sa pag-uswag sa hilabihan, ang panginahanglan alang sa tukma ug episyente nga mga himan sa pagtuki sa teksto nahimong mas kritikal sa nagkalain-laing mga industriya, sama sa marketing, finance, healthcare, ug social sciences.
Sa naandan, ang pagtuki sa teksto gihimo gamit ang mga pamaagi nga nakabase sa lagda ug mga pamaagi sa pagkat-on sa makina sama sa SpaCY ug ang teknik sa transformer. Samtang kini nga mga pamaagi napamatud-an nga epektibo, kini nanginahanglan daghang paningkamot ug kahanas aron mahingpit.
Sa pag-abot sa dagkong mga modelo sa pinulongan (LLMs) sama sa Chat GPT di OpenAI. Nagpakita kini og talagsaon nga mga kapabilidad sa paghimo og sama sa tawo nga teksto ug pagsabot sa konteksto, nga naghimo niini nga usa ka maayong himan alang sa mga buluhaton sa pagtuki sa teksto sama sa entity recognition
, sentiment analysis
, e topic modeling
.
Atong tan-awon karon kung giunsa nato paghimo ang text parsing gamit ang ChatGPT.
Kaniadto, kanunay namong gigamit ang lainlaing mga modelo alang sa lainlaing mga buluhaton sa pagkat-on sa makina. Pananglitan, kung gusto nako nga makuha ang kahibalo gikan sa usa ka teksto, kinahanglan nako nga mogamit usa ka modelo sa pag-ila sa entidad (NER - Named Entity Recognition
), kung kinahanglan nako nga iklasipikar ang akong teksto sa lainlaing mga klase, kinahanglan nako ang usa ka modelo sa klasipikasyon. Ang matag lainlain nga kalihokan nanginahanglan nga ang mga modelo mabansay sa lahi nga paagi alang sa matag kalihokan, pinaagi sa pagbalhin sa pagkat-on o pinaagi sa pagbansay.
Uban sa pagpaila sa Large Language Models (LLM), usa ka LLM nga modelo ang makahimo sa daghang mga buluhaton sa NLP nga adunay o wala’y pagbansay. Ang bisan unsang kalihokan mahimo definatapos pinaagi lamang sa pagbag-o sa mga instruksyon sa mga prompt.
Karon tan-awon naton kung giunsa pagbuhat ang tradisyonal nga buluhaton sa NLP Chat GPT ug itandi kini sa tradisyonal nga paagi. Ang mga buluhaton sa NLP nga himuon sa Chat GPT niini nga artikulo mao ang:
Sentiment analysis
Ang Named Entity Recognition (NER) nagtumong sa tahas sa awtomatikong pag-ila sa mga termino sa lain-laing mga bloke sa textual nga datos. Kini kasagarang gigamit sa pagkuha sa importanteng mga kategoriya sa entidad sama sa mga ngalan sa tambal gikan sa mga nota sa klinika, mga termino nga may kalabotan sa aksidente gikan sa mga pag-angkon sa insurance, ug uban pang termino nga espesipiko sa domain gikan sa mga rekord.
Timan-i nga kini nga kalihokan espesipiko sa medikal nga domain. Kaniadto gikinahanglan nga kami mag-annotate ug magbansay sa labaw sa 10.000 ka laray sa datos alang sa usa ka modelo aron mahibal-an ang piho nga klase ug termino sa teksto. Ang ChatGPT makahimo sa husto nga pag-ila sa termino nga walay bisan unsang pre-trained text o fine-tuning, nga medyo maayo nga resulta!
Ang mga klasipikasyon sa teksto nagtumong sa awtomatik nga proseso sa pagpangita ug pagklasipikar sa teksto ngadto sa mga kategorya gikan sa dako nga datos, kini adunay mahinungdanong papel sa pagkuha ug pagkuha sa datos sa teksto. Ang mga pananglitan sa mga aplikasyon sa pagklasipikar sa teksto naglakip sa mga clinical alert o risk factor categorization, automatic diagnostic classification, ug spam detection.
Sentiment analysis
Sentiment analysis
naglakip sa pagtino sa pagbati o emosyon nga gipahayag sa usa ka piraso sa teksto. Kini nagtumong sa pagklasipikar sa teksto ngadto sa mga pre-categorydefigabii, isip positibo, negatibo, o neyutral, pinasikad sa nagpahiping sentimento nga gipahayag sa tagsulat.
Ang mga aplikasyon sa pagtuki sa sentimento naglakip sa:
Ang mga awtomatik nga summary nagtumong sa proseso diin ang mga nag-unang mga hilisgutan sa usa o daghan pa nga mga dokumento giila ug gipresentar sa usa ka mubo ug tukma nga paagi. Gitugotan niini ang tiggamit sa pagtan-aw sa daghang mga tipik sa datos sa mubo nga oras. Ang panig-ingnan nga mga aplikasyon naglakip sa usa ka summary system nga nagtugot alang sa awtomatik nga paghimo sa abstracts gikan sa mga artikulo sa balita ug ang summarization sa impormasyon pinaagi sa pagkuha sa mga sentence gikan sa research paper abstracts.
Ang ChatGPT usa ka maayo kaayo nga himan sa katingbanan, labi na alang sa taas nga mga artikulo ug komplikado nga mga pagsusi. Pinaagi sa pag-paste sa mga review sa ChatGPT, dali natong mahibal-an ang summary sa review sa produkto sa usa ka pagtan-aw.
Tungod kay ang katuyoan niini nga artikulo mao ang pagsusi sa katakus sa mga LLM sa paghimo sa mga buluhaton sa pag-analisar sa teksto, hinungdanon nga mailhan usab ang ilang mga limitasyon. Ang pipila sa mga mahinungdanong limitasyon sa LLMs naglakip sa:
Ercole Palmeri
Ang pagkompromiso sa mga email sa kompanya misaka labaw sa doble sa unang tulo ka bulan sa 2024 kumpara sa katapusang quarter sa…
Ang prinsipyo sa interface segregation maoy usa sa lima ka SOLID nga prinsipyo sa object-oriented nga disenyo. Ang usa ka klase kinahanglan adunay…
Ang Microsoft Excel mao ang himan sa pakisayran alang sa pagtuki sa datos, tungod kay nagtanyag kini daghang mga bahin alang sa pag-organisar sa mga set sa datos,…
Walliance, SIM ug plataporma sa mga lider sa Europe sa natad sa Real Estate Crowdfunding sukad 2017, nagpahibalo sa pagkompleto…
Ang filament usa ka "gipadali" nga balangkas sa pagpalambo sa Laravel, nga naghatag daghang mga sangkap nga puno sa stack. Gidisenyo kini aron mapasimple ang proseso sa…
«Kinahanglan kong mobalik aron makompleto ang akong ebolusyon: I-proyekto nako ang akong kaugalingon sa sulod sa kompyuter ug mahimong puro nga kusog. Sa dihang nahusay na sa…
Gipaila sa Google DeepMind ang usa ka gipaayo nga bersyon sa modelo sa artipisyal nga paniktik niini. Ang bag-ong gipaayo nga modelo naghatag dili lamang…
Ang Laravel, bantog sa iyang eleganteng syntax ug gamhanang mga bahin, naghatag usab ug lig-on nga pundasyon para sa modular nga arkitektura. didto…