Ndërsa vëllimi i të dhënave të pastrukturuara vazhdon të rritet në mënyrë eksponenciale, nevoja për mjete të sakta dhe efikase të analizës së tekstit është bërë gjithnjë e më kritike në industri të ndryshme si marketingu, financa, kujdesi shëndetësor dhe shkencat sociale.
Tradicionalisht, analiza e tekstit është kryer duke përdorur metoda të bazuara në rregulla dhe teknika të mësimit të makinerive si SpaCY dhe teknikën e transformatorit. Ndërsa këto metoda janë provuar efektive, ato kërkojnë përpjekje dhe ekspertizë të konsiderueshme për t'u përsosur.
Me ardhjen e modeleve të mëdha gjuhësore (LLM) si p.sh Biseda GPT di OpenAI. Ai ka demonstruar aftësi të jashtëzakonshme në gjenerimin e tekstit të ngjashëm me njeriun dhe të kuptuarit e kontekstit, duke e bërë atë një mjet premtues për detyrat e analizës së tekstit si p.sh. entity recognition
, sentiment analysis
Dhe topic modeling
.
Le të shohim tani se si mund të kryejmë analizimin e tekstit duke përdorur ChatGPT.
Në të kaluarën, ne kemi përdorur gjithmonë modele të ndryshme për detyra të ndryshme në mësimin e makinerive. Për shembull, nëse dua të nxjerr njohuri nga një tekst, do të më duhet të përdor një model të njohjes së entitetit të emërtuar (NER - Named Entity Recognition
), nëse më duhet ta klasifikoj tekstin tim në klasa të veçanta, do të më duhet një model klasifikimi. Çdo aktivitet i ndryshëm kërkonte që modelet të trajnoheshin ndryshe për secilin aktivitet, qoftë me transferim të të mësuarit ose me trajnim.
Me prezantimin e Large Language Models (LLM), një model LLM do të jetë në gjendje të kryejë detyra të shumta NLP me ose pa trajnim. Çdo aktivitet mund të jetë defizgjidhet thjesht duke ndryshuar udhëzimet në prompts.
Tani le të shohim se si të bëjmë detyrën tradicionale NLP Biseda GPT dhe ta krahasoni me mënyrën tradicionale. Detyrat NLP që do të kryhen nga Biseda GPT në këtë artikull janë:
Sentiment analysis
Njohja e njësive të emërtuara (NER) i referohet detyrës së identifikimit automatik të termave në blloqe të ndryshme të të dhënave tekstuale. Përdoret kryesisht për nxjerrjen e kategorive të rëndësishme të entiteteve si emrat e barnave nga shënimet klinike, termat e lidhura me aksidentin nga pretendimet e sigurimit dhe terma të tjerë specifikë për domenin nga të dhënat.
Vini re se ky aktivitet është specifik për fushën mjekësore. Më parë na kërkonte të shënonim dhe të trajnonim më shumë se 10.000 rreshta të dhënash për një model të vetëm për të njohur klasën dhe termin specifik në tekst. ChatGPT mund të identifikojë saktë termin pa ndonjë tekst të trajnuar paraprakisht ose rregullim të imët, që është një rezultat relativisht i mirë!
Klasifikimi i tekstit i referohet procesit automatik të gjetjes dhe klasifikimit të tekstit në kategori nga të dhëna të mëdha, ai luan një rol thelbësor në marrjen dhe nxjerrjen e të dhënave të tekstit. Shembuj të aplikacioneve të klasifikimit të tekstit përfshijnë alarmet klinike ose kategorizimin e faktorëve të rrezikut, klasifikimin automatik të diagnostikimit dhe zbulimin e postës së padëshiruar.
Sentiment analysis
Sentiment analysis
përfshin përcaktimin e ndjenjës ose emocionit të shprehur në një pjesë të tekstit. Ai synon të klasifikojë tekstin në kategori paradefinite, si pozitive, negative ose neutrale, bazuar në ndjenjën themelore të përcjellë nga autori.
Aplikimet e analizës së ndjenjave përfshijnë:
Përmbledhjet automatike i referohen procesit me anë të të cilit temat kryesore të një ose më shumë dokumenteve identifikohen dhe paraqiten në mënyrë koncize dhe të saktë. Kjo i lejon përdoruesit të shikojë pjesë të mëdha të të dhënave në një kohë të shkurtër. Shembuj të aplikacioneve përfshijnë një sistem përmbledhës që lejon gjenerimin automatik të abstrakteve nga artikujt e lajmeve dhe përmbledhjen e informacionit duke nxjerrë fjali nga abstraktet e punimeve kërkimore.
ChatGPT është një mjet i shkëlqyer përmbledhës, veçanërisht për artikuj të gjatë dhe rishikime të ndërlikuara. Duke ngjitur komentet në ChatGPT, ne mund ta dimë lehtësisht përmbledhjen e rishikimit të produktit me një shikim.
Meqenëse qëllimi i këtij artikulli është të eksplorojë aftësinë e LLM-ve për të kryer detyra të analizës së tekstit, është thelbësore të njihen gjithashtu kufizimet e tyre. Disa nga kufizimet kryesore të LLM përfshijnë:
Ercole Palmeri
Një operacion oftalmoplastik duke përdorur shikuesin komercial Apple Vision Pro u krye në Poliklinikën Catania…
Zhvillimi i aftësive të shkëlqyera motorike përmes ngjyrosjes i përgatit fëmijët për aftësi më komplekse si shkrimi. Për të ngjyrosur…
Sektori detar është një fuqi e vërtetë ekonomike globale, e cila ka lundruar drejt një tregu prej 150 miliardë...
Të hënën e kaluar, Financial Times njoftoi një marrëveshje me OpenAI. FT licencon gazetarinë e saj të klasit botëror…