Artikuj

Analiza e tekstit duke përdorur chatGPT

Analiza e tekstit, ose minimi i tekstit, është një teknikë jetike për nxjerrjen e njohurive të vlefshme nga sasi të mëdha të dhënash teksti të pastrukturuara. 

Ai përfshin përpunimin dhe analizimin e tekstit për të zbuluar modele, tendenca dhe marrëdhënie.

Ai lejon kompanitë, studiuesit dhe organizatat të marrin vendime bazuar në informacionin e mbledhur nga tekstet. 

Ndërsa vëllimi i të dhënave të pastrukturuara vazhdon të rritet në mënyrë eksponenciale, nevoja për mjete të sakta dhe efikase të analizës së tekstit është bërë gjithnjë e më kritike në industri të ndryshme si marketingu, financa, kujdesi shëndetësor dhe shkencat sociale.

Tradicionalisht, analiza e tekstit është kryer duke përdorur metoda të bazuara në rregulla dhe teknika të mësimit të makinerive si SpaCY dhe teknikën e transformatorit. Ndërsa këto metoda janë provuar efektive, ato kërkojnë përpjekje dhe ekspertizë të konsiderueshme për t'u përsosur.

Me ardhjen e modeleve të mëdha gjuhësore (LLM) si p.sh Biseda GPT di OpenAI. Ai ka demonstruar aftësi të jashtëzakonshme në gjenerimin e tekstit të ngjashëm me njeriun dhe të kuptuarit e kontekstit, duke e bërë atë një mjet premtues për detyrat e analizës së tekstit si p.sh. entity recognition, sentiment analysisDhe topic modeling.

Le të shohim tani se si mund të kryejmë analizimin e tekstit duke përdorur ChatGPT.

Metoda tradicionale (modele të vetme) vs. LLM

Në të kaluarën, ne kemi përdorur gjithmonë modele të ndryshme për detyra të ndryshme në mësimin e makinerive. Për shembull, nëse dua të nxjerr njohuri nga një tekst, do të më duhet të përdor një model të njohjes së entitetit të emërtuar (NER - Named Entity Recognition), nëse më duhet ta klasifikoj tekstin tim në klasa të veçanta, do të më duhet një model klasifikimi. Çdo aktivitet i ndryshëm kërkonte që modelet të trajnoheshin ndryshe për secilin aktivitet, qoftë me transferim të të mësuarit ose me trajnim.

Me prezantimin e Large Language Models (LLM), një model LLM do të jetë në gjendje të kryejë detyra të shumta NLP me ose pa trajnim. Çdo aktivitet mund të jetë defizgjidhet thjesht duke ndryshuar udhëzimet në prompts.

Tani le të shohim se si të bëjmë detyrën tradicionale NLP Biseda GPT dhe ta krahasoni me mënyrën tradicionale. Detyrat NLP që do të kryhen nga Biseda GPT në këtë artikull janë:

  • Nxjerrja e njohurive (NER)
  • Klasifikimi i tekstit
  • Sentiment analysis
  • Riepilogo

Nxjerrja e njohurive (NER)

Njohja e njësive të emërtuara (NER) i referohet detyrës së identifikimit automatik të termave në blloqe të ndryshme të të dhënave tekstuale. Përdoret kryesisht për nxjerrjen e kategorive të rëndësishme të entiteteve si emrat e barnave nga shënimet klinike, termat e lidhura me aksidentin nga pretendimet e sigurimit dhe terma të tjerë specifikë për domenin nga të dhënat.

Vini re se ky aktivitet është specifik për fushën mjekësore. Më parë na kërkonte të shënonim dhe të trajnonim më shumë se 10.000 rreshta të dhënash për një model të vetëm për të njohur klasën dhe termin specifik në tekst. ChatGPT mund të identifikojë saktë termin pa ndonjë tekst të trajnuar paraprakisht ose rregullim të imët, që është një rezultat relativisht i mirë!

Klasifikimi i tekstit

Klasifikimi i tekstit i referohet procesit automatik të gjetjes dhe klasifikimit të tekstit në kategori nga të dhëna të mëdha, ai luan një rol thelbësor në marrjen dhe nxjerrjen e të dhënave të tekstit. Shembuj të aplikacioneve të klasifikimit të tekstit përfshijnë alarmet klinike ose kategorizimin e faktorëve të rrezikut, klasifikimin automatik të diagnostikimit dhe zbulimin e postës së padëshiruar.

Sentiment analysis

Sentiment analysis përfshin përcaktimin e ndjenjës ose emocionit të shprehur në një pjesë të tekstit. Ai synon të klasifikojë tekstin në kategori paradefinite, si pozitive, negative ose neutrale, bazuar në ndjenjën themelore të përcjellë nga autori. 

Aplikimet e analizës së ndjenjave përfshijnë:

  • analiza e komenteve dhe komenteve të klientëve,
  • ndjekja e ndjenjave të mediave sociale,
  • monitorimi i tendencave të tregut e
  • matja e ndjenjës politike gjatë fushatave elektorale.

Riepilogo

Përmbledhjet automatike i referohen procesit me anë të të cilit temat kryesore të një ose më shumë dokumenteve identifikohen dhe paraqiten në mënyrë koncize dhe të saktë. Kjo i lejon përdoruesit të shikojë pjesë të mëdha të të dhënave në një kohë të shkurtër. Shembuj të aplikacioneve përfshijnë një sistem përmbledhës që lejon gjenerimin automatik të abstrakteve nga artikujt e lajmeve dhe përmbledhjen e informacionit duke nxjerrë fjali nga abstraktet e punimeve kërkimore.

ChatGPT është një mjet i shkëlqyer përmbledhës, veçanërisht për artikuj të gjatë dhe rishikime të ndërlikuara. Duke ngjitur komentet në ChatGPT, ne mund ta dimë lehtësisht përmbledhjen e rishikimit të produktit me një shikim.

Kufiri i LLM-ve

Meqenëse qëllimi i këtij artikulli është të eksplorojë aftësinë e LLM-ve për të kryer detyra të analizës së tekstit, është thelbësore të njihen gjithashtu kufizimet e tyre. Disa nga kufizimet kryesore të LLM përfshijnë:

  1. Shfrytëzimi i burimeve : Përdorimi i LLM-ve kërkon burime të konsiderueshme llogaritëse dhe financiare, të cilat mund të jenë një sfidë për organizatat më të vogla ose studiuesit individualë me burime të kufizuara. Që nga sot, ChatGPT pranon vetëm rreth 8.000 argumente për hyrje dhe dalje, për të analizuar një sasi të madhe të dhënash, kërkon që përdoruesi të ndajë tekstin në copa të shumta të dhënash dhe mund të kërkojë thirrje të shumta API për detyra.
  2. Ndjeshmëri ndaj shprehjes së shpejtë : Performanca e LLM-ve mund të ndikohet nga mënyra se si formulohen kërkesat. Një ndryshim i lehtë në formulimin e shpejtë mund të prodhojë rezultate të ndryshme, të cilat mund të jenë shkak për shqetësim kur kërkohen rezultate të qëndrueshme dhe të besueshme.
  3. Mungesa e ekspertizës specifike të fushës : Ndërsa LLM-të kanë një kuptim të përgjithshëm të fushave të ndryshme, ato mund të mos kenë të njëjtin nivel ekspertize si modelet e specializuara të trajnuara për të dhëna specifike për domenin. Si rezultat, performanca e tyre mund të mos jetë optimale në disa raste dhe mund të kërkojë rregullim të imët ose njohuri të jashtme, veçanërisht kur kemi të bëjmë me informacion shumë të specializuar ose teknik.

Ercole Palmeri

Buletini i inovacionit
Mos humbisni lajmet më të rëndësishme mbi inovacionin. Regjistrohuni për t'i marrë ato me email.

Artikujt e fundit

Ndërhyrje novatore në realitetin e shtuar, me një shikues Apple në Poliklinikën Catania

Një operacion oftalmoplastik duke përdorur shikuesin komercial Apple Vision Pro u krye në Poliklinikën Catania…

3 Maj 2024

Përfitimet e Faqeve të Ngjyrosjes për Fëmijë - një botë magjike për të gjitha moshat

Zhvillimi i aftësive të shkëlqyera motorike përmes ngjyrosjes i përgatit fëmijët për aftësi më komplekse si shkrimi. Për të ngjyrosur…

2 Maj 2024

E ardhmja është këtu: Si industria e transportit po revolucionarizon ekonominë globale

Sektori detar është një fuqi e vërtetë ekonomike globale, e cila ka lundruar drejt një tregu prej 150 miliardë...

1 Maj 2024

Botuesit dhe OpenAI nënshkruajnë marrëveshje për të rregulluar rrjedhën e informacionit të përpunuar nga Inteligjenca Artificiale

Të hënën e kaluar, Financial Times njoftoi një marrëveshje me OpenAI. FT licencon gazetarinë e saj të klasit botëror…

30 Prill 2024