Հոդվածներ

Տեքստի վերլուծություն՝ օգտագործելով chatGPT

Տեքստի վերլուծությունը կամ տեքստի մայնինգը կարևոր տեխնիկա է մեծ քանակությամբ չկառուցված տեքստային տվյալներից արժեքավոր պատկերացումներ քաղելու համար: 

Այն ներառում է տեքստի մշակում և վերլուծություն՝ օրինաչափություններ, միտումներ և հարաբերություններ հայտնաբերելու համար:

Այն թույլ է տալիս ընկերություններին, հետազոտողներին և կազմակերպություններին որոշումներ կայացնել տեքստերից քաղված տեղեկատվության հիման վրա: 

Քանի որ չկառուցված տվյալների ծավալը շարունակում է երկրաչափորեն աճել, ճշգրիտ և արդյունավետ տեքստային վերլուծության գործիքների անհրաժեշտությունն ավելի ու ավելի կարևոր է դառնում այնպիսի ոլորտներում, ինչպիսիք են մարքեթինգը, ֆինանսները, առողջապահությունը և սոցիալական գիտությունները:

Ավանդաբար, տեքստի վերլուծությունն իրականացվում է կանոնների վրա հիմնված մեթոդների և մեքենայական ուսուցման մեթոդների միջոցով, ինչպիսիք են SpaCY-ը և տրանսֆորմատորային տեխնիկան: Թեև այս մեթոդներն ապացուցել են արդյունավետությունը, դրանք կատարելագործվելու համար պահանջում են զգալի ջանք և փորձ:

Լեզուների խոշոր մոդելների (LLM) հայտնվելով, ինչպիսիք են Զրուցարան GPT di OpenAI. Այն ցույց է տվել ուշագրավ կարողություններ՝ ստեղծելու մարդանման տեքստ և կոնտեքստը հասկանալու՝ դարձնելով այն խոստումնալից գործիք տեքստի վերլուծության առաջադրանքների համար, ինչպիսիք են. entity recognition, sentiment analysisՈւ topic modeling.

Այժմ տեսնենք, թե ինչպես կարող ենք տեքստի վերլուծություն կատարել՝ օգտագործելով ChatGPT:

Ավանդական մեթոդ (մեկ մոդելներ) ընդդեմ. LLM

Նախկինում մենք միշտ տարբեր մոդելներ ենք օգտագործել մեքենայական ուսուցման տարբեր առաջադրանքների համար: Օրինակ, եթե ես ուզում եմ տեքստից գիտելիքներ քաղել, ինձ անհրաժեշտ կլինի օգտագործել անվանված էության ճանաչման մոդել (NER – Named Entity Recognition), եթե ինձ անհրաժեշտ լինի դասակարգել իմ տեքստը առանձին դասերի, ինձ անհրաժեշտ կլինի դասակարգման մոդել: Յուրաքանչյուր տարբեր գործունեություն պահանջում էր, որ մոդելները տարբեր կերպ վարվեին յուրաքանչյուր գործունեության համար՝ կա՛մ փոխանցման ուսուցման, կա՛մ վերապատրաստման միջոցով:

-ի ներդրմամբ Large Language Models (LLM), LLM մոդելը կկարողանա կատարել բազմաթիվ NLP առաջադրանքներ՝ ուսուցմամբ կամ առանց դրա: Ցանկացած գործունեություն կարող է լինել defiպարզապես փոխելով հրահանգների հրահանգները:

Այժմ տեսնենք, թե ինչպես կատարել ավանդական NLP առաջադրանքը Զրուցարան GPT և համեմատել ավանդական ձևի հետ: NLP-ի առաջադրանքները, որոնք կկատարվեն Զրուցարան GPT այս հոդվածում են.

  • Գիտելիքի արդյունահանում (NER)
  • Տեքստի դասակարգում
  • Sentiment analysis
  • Ամփոփում

Գիտելիքի արդյունահանում (NER)

Անվանված սուբյեկտի ճանաչումը (NER) վերաբերում է տեքստային տվյալների տարբեր բլոկներում տերմինների ավտոմատ նույնականացման խնդրին: Այն հիմնականում օգտագործվում է կարևոր միավորների կատեգորիաները, ինչպիսիք են դեղերի անունները կլինիկական նշումներից, դժբախտ պատահարների հետ կապված պայմանները ապահովագրական պահանջներից և տիրույթին հատուկ տերմիններ գրառումներից հանելու համար:

Նշենք, որ այս գործունեությունը հատուկ է բժշկական ոլորտին: Նախկինում մեզանից պահանջում էր ծանոթագրել և վարժեցնել ավելի քան 10.000 տող տվյալների մեկ մոդելի համար՝ տեքստում կոնկրետ դասը և տերմինը իմանալու համար: ChatGPT-ն կարող է ճիշտ նույնականացնել տերմինը՝ առանց նախապես պատրաստված տեքստի կամ ճշգրտման, ինչը համեմատաբար լավ արդյունք է:

Տեքստի դասակարգում

Տեքստի դասակարգումը վերաբերում է հսկայական տվյալներից տեքստը կատեգորիաների գտնելու և դասակարգելու ավտոմատ գործընթացին, այն էական դեր է խաղում տեքստի տվյալների որոնման և արդյունահանման գործում: Տեքստի դասակարգման հավելվածների օրինակները ներառում են կլինիկական ծանուցումներ կամ ռիսկի գործոնի դասակարգում, ավտոմատ ախտորոշիչ դասակարգում և սպամի հայտնաբերում:

Sentiment analysis

Sentiment analysis ներառում է տեքստի մի հատվածում արտահայտված զգացողության կամ հույզերի որոշում: Այն նպատակ ունի դասակարգել տեքստը նախնական կատեգորիաներիdefinite, որպես դրական, բացասական կամ չեզոք, հիմնված հեղինակի կողմից փոխանցված հիմքում ընկած տրամադրության վրա: 

Զգացմունքների վերլուծության կիրառությունները ներառում են.

  • հաճախորդների ակնարկների և արձագանքների վերլուծություն,
  • հետևել սոցիալական մեդիայի տրամադրություններին,
  • շուկայի միտումների մոնիտորինգ ե
  • նախընտրական քարոզարշավի ընթացքում քաղաքական տրամադրությունների չափումը.

Ամփոփում

Ավտոմատ ամփոփումները վերաբերում են գործընթացին, որի միջոցով մեկ կամ մի քանի փաստաթղթերի հիմնական թեմաները բացահայտվում և ներկայացվում են հակիրճ և ճշգրիտ ձևով: Սա թույլ է տալիս օգտվողին կարճ ժամանակում դիտել տվյալների մեծ կտորներ: Օրինակների կիրառությունները ներառում են ամփոփ համակարգ, որը թույլ է տալիս ավտոմատ կերպով ստեղծել նորությունների հոդվածներից վերացական հոդվածներ և տեղեկատվության ամփոփում` հետազոտական ​​աշխատանքների ամփոփագրերից նախադասություններ հանելով:

ChatGPT-ը հիանալի ամփոփիչ գործիք է, հատկապես երկար հոդվածների և բարդ ակնարկների համար: Կպցնելով ակնարկները ChatGPT-ում, մենք կարող ենք հեշտությամբ իմանալ արտադրանքի վերանայման ամփոփագիրը մի հայացքով:

LLM-ների սահմանաչափը

Քանի որ այս հոդվածի նպատակն է ուսումնասիրել տեքստային վերլուծության առաջադրանքներ կատարելու LLM-ների կարողությունը, կարևոր է նաև ճանաչել դրանց սահմանափակումները: LLM-ների հիմնական սահմանափակումներից մի քանիսը ներառում են.

  1. Ռեսուրսների օգտագործում LLM-ների օգտագործումը պահանջում է զգալի հաշվողական և ֆինանսական ռեսուրսներ, որոնք կարող են մարտահրավեր լինել փոքր կազմակերպությունների կամ սահմանափակ ռեսուրսներ ունեցող անհատ հետազոտողների համար: Այսօրվա դրությամբ ChatGPT-ն ընդունում է միայն մոտ 8.000 նշան մուտքագրման և ելքի համար, մեծ քանակությամբ տվյալներ վերլուծելու համար, օգտվողից պահանջում է տեքստը բաժանել տվյալների մի քանի կտորների և կարող է պահանջել բազմաթիվ API զանգեր առաջադրանքների համար:
  2. Զգայունություն արագ արտահայտությունների նկատմամբ LLM-ների կատարողականի վրա կարող է ազդել հուշումների ձևակերպումը: Արագ ձևակերպման աննշան փոփոխությունը կարող է հանգեցնել տարբեր արդյունքների, ինչը կարող է անհանգստության պատճառ լինել, երբ փնտրում եք հետևողական և հուսալի արդյունք:
  3. Դոմենի հատուկ փորձաքննության բացակայություն Թեև LLM-ները ընդհանուր պատկերացում ունեն տարբեր տիրույթների մասին, նրանք կարող են չունենալ նույն մակարդակի փորձը, ինչ մասնագիտացված մոդելները, որոնք վերապատրաստվել են տիրույթի հատուկ տվյալների վրա: Արդյունքում, դրանց կատարումը կարող է որոշ դեպքերում օպտիմալ չլինել և կարող է պահանջել ճշգրտում կամ արտաքին գիտելիքներ, հատկապես, երբ գործ ունենք բարձր մասնագիտացված կամ տեխնիկական տեղեկատվության հետ:

Ercole Palmeri

Նորարարության տեղեկագիր
Բաց մի թողեք նորարարության մասին ամենակարևոր նորությունները: Գրանցվեք դրանք էլփոստով ստանալու համար:

Վերջին հոդվածները

Veeam-ն ունի ամենաընդգրկուն աջակցություն փրկագինին՝ պաշտպանությունից մինչև պատասխան և վերականգնում

Veeam-ի Coveware-ը կշարունակի տրամադրել կիբեր շորթման միջադեպերի արձագանքման ծառայություններ: Coveware-ը կառաջարկի դատաբժշկական և վերականգնման հնարավորություններ…

23 Ապրիլ 2024

Կանաչ և թվային հեղափոխություն. Ինչպես է կանխատեսելի սպասարկումը փոխակերպում նավթի և գազի արդյունաբերությունը

Կանխատեսելի սպասարկումը հեղափոխություն է անում նավթի և գազի ոլորտում՝ կայանի կառավարման նորարարական և ակտիվ մոտեցմամբ:…

22 Ապրիլ 2024

Մեծ Բրիտանիայի հակամենաշնորհային կարգավորիչը բարձրացնում է BigTech-ի ահազանգը GenAI-ի վերաբերյալ

Մեծ Բրիտանիայի CMA-ն նախազգուշացում է տարածել արհեստական ​​ինտելեկտի շուկայում Big Tech-ի վարքագծի վերաբերյալ: Այնտեղ…

18 Ապրիլ 2024

Casa Green. էներգետիկ հեղափոխություն կայուն ապագայի համար Իտալիայում

Շենքերի էներգաարդյունավետության բարձրացման նպատակով Եվրոպական միության կողմից ձևակերպված «Քեյս Գրին» հրամանագիրը իր օրենսդրական գործընթացն ավարտել է…

18 Ապրիլ 2024

Կարդացեք նորարարությունը ձեր լեզվով

Նորարարության տեղեկագիր
Բաց մի թողեք նորարարության մասին ամենակարևոր նորությունները: Գրանցվեք դրանք էլփոստով ստանալու համար:

Հետեւեք մեզ