Հոդվածներ

Մեծ լեզվական մոդելներում առաջացող հմտությունների համառոտ վերլուծություն

Վերջին երկու տասնամյակների ընթացքում արհեստական ինտելեկտի վերաբերյալ հետազոտությունների մեծ մասը կենտրոնացած է նեյրոնային ցանցերի ուսուցման վրա՝ կոնկրետ ուսումնական տվյալների հավաքածուներով մեկ առաջադրանք կատարելու համար: Օրինակ, դասակարգեք, եթե պատկերը պարունակում է կատու, ամփոփեք հոդվածը, թարգմանեք անգլերենից սուահիլի…

Վերջին տարիներին նոր պարադիգմ է ձևավորվել լեզվական մոդելների շուրջ՝ նեյրոնային ցանցեր, որոնք պարզապես կանխատեսում են նախադասության հաջորդ բառերը՝ տրված նախադասության նախորդ բառերը:

Չպիտակավորված տեքստի մեծ մասի վրա մարզվելուց հետո լեզվաբանական մոդելները կարող են «հրավիրվել» կատարել կամայական առաջադրանքներ, ինչպիսիք են նախադասությանը հաջորդող բառը կանխատեսելը: Օրինակ, անգլերեն նախադասությունը սուահիլի թարգմանելու խնդիրը կարող է վերաձեւակերպվել որպես հաջորդ բառի կանխատեսում. «Արհեստական ինտելեկտի» սուահիլի թարգմանությունը…

Առաջադրանքից մինչև ընդհանուր առաջադրանք

Այս նոր պարադիգմը ներկայացնում է շեղում մոդելներից առաջադրանքին հատուկ, պատրաստված է մեկ առաջադրանք կատարելու համար, մոդելներում առաջադրանք-ընդհանուր, որը կարող է կատարել տարբեր առաջադրանքներ։ Գումարած մոդելները առաջադրանք-ընդհանուր նրանք կարող են նաև կատարել նոր գործողություններ, որոնք հստակորեն ներառված չեն վերապատրաստման տվյալների մեջ: Օրինակ, GPT-3 ցույց տվեց, որ լեզվական մոդելները կարող են հաջողությամբ բազմապատկել երկնիշ թվերը, նույնիսկ եթե դրանք հստակորեն պատրաստված չեն դա անելու համար: Այնուամենայնիվ, նոր առաջադրանքներ կատարելու այս ունակությունը տեղի է ունեցել միայն որոշակի թվով պարամետրերով և բավականաչափ մեծ տվյալների հավաքածուով պատրաստված մոդելների դեպքում:

Արտակարգ իրավիճակները որպես վարքագիծ

Այն գաղափարը, որ համակարգում քանակական փոփոխությունները կարող են հանգեցնել նոր վարքի, հայտնի է որպես արտակարգ, հայեցակարգ, որը տարածված է Նոբելյան մրցանակակիր Ֆիլիպ Անդերսոնի 1972 թվականի «Ավելին տարբեր է» էսսեի կողմից։ Շատ առարկաներում, ինչպիսիք են ֆիզիկան, կենսաբանությունը, տնտեսագիտությունը և համակարգչային գիտությունը, առաջացող երևույթը նկատվել է բարդ համակարգերում:

Մեջ վերջին հոդվածը pubblicato սու Գործարքներ մեքենայական ուսուցման հետազոտության վերաբերյալ, լաբորատորիա Հայ in Stanford University defiբացահայտում է զարգացող հմտությունները մեծ լեզվական մոդելներում հետևյալ կերպ.

Հմտություն է զարգացող եթե այն առկա չէ փոքր մոդելներում, բայց առկա է ավելի մեծ մոդելներում:

Հմտությունների առկայությունը բնութագրելու համար առաջացող, մեր հոդվածը համախմբել է GPT-3-ի թողարկումից հետո վերջին երկու տարվա ընթացքում ի հայտ եկած տարբեր մոդելների և մոտեցումների բացահայտումները: Փաստաթուղթը ուսումնասիրել է հետազոտություն, որը վերլուծել է մասշտաբի ազդեցությունը. տարբեր չափերի մոդելներ, որոնք պատրաստված են տարբեր հաշվողական ռեսուրսներով: Շատ գործողությունների համար մոդելի վարքագիծը կանխատեսելիորեն աճում է մասշտաբով կամ անկանխատեսելիորեն աճում է պատահական կատարումից մինչև պատահական արժեքներից ավելի բարձր՝ որոշակի մասշտաբի շեմին:

Ավելին իմանալու համար կարդացեք հոդվածը զարգացող հմտություններ լեզվական մոդելներում

Ջեյսոն Վեյը Google Brain-ի հետազոտող է: Ռիշի Բոմասանին Սթենֆորդի համակարգչային գիտության բաժնի երկրորդ կուրսի դոկտորանտ է, ով օգնեց սկսել Հիմնադրամի մոդելների հետազոտության Ստենֆորդի կենտրոն (CRFM). Կարդացեք նրանց ուսումնասիրությունը "Արտագնա ունակությունները Large Language Models,", գրվել է Google Research-ի, Stanford University-ի, UNC Chapel Hill-ի և DeepMind-ի գիտնականների հետ համատեղ:

մշակումը BlogInnovazione.it

Tags: արհեստական բանականությունlarge language modelsLLMարհեստական նյարդային ցանցեր

Հոկտեմբերի 4, 2022 8:04

հաջորդ Ճապոնիան խթանում է WEB3 ծառայությունները, որոնք օգտագործում են Metaverse-ը և NFT-ները»:

Նախկինում «Ի՞նչ է կայունությունը. ՄԱԿ-ի 2030 օրակարգի տասնմեկերորդ նպատակը. Կայուն քաղաքներ.

Վերջին հոդվածները

Հոդվածներ

Ինչպես լավագույնս կազմակերպել տվյալները և բանաձևերը Excel-ում՝ լավ կատարված վերլուծության համար

Microsoft Excel-ը տվյալների վերլուծության հղման գործիքն է, քանի որ այն առաջարկում է բազմաթիվ հնարավորություններ տվյալների հավաքածուների կազմակերպման համար,…

14 Մայիս 2024