членовите

Кратка анализа на новите вештини во големите јазични модели

Голем дел од истражувањата за вештачката интелигенција во изминатите две децении се фокусираа на обука на невронски мрежи, за извршување на една задача со специфични групи на податоци за обука. На пример, класифицирајте дали сликата содржи мачка, сумирајте статија, преведете од англиски на свахили ...

Во последниве години, нова парадигма еволуираше околу јазичните модели: невронски мрежи кои едноставно ги предвидуваат следните зборови во реченицата дадени од претходните зборови во реченицата.

Откако ќе бидат обучени на голем број текст без ознака, лингвистичките модели можат да бидат „поканети“ да вршат произволни задачи како што е предвидување на зборот по реченицата. На пример, задачата за преведување на англиска реченица на свахили може да се преформулира како предвидување на следниот збор: „Преводот на свахили на „вештачка интелигенција“ е ...“

Од одредена задача до општа задача

Оваа нова парадигма претставува промена од моделите специфична задача, обучени за извршување на една задача, во модели задача-општа, кој може да извршува различни задачи. Плус моделите задача-општа можат да вршат и нови активности кои не се експлицитно вклучени во податоците за обуката. На пример, GPT-3 покажа дека лингвистичките модели можат успешно да множат двоцифрени броеви, дури и ако не биле експлицитно обучени за тоа. Сепак, оваа способност за извршување на нови задачи се појави само кај модели со одреден број параметри и обучени на доволно голем сет на податоци.

Итната состојба како однесување

Идејата дека квантитативните промени во системот може да доведат до ново однесување е позната како за итни случаи, концепт популаризиран од есејот „Повеќе е поинаку“ на нобеловецот Филип Андерсон од 1972 година. Во многу дисциплини како што се физиката, биологијата, економијата и компјутерските науки, појавата е забележана во сложени системи.

Во а неодамнешна статија Објавено на Трансакции на истражување за машинско учење, лабораторијата Хаи in Универзитетот Стенфорд defiги покажува новите вештини во големите јазични модели на следниов начин:

Вештина е појава ако не е присутен кај помалите модели но е присутен кај поголемите модели.

Да се карактеризира присуството на вештини кои се појавуваат, нашата статија ги собра наодите за различни модели и пристапи што се појавија во текот на изминатите две години од објавувањето на GPT-3. Трудот го испитуваше истражувањето кое го анализираше влијанието на скалата: модели со различни големини обучени со различни пресметковни ресурси. За многу активности, однесувањето на моделот расте предвидливо со скала или непредвидливо се зголемува од случајни перформанси на повисоки од случајните вредности на одреден праг на скала.

За да дознаете повеќе, прочитајте ја статијата на новите вештини во лингвистичките модели

Џејсон Веи е истражувачки научник во Google Brain. Риши Бомасани е втор студент на докторски студии на Катедрата за компјутерски науки на Стенфорд кој помогна во лансирањето на Стенфорд Центар за истражување на модели на фондации (CRFM). Прочитајте ја нивната студија "Новите способности на Large Language Models,", напишана во соработка со научници од Google Research, Универзитетот Стенфорд, UNC Chapel Hill и DeepMind.

Изготвување BlogInnovazione.it

Тагови: вештачка интелигенцијаlarge language modelsLLMвештачки невронски мрежи

4 октомври 2022 8:04 часот

Следна Јапонија промовира WEB3 услуги кои користат Metaverse и NFTs "

Precedente „Што е одржливост? Единаесеттата цел на агендата на ОН 2030: Одржливи градови

Последни написи

членовите

Како најдобро да се организираат податоци и формули во Excel, за добро направена анализа

Microsoft Excel е референтна алатка за анализа на податоци, бидејќи нуди многу функции за организирање на збирки на податоци,…

14 мај 2024

членовите

Позитивен заклучок за два важни проекти на Walliance Equity Crowdfunding: Jesolo Wave Island и Milano Via Ravenna

Walliance, SIM и платформата меѓу лидерите во Европа во областа на Crowdfunding за недвижности од 2017 година, го најавува завршувањето…

13 мај 2024

членовите

Што е Филамент и како да се користи Ларавел Филамент

Филаментот е „забрзана“ развојна рамка на Ларавел, која обезбедува неколку компоненти со целосен оџак. Тој е дизајниран да го поедностави процесот на…

13 мај 2024