членовите

Кратка анализа на новите вештини во големите јазични модели

Голем дел од истражувањата за вештачката интелигенција во изминатите две децении се фокусираа на обука на невронски мрежи, за извршување на една задача со специфични групи на податоци за обука. На пример, класифицирајте дали сликата содржи мачка, сумирајте статија, преведете од англиски на свахили ...

Во последниве години, нова парадигма еволуираше околу јазичните модели: невронски мрежи кои едноставно ги предвидуваат следните зборови во реченицата дадени од претходните зборови во реченицата.

Откако ќе бидат обучени на голем број текст без ознака, лингвистичките модели можат да бидат „поканети“ да вршат произволни задачи како што е предвидување на зборот по реченицата. На пример, задачата за преведување на англиска реченица на свахили може да се преформулира како предвидување на следниот збор: „Преводот на свахили на „вештачка интелигенција“ е ...“

Од одредена задача до општа задача

Оваа нова парадигма претставува промена од моделите специфична задача, обучени за извршување на една задача, во модели задача-општа, кој може да извршува различни задачи. Плус моделите задача-општа можат да вршат и нови активности кои не се експлицитно вклучени во податоците за обуката. На пример, GPT-3 покажа дека лингвистичките модели можат успешно да множат двоцифрени броеви, дури и ако не биле експлицитно обучени за тоа. Сепак, оваа способност за извршување на нови задачи се појави само кај модели со одреден број параметри и обучени на доволно голем сет на податоци.

Итната состојба како однесување

Идејата дека квантитативните промени во системот може да доведат до ново однесување е позната како за итни случаи, концепт популаризиран од есејот „Повеќе е поинаку“ на нобеловецот Филип Андерсон од 1972 година. Во многу дисциплини како што се физиката, биологијата, економијата и компјутерските науки, појавата е забележана во сложени системи.

Во а неодамнешна статија Објавено на Трансакции на истражување за машинско учење, лабораторијата Хаи in Универзитетот Стенфорд defiги покажува новите вештини во големите јазични модели на следниов начин:

Вештина е појава ако не е присутен кај помалите модели но е присутен кај поголемите модели.

Билтен за иновации
Не пропуштајте ги најважните вести за иновациите. Пријавете се за да ги добивате по е-пошта.

Да се ​​карактеризира присуството на вештини кои се појавуваат, нашата статија ги собра наодите за различни модели и пристапи што се појавија во текот на изминатите две години од објавувањето на GPT-3. Трудот го испитуваше истражувањето кое го анализираше влијанието на скалата: модели со различни големини обучени со различни пресметковни ресурси. За многу активности, однесувањето на моделот расте предвидливо со скала или непредвидливо се зголемува од случајни перформанси на повисоки од случајните вредности на одреден праг на скала.

За да дознаете повеќе, прочитајте ја статијата на новите вештини во лингвистичките модели

Џејсон Веи е истражувачки научник во Google Brain. Риши Бомасани е втор студент на докторски студии на Катедрата за компјутерски науки на Стенфорд кој помогна во лансирањето на Стенфорд Центар за истражување на модели на фондации (CRFM). Прочитајте ја нивната студија "Новите способности на Large Language Models,", напишана во соработка со научници од Google Research, Универзитетот Стенфорд, UNC Chapel Hill и DeepMind.

Изготвување BlogInnovazione.it

Билтен за иновации
Не пропуштајте ги најважните вести за иновациите. Пријавете се за да ги добивате по е-пошта.

Последни написи

Како најдобро да се организираат податоци и формули во Excel, за добро направена анализа

Microsoft Excel е референтна алатка за анализа на податоци, бидејќи нуди многу функции за организирање на збирки на податоци,…

14 мај 2024

Позитивен заклучок за два важни проекти на Walliance Equity Crowdfunding: Jesolo Wave Island и Milano Via Ravenna

Walliance, SIM и платформата меѓу лидерите во Европа во областа на Crowdfunding за недвижности од 2017 година, го најавува завршувањето…

13 мај 2024

Што е Филамент и како да се користи Ларавел Филамент

Филаментот е „забрзана“ развојна рамка на Ларавел, која обезбедува неколку компоненти со целосен оџак. Тој е дизајниран да го поедностави процесот на…

13 мај 2024

Под контрола на вештачката интелигенција

„Морам да се вратам за да ја завршам мојата еволуција: ќе се проектирам себеси во компјутерот и ќе станам чиста енергија. Откако се населиле во…

10 мај 2024

Новата вештачка интелигенција на Google може да моделира ДНК, РНК и „сите молекули на животот“

Google DeepMind воведува подобрена верзија на својот модел за вештачка интелигенција. Новиот подобрен модел обезбедува не само…

9 мај 2024

Истражување на модуларната архитектура на Ларавел

Ларавел, познат по својата елегантна синтакса и моќните карактеристики, исто така обезбедува цврста основа за модуларна архитектура. Таму…

9 мај 2024

Cisco Hypershield и стекнување на Splunk Започнува новата ера на безбедност

Cisco и Splunk им помагаат на клиентите да го забрзаат своето патување до Центарот за безбедносни операции (SOC) на иднината со…

8 мај 2024

Надвор од економската страна: неочигледната цена на откупниот софтвер

Ransomware доминира во вестите во последните две години. Повеќето луѓе се свесни дека нападите…

6 мај 2024

Читајте иновации на вашиот јазик

Билтен за иновации
Не пропуштајте ги најважните вести за иновациите. Пријавете се за да ги добивате по е-пошта.

Следете нас