Во последниве години, нова парадигма еволуираше околу јазичните модели: невронски мрежи кои едноставно ги предвидуваат следните зборови во реченицата дадени од претходните зборови во реченицата.
Откако ќе бидат обучени на голем број текст без ознака, лингвистичките модели можат да бидат „поканети“ да вршат произволни задачи како што е предвидување на зборот по реченицата. На пример, задачата за преведување на англиска реченица на свахили може да се преформулира како предвидување на следниот збор: „Преводот на свахили на „вештачка интелигенција“ е ...“
Оваа нова парадигма претставува промена од моделите специфична задача, обучени за извршување на една задача, во модели задача-општа, кој може да извршува различни задачи. Плус моделите задача-општа можат да вршат и нови активности кои не се експлицитно вклучени во податоците за обуката. На пример, GPT-3 покажа дека лингвистичките модели можат успешно да множат двоцифрени броеви, дури и ако не биле експлицитно обучени за тоа. Сепак, оваа способност за извршување на нови задачи се појави само кај модели со одреден број параметри и обучени на доволно голем сет на податоци.
Идејата дека квантитативните промени во системот може да доведат до ново однесување е позната како за итни случаи, концепт популаризиран од есејот „Повеќе е поинаку“ на нобеловецот Филип Андерсон од 1972 година. Во многу дисциплини како што се физиката, биологијата, економијата и компјутерските науки, појавата е забележана во сложени системи.
Во а неодамнешна статија Објавено на Трансакции на истражување за машинско учење, лабораторијата Хаи in Универзитетот Стенфорд defiги покажува новите вештини во големите јазични модели на следниов начин:
Вештина е појава ако не е присутен кај помалите модели но е присутен кај поголемите модели.
Да се карактеризира присуството на вештини кои се појавуваат, нашата статија ги собра наодите за различни модели и пристапи што се појавија во текот на изминатите две години од објавувањето на GPT-3. Трудот го испитуваше истражувањето кое го анализираше влијанието на скалата: модели со различни големини обучени со различни пресметковни ресурси. За многу активности, однесувањето на моделот расте предвидливо со скала или непредвидливо се зголемува од случајни перформанси на повисоки од случајните вредности на одреден праг на скала.
За да дознаете повеќе, прочитајте ја статијата на новите вештини во лингвистичките модели
Џејсон Веи е истражувачки научник во Google Brain. Риши Бомасани е втор студент на докторски студии на Катедрата за компјутерски науки на Стенфорд кој помогна во лансирањето на Стенфорд Центар за истражување на модели на фондации (CRFM). Прочитајте ја нивната студија "Новите способности на Large Language Models,", напишана во соработка со научници од Google Research, Универзитетот Стенфорд, UNC Chapel Hill и DeepMind.
Изготвување BlogInnovazione.it
Microsoft Excel е референтна алатка за анализа на податоци, бидејќи нуди многу функции за организирање на збирки на податоци,…
Walliance, SIM и платформата меѓу лидерите во Европа во областа на Crowdfunding за недвижности од 2017 година, го најавува завршувањето…
Филаментот е „забрзана“ развојна рамка на Ларавел, која обезбедува неколку компоненти со целосен оџак. Тој е дизајниран да го поедностави процесот на…
„Морам да се вратам за да ја завршам мојата еволуција: ќе се проектирам себеси во компјутерот и ќе станам чиста енергија. Откако се населиле во…
Google DeepMind воведува подобрена верзија на својот модел за вештачка интелигенција. Новиот подобрен модел обезбедува не само…
Ларавел, познат по својата елегантна синтакса и моќните карактеристики, исто така обезбедува цврста основа за модуларна архитектура. Таму…
Cisco и Splunk им помагаат на клиентите да го забрзаат своето патување до Центарот за безбедносни операции (SOC) на иднината со…
Ransomware доминира во вестите во последните две години. Повеќето луѓе се свесни дека нападите…