компьютер

Гато, DeepMind жана жалпы жасалма интеллектке карай жарыш

Gato - бул DeepMind компаниясынын жаңы мультимодалдык AI системасы, ар дайым бир эле нейрон тармагын колдонуу менен жүздөгөн ар кандай тапшырмаларды аткарууга жөндөмдүү.

Жол деп ойлогондор бар адамдык деңгээлдеги жасалма интеллект азыр карта түзүлдү, эми бул жөн гана эсептөө ресурстарын көбөйтүү маселеси болмок, ал эми башкалары жайлап жатышат, анткени көптөгөн талаптар дагы эле жок болуп калат. Бирок, өтө ар түрдүү тапшырмаларды башкаруунун укмуштуу жөндөмү Гатону AI тутумун башкалардан айырмалап турат, эгерде ал бир жагынан бардыгы күткөн жалпы жасалма интеллект болбосо, экинчи жагынан, ал дагы эле инновациялык система болуп саналат. ошол эле архитектурадан такыр башка маалыматтарды иштеп чыгууга башкарат deep learning.

AI жана жалпы AI жабыңыз

Азырынча жасалма интеллекттин татаал дүйнөсүндөгү негизги айырмачылыктардын бири "тар" AI деп да аталган алсыз AI менен "жалпы" AI деп да аталган күчтүү AIнын ортосундагы айырмачылык болуп саналат. Бул ой жүгүртүү машиналары жөнүндөгү маселени дароо чечүүнүн жөнөкөй жолу болгон. Тар AI – маршрутту пландаштыруу, тиешелүү издөө натыйжаларын берүү же жазуу жүзүндө сүйлөшүү сыяктуу бир гана тапшырманы аткарган жасалма интеллекттин түрү. Жалпы AI, экинчи жагынан, биз кинолордо көргөн, адам сыяктуу ойлонгон, бир эле учурда көптөгөн тапшырмаларды аткарган жана алардын ортосунда пайдалуу синергетикаларды жараткан жасалма интеллекттин түрү. Бул адамга окшош машиналардын кыскартылган аты AGI, Жасалма жалпы интеллект. Көпчүлүк изилдөөчүлөр үчүн теориялык жактан мүмкүн болгон, бирок биз жакында жете албай турган химера.

Бирок, бүгүнкү күндө бул айырмачылык кычырап, түшүндүрүү үчүн барган сайын жөнөкөй боло баштайт. Чынында, акыркы жылдары изилдөөлөр AGI ачылышына алып келбестен, барган сайын жалпы жасалма интеллект моделдерин түзүүгө түрткү берди. Ошондуктан жаратып жатат орто жердин бир түрү, бул жерден биз ар кандай мүнөздөгү көптөгөн тапшырмаларды аткарууга жөндөмдүү AI моделдерин табабыз, ошондуктан аларды мындан ары "тар" AI деп айтууга болбойт, бирок ошол эле учурда көптөгөн адамдар үчүн себептүү интеллект же аң-сезимди көрсөтпөйт. эксперттер AGI мүнөздүү болушу керек.

Multimodal AI

Биз жасалма интеллекттин бул түрүн "генералист" же туурараак деп атасак болот "мультимодалдык”, Аны менен өз ара аракеттенүүнүн бир нече жолу бар. Мисал келтире турган болсок, мультимодалдык AI системасы биздин аймак үчүн аба ырайынын болжолун таба алат (издөө жана эң жакшы натыйжаны тандоо), бүгүн жамгыр жаай турганын айтып (табигый тилди иштетүү жана кеп синтези) жана бара жатканыбызды текшере алат. кол чатыр менен же кол чатырсыз чыгуу (машина менен көрүү). Андан тышкары, мультимодалдык системанын негизги мүнөздөмөлөрүнүн бири – бул экөөнөн тең пайдалуу маалыматты кантип тартууну билүү, ар кандай типтеги маалыматтарды – мисалы сүрөттөр жана тексттерди “жутуу”. Натыйжада, биз чыныгы интеллект менен күрөшүп жатканыбыздай сезилет, чындыгында бир нече AI моделдери "батареяга" коюлган жана бири-бири менен синергетикада.

DeepMind зоопаркы

Мультимодалдык AI боюнча изилдөөгө келсек, акыркы жумаларда Лондондун DeepMind компаниясы, биздин эсибизде, бул галактиканын бир бөлүгү. Гугл, өздөрү жөнүндө көп сөз кылган эки AI системасын чыгарды. Биринчиси деп аталат Flamingo, жана бул "көп модалдык тапшырмаларды" чечүүгө жөндөмдүү модель, башкача айтканда, сүрөттөр, видео жана текст сыяктуу ар кандай режимдер аркылуу берилүүчү кириш маалыматы болушу мүмкүн, атүгүл бири-бири менен айкалышканда. Фламинго – бул визуалдык тил модели (VLM), ал классификация маалыматын, коштомо жазууларды башкарууну, суроолорго сүрөттөлүшкө негизделген жоопторду, бардыгын бир нече киргизүү/чыгарма үлгүлөрүн ("бир нече жолу үйрөнүү" деп аталган) камсыздайт.

Модельдин максаты - сүрөттүн же видеонун абалын "түшүнүү", аны лингвистикалык системасы менен туура сыпаттоо жана "көргөнүнө" байланыштуу суроолорго туура жооп берүү.

Коннктивизм жана интеллект?

Гато берилген тапшырма үчүн дайыма эле мыкты AI модели боло бербейт. Сойер роботунун башкаруусу (ал көптөгөн "муундары" бар колдордон турган робот) жакшы стандартка ээ, бирок коштомо жазууларды түзүү орточо гана, ал эми кээ бир Atari оюндарын иштетүү башкаларга караганда азыраак. AI моделдери. DeepMind 450 тапшырманын ичинен (ал үйрөтүлгөн 604 тапшырмага салыштырмалуу) Гато адамдык эксперттерге караганда "жарым убакыттан көбүрөөк" так аткарат деп айтылат. Жалпысынан 604 тапшырманын ичинен кеминде 154ү өтө начар натыйжаларды берет деп айтуунун бир аз татаал жолу, ал эми калган 450дө Гато өзүн адам адисине караганда жакшыраак алып барат, бирок дагы жарымы өзүн алып жүрөт. жаман.

Жалпылоонун жолу

Бул жумалардын жыйынтыгы DeepMind көп жылдар бою аткарып келе жаткан милдеттенменин натыйжасы. Компаниянын максаты ар кандай көйгөйлөрдүн кеңири спектрин чечүүгө жөндөмдүү барган сайын жалпы системаларды иштеп чыгуу, “интеллект маселесин чечүү” экенин унутпайлы. Бул компания Жасалма жалпы интеллект деп атаган нерсе жана алар ошол жакка барууну каалашат. Өткөн жылы бул багытта кадам ташталган Баамдоочу, сүрөттөр, текст, видео, үн, 3D маалыматтары сыяктуу киргизүүлөрдүн ар кандай түрлөрүн иштетүүгө жөндөмдүү Transformer архитектурасына негизделген мультимодалдык модель. Гатону жаратуучулар өздөрү Perceiver келечектеги жалпы системалардын режимдеринин санын кеңейтүү үчүн пайдалуу болушу мүмкүн деп ойлошот.

Посттан алынган макала Luca Sambucci, эгер сиз окугуңуз келсетолугу менен бул жерди бас