Informaatika

Gato, DeepMind ja võidujooks üldise tehisintellekti poole

Gato on DeepMindi uus multimodaalne AI-süsteem, mis suudab täita sadu erinevaid ülesandeid, kasutades alati sama närvivõrku.

On neid, kes arvavad, et tee inimese tasemel tehisintellekt on nüüd kaardistatud, nüüd oleks küsimus lihtsalt arvutusressursside suurendamises, samal ajal kui teised aeglustuvad, sest paljud nõuded oleksid endiselt puudu. Kuid erakordne võime hallata väga erinevaid ülesandeid muudab Gato teistest erineva tehisintellekti, mis ühest küljest ei ole veel üldine tehisintellekt, mida kõik ootavad, siis teisest küljest on see siiski uuenduslik süsteem selle viisi jaoks. mis suudab töödelda väga erinevaid andmeid samast arhitektuurist deep learning.

Sulgege AI ja üldine AI

Seni on üks peamisi erinevusi tehisintellekti keerulises maailmas olnud erinevus nõrga AI, mida nimetatakse ka "kitsaks" AI ja tugeva AI vahel, mida nimetatakse ka "üldiseks" AI-ks. See oli üsna lihtne viis mõtlemismasinate küsimuse koheseks lahendamiseks. Kitsas AI on tehisintellekt, mis täidab ainult ühte ülesannet, näiteks planeerib marsruuti, pakub asjakohaseid otsingutulemusi või peab kirjalikku vestlust. Üldine tehisintellekt on seevastu selline tehisintellekt, mida näeme filmides ja mis mõtleb nagu inimene, kes täidab korraga paljusid ülesandeid, luues nende vahel kasulikku sünergiat. Nende inimsarnaste masinate akronüüm on AGI, Üldine tehisintellekt. Enamiku teadlaste jaoks kimäär, mis on teoreetiliselt võimalik, kuid milleni me niipea ei jõua.

Kuid see eristamine tänapäeval krigiseb ja seda on üha vähem lihtne seletada. Tegelikult on viimastel aastatel teadusuuringud aidanud luua üha üldisemaid tehisintellekti mudeleid, ilma et see oleks viinud AGI avastamiseni. Seetõttu loob omamoodi kesktee, kus leiame tehisintellekti mudeleid, mis on võimelised täitma arvukalt erineva iseloomuga ülesandeid, nii et neid ei saa enam kirjeldada kui "kitsast" tehisintellekti, kuid mis samal ajal ei näita põhjuslikku intelligentsust või teadlikkust, et paljud eksperdid peaksid olema AGI-le omased.

Multimodaalne AI

Seda tüüpi tehisintellekti võime nimetada "üldiseks" või õigemini "multimodaalne”, Kuna sellega suhtlemiseks on mitu võimalust. Näiteks multimodaalne AI-süsteem suudab leida meie piirkonna ilmateate (otsida ja valida parima tulemuse), öelda, et täna sajab vihma (loomuliku keele töötlemine ja kõnesüntees) ja kontrollida, kas me läheme väljas vihmavarjuga või ilma (masinnägemine). Lisaks on multimodaalse süsteemi üks peamisi omadusi erinevat tüüpi andmete (nt piltide ja teksti) "neelamine", teades, kuidas mõlemast kasulikku teavet ammutada. Selle tulemusena tundub meile, et tegemist on tõelise intelligentsusega, tegelikkuses on ainult mitu AI-mudelit, mis on "akusse" pandud ja üksteisega sünergias.

DeepMindi loomaaed

Mis puudutab multimodaalset tehisintellekti käsitlevat uurimistööd, siis viimastel nädalatel on Londoni ettevõte DeepMind, mis – mäletame – on osa Euroopa galaktikast. Google, on välja andnud kaks AI-süsteemi, mis on endast palju kõneainet pakkunud. Esimest nimetatakse Flamingo, ja see on mudel, mis suudab lahendada "multimodaalseid ülesandeid", st ülesandeid, mille sissetulevat teavet võib edastada erinevatel viisidel, näiteks piltide, video ja teksti kaudu, isegi kombineerituna. Flamingo on visuaalne keelemudel (VLM), mis suudab käsitleda klassifikatsiooniteavet, pealdiste haldamist, pildipõhiseid küsimuste vastuseid, pakkudes samal ajal vaid üksikuid sisend-/väljundnäidiseid (nn "mõne võttega õppimine").

Mudeli eesmärk on "mõista" pildi või video olukorda, kirjeldades seda õigesti selle keelesüsteemiga ja vastates õigesti küsimustele, mis on seotud sellega, mida see "näeb".

Konnektivism ja intelligentsus?

Gato ei ole alati antud ülesande jaoks parim tehisintellekti mudel. Sawyeri roboti (tegemist on paljude "liigestega" käsivarrest koosneva robotiga) juhtimine on heal tasemel, kuid subtiitrite loomine on vaid kesine, samas kui mõne Atari mängu käsitsemine on vähem kui teistel pühendunud mängudel. AI mudelid. DeepMind väidab, et 450 ülesandest (võrreldes 604 ülesandega, mille täitmiseks teda koolitati) on Gato "rohkem kui poole ajast" täpsem kui inimeksperdid. Mõnevõrra segane viis öelda, et kokku 604 ülesandest annab vähemalt 154 väga kehva tulemuse, samas kui ülejäänud 450 puhul käitub Gato tubli poole ajast paremini kui inimekspert, aga teine pool ajast käitub. halvem.

Tee üldistamiseni

Nende nädalate tulemused on DeepMindi juba aastaid täitnud kohustuse tulemus. Ärgem unustagem, et ettevõtte eesmärk on "lahendada intelligentsuse probleemi", arendades üha üldisemaid süsteeme, mis suudavad lahendada väga erinevaid probleeme. Seda nimetab ettevõte tehisintellektiks ja sinna tahetakse jõuda. Eelmisel aastal astuti samm selles suunas Tajutaja, Transformeri arhitektuuril põhinev multimodaalne mudel, mis suudab käsitleda erinevat tüüpi sisendeid, nagu pildid, tekst, video, heli, 3D-andmed. Gato loojad ise arvavad, et Perceiver võib olla kasulik tulevaste üldsüsteemide režiimide arvu edasiseks laiendamiseks.

Artikkel on välja võetud postitusest Luca Sambucci, kui soovite lugedakogu postitus klõpsake siin