tietokone

Gato, DeepMind ja kilpailu yleiseen tekoälyyn

Gato on DeepMindin uusi multimodaalinen tekoälyjärjestelmä, joka pystyy suorittamaan satoja erilaisia tehtäviä aina samaa hermoverkkoa käyttäen.

On niitä, jotka ajattelevat, että tapa ihmistason tekoälyä on nyt kartoitettu, nyt olisi kysymys vain laskennallisten resurssien lisäämisestä, kun taas toiset hidastuvat, koska monet vaatimukset puuttuvat edelleen. Poikkeuksellinen kyky hallita hyvin erilaisia tehtäviä tekee Gatosta kuitenkin muista poikkeavan tekoälyjärjestelmän, joka toisaalta ei ole vielä kaikkien odottamaa yleistä tekoälyä, mutta toisaalta se on silti innovatiivinen järjestelmä. joka onnistuu käsittelemään hyvin erilaista dataa samasta arkkitehtuurista kuin deep learning.

Sulje AI ja yleinen tekoäly

Toistaiseksi yksi tärkeimmistä eroista tekoälyn monimutkaisessa maailmassa on ollut ero heikon tekoälyn, jota kutsutaan myös "kapeaksi" tekoälyksi, ja vahvan tekoälyn, jota kutsutaan myös "yleiseksi" tekoälyksi, välillä. Se oli melko yksinkertainen tapa ratkaista ajattelukoneiden kysymys heti. Kapea tekoäly on sellainen tekoäly, joka suorittaa vain yhden tehtävän, kuten reitin suunnittelun, osuvien hakutulosten tarjoamisen tai kirjallisen keskustelun. Yleinen AI puolestaan on sellaista tekoälyä, jota näemme elokuvissa, joka ajattelee kuin ihminen, joka suorittaa monia tehtäviä samanaikaisesti luoden hyödyllisiä synergiaetuja niiden välille. Näiden ihmisen kaltaisten koneiden lyhenne on AGI, Keinotekoinen yleinen älykkyys. Useimmille tutkijoille kimeeri, joka on teoriassa mahdollinen, mutta jota emme saavuta lähiaikoina.

Tämä ero kuitenkin nykyään narisee ja alkaa olla yhä vähemmän yksinkertaista selittää. Itse asiassa viime vuosina tutkimus on johtanut yhä yleisempien tekoälymallien luomiseen, johtamatta kuitenkaan AGI:n löytämiseen. Se siis luo eräänlainen keskitie, josta löydämme tekoälymalleja, jotka pystyvät suorittamaan lukuisia erilaisia tehtäviä, niin paljon, että niitä ei voida enää kuvata "kapeaksi" tekoälyksi, mutta jotka eivät samalla osoita kausaalista älykkyyttä tai tietoisuutta siitä, että monien asiantuntijoiden pitäisi olla luontaisia AGI:ssä.

Multimodaalinen AI

Voimme kutsua tämän tyyppistä tekoälyä "yleiseksi" tai ehkä oikeammin "multimodaalinen”, Koska on olemassa useita tapoja olla vuorovaikutuksessa sen kanssa. Esimerkiksi multimodaalinen tekoälyjärjestelmä pystyisi löytämään alueemme sääennusteen (etsi ja valitse paras tulos), kertoisi meille, että tänään sataa (luonnollinen kielen käsittely ja puhesynteesi) ja tarkista, olemmeko menossa. ulos sateenvarjon kanssa tai ilman (konenäkö). Lisäksi yksi multimodaalisen järjestelmän tärkeimmistä ominaisuuksista on erityyppisten tietojen – esimerkiksi kuvien ja tekstin – "nieleminen" ja osata saada hyödyllistä tietoa molemmista. Tämän seurauksena meistä näyttää siltä, että olemme tekemisissä todellisen älykkyyden kanssa, todellisuudessa on vain useita tekoälymalleja, jotka on asetettu "akkuun" ja synergiaan keskenään.

DeepMind Zoo

Mitä tulee multimodaalisen tekoälyn tutkimukseen, viime viikkoina lontoolainen yritys DeepMind, joka - muistamme - on osa galaksia. Google, on julkaissut kaksi tekoälyjärjestelmää, jotka ovat saaneet paljon puhetta itsestään. Ensimmäinen on ns Flamingo, ja se on malli, joka pystyy ratkaisemaan ”multimodaalisia tehtäviä”, eli tehtäviä, joissa voi olla saapuvaa tietoa välitettynä eri modaliteetin, kuten kuvien, videon ja tekstin, kautta, jopa yhdessä keskenään. Flamingo on visuaalinen kielimalli (VLM), joka pystyy käsittelemään luokittelutietoja, kuvatekstien hallintaa, kuvapohjaisia kysymysvastauksia tarjoamalla vain muutaman syöttö-/lähtönäytteen (ns. "muutaman kuvan oppiminen").

Mallin tarkoituksena on "ymmärtää" kuvan tai videon tilanne, kuvata se oikein kielijärjestelmällään ja vastata oikein kysymyksiin, jotka liittyvät sen "näkemään".

Konnektivismi ja älykkyys?

Gato ei ole aina paras tekoälymalli tiettyyn tehtävään. Sawyer-robotin (se on robotti, joka koostuu käsivarresta, jossa on monia "niveliä") ohjaus on hyvä taso, mutta tekstitysten luominen on vain keskinkertaista, kun taas joidenkin Atari-pelien käsittely on heikompaa kuin muiden omistautuneiden pelien. AI mallit. DeepMind toteaa, että 450 tehtävästä (verrattuna niihin 604:ään, joihin hänet koulutettiin) Gato on tarkempi kuin ihmisasiantuntijat "yli puolet ajasta". Hieman sekava tapa sanoa, että yhteensä 604 tehtävästä vähintään 154 tuottaa erittäin huonoja tuloksia, kun taas lopuissa 450:ssä reilu puolet ajasta Gato käyttäytyy paremmin kuin ihmisasiantuntija, mutta toinen puolet ajasta käyttäytyy. huonompi.

Tie yleistämiseen

Näiden viikkojen tulokset ovat tulosta sitoutumisesta, jota DeepMind on tehnyt useiden vuosien ajan. Älkäämme unohtako, että yrityksen tavoitteena on "ratkaista älykkyysongelma", kehittää yhä yleisempiä järjestelmiä, jotka pystyvät ratkaisemaan monenlaisia erilaisia ongelmia. Sitä yritys kutsuu yleiseksi tekoälyksi, ja sinne he haluavat mennä. Viime vuonna otettiin askel tähän suuntaan Vastaanotin, Transformer-arkkitehtuuriin perustuva multimodaalinen malli, joka pystyy käsittelemään erityyppisiä syötteitä, kuten kuvia, tekstiä, videota, ääntä, 3D-dataa. Gaton luojat itse ajattelevat, että Perceiver voisi olla hyödyllinen tulevien yleisten järjestelmien moodien määrän laajentamisessa.

Artikkeli poimittu postista Luca Sambucci, jos haluat lukeakoko viesti klikkaa tästä