komputer

Gato, DeepMind dan perlumbaan ke arah kecerdasan buatan am

Gato ialah sistem AI multimodal baharu daripada DeepMind yang mampu melaksanakan beratus-ratus tugas berbeza sentiasa menggunakan rangkaian saraf yang sama.

Ada yang berpendapat bahawa cara untuk kecerdasan buatan peringkat manusia kini dipetakan, kini ia hanya akan menjadi persoalan meningkatkan sumber pengiraan, manakala yang lain semakin perlahan kerana banyak keperluan masih akan hilang. Walau bagaimanapun, keupayaan luar biasa untuk menguruskan tugas yang sangat berbeza menjadikan Gato sistem AI berbeza daripada yang lain, yang jika di satu pihak belum menjadi kecerdasan buatan umum yang semua orang jangkakan, di sisi lain ia masih merupakan sistem yang inovatif untuk caranya. yang berjaya memproses data yang sangat berbeza daripada seni bina yang sama seperti deep learning.

Tutup AI dan AI am

Setakat ini salah satu perbezaan utama dalam dunia kecerdasan buatan yang kompleks ialah perbezaan antara AI yang lemah, juga dipanggil AI "sempit", dan AI yang kuat, juga dipanggil AI "umum". Ia adalah cara yang agak mudah untuk menyelesaikan persoalan mesin berfikir dengan segera. AI sempit ialah jenis kecerdasan buatan yang hanya melaksanakan satu tugas, seperti merancang laluan, menyediakan hasil carian yang berkaitan atau mengadakan perbualan bertulis. General AI, sebaliknya, ialah jenis kecerdasan buatan yang kita lihat dalam filem, yang berfikir seperti manusia, yang melakukan banyak tugas serentak, mewujudkan sinergi yang berguna di antara mereka. Singkatan untuk mesin seperti manusia ini ialah AGI, Kecerdasan Am Buatan. Bagi kebanyakan penyelidik, chimera yang secara teorinya mungkin tetapi tidak akan kami capai dalam masa terdekat.

Walau bagaimanapun, perbezaan ini hari ini berderit dan mula menjadi semakin kurang mudah untuk dijelaskan. Malah, dalam beberapa tahun kebelakangan ini penyelidikan telah mendorong ke arah penciptaan model kecerdasan buatan yang semakin umum, tanpa membawa kepada penemuan AGI. Oleh itu ia mencipta sejenis jalan tengah, di mana kita dapati model AI yang mampu melaksanakan pelbagai tugas yang berbeza sifatnya, sehingga tidak lagi boleh digambarkan sebagai AI "sempit", tetapi yang pada masa yang sama tidak menunjukkan kecerdasan sebab akibat atau kesedaran bahawa untuk ramai pakar harus wujud dalam AGI.

AI multimodal

Kita boleh memanggil jenis kecerdasan buatan ini "generalis" atau mungkin lebih tepat "multimodal”, Memandangkan terdapat beberapa cara untuk berinteraksi dengannya. Sebagai contoh, sistem AI multimodal akan dapat mencari ramalan cuaca untuk kawasan kami (cari dan pilih hasil terbaik), beritahu kami bahawa hari ini akan hujan (pemprosesan bahasa semula jadi dan sintesis pertuturan) dan semak sama ada kami akan pergi. keluar dengan atau tanpa payung (penglihatan mesin). Tambahan pula, salah satu ciri utama sistem multimodal ialah "menelan" data pelbagai jenis - contohnya imej dan teks - mengetahui cara menarik maklumat berguna daripada kedua-duanya. Akibatnya, nampaknya kita sedang berhadapan dengan kecerdasan sebenar, pada hakikatnya hanya terdapat beberapa model AI yang diletakkan "dalam bateri" dan bersinergi antara satu sama lain.

Zoo DeepMind

Berkenaan dengan penyelidikan ke arah AI multimodal, dalam beberapa minggu kebelakangan ini syarikat London DeepMind, yang - kita ingat - adalah sebahagian daripada galaksi Google, telah mengeluarkan dua sistem AI yang telah banyak bercakap tentang diri mereka sendiri. Yang pertama dipanggil Flamingo, dan ia adalah model yang mampu menyelesaikan "tugas multimodal", iaitu tugas yang boleh menyampaikan maklumat masuk melalui modaliti yang berbeza, seperti imej, video dan teks, walaupun dalam kombinasi antara satu sama lain. Flamingo ialah model bahasa visual (VLM) yang boleh mengendalikan maklumat klasifikasi, pengurusan kapsyen, jawapan soalan berasaskan imej, semuanya sambil menyediakan hanya beberapa sampel input / output (yang dipanggil "pembelajaran beberapa pukulan" ").

Tujuan model adalah untuk "memahami" situasi imej atau video, menerangkannya dengan betul dengan sistem linguistiknya dan menjawab soalan yang berkaitan dengan apa yang "dilihat" dengan betul.

Konektivisme dan kecerdasan?

Gato tidak selalunya model AI terbaik untuk tugasan tertentu. Kawalan robot Sawyer (ia adalah robot yang terdiri daripada lengan dengan banyak "sendi") adalah standard yang baik, tetapi penciptaan kapsyen hanya biasa-biasa sahaja, manakala pengendalian beberapa permainan Atari adalah kurang daripada permainan lain yang didedikasikan model AI. DeepMind menyatakan bahawa daripada 450 tugasan (berbanding dengan 604 tugasan yang dilatihnya) Gato adalah lebih tepat daripada pakar manusia "lebih separuh masa". Cara yang agak berbelit-belit untuk mengatakan bahawa daripada sejumlah 604 tugasan, sekurang-kurangnya 154 mengembalikan hasil yang sangat buruk, manakala dalam baki 450, separuh masa yang baik Gato berkelakuan lebih baik daripada seorang pakar manusia, tetapi separuh lagi masa ia berkelakuan. lebih teruk.

Jalan ke generalisasi

Keputusan minggu-minggu ini adalah hasil komitmen yang telah dijalankan oleh DeepMind selama bertahun-tahun. Jangan lupa bahawa matlamat syarikat adalah untuk "menyelesaikan masalah kecerdasan", membangunkan sistem yang lebih umum yang mampu menangani pelbagai masalah yang berbeza. Itulah yang syarikat panggil Kecerdasan am Buatan, dan ke sanalah mereka mahu pergi. Tahun lepas satu langkah ke arah ini telah diambil dengan Penerima, model multimodal berdasarkan seni bina Transformer yang mampu mengendalikan pelbagai jenis input, seperti imej, teks, video, bunyi, data 3D. Pencipta Gato sendiri berpendapat bahawa Perceiver boleh berguna untuk mengembangkan lagi bilangan mod sistem am masa hadapan.

Artikel dipetik daripada Post of Luca Sambucci, jika anda ingin membacakeseluruhan siaran klik di sini