Informatika

Gato, DeepMind dan perlombaan menuju kecerdasan buatan umum

Gato adalah sistem AI multimodal baru dari DeepMind yang mampu melakukan ratusan tugas berbeda selalu menggunakan jaringan saraf yang sama.

Ada orang yang berpikir bahwa cara untuk kecerdasan buatan tingkat manusia ditelusuri, sekarang tinggal menambah sumber daya komputasi, yang malah menahan karena banyak kebutuhan yang masih akan hilang. Namun, kemampuan luar biasa untuk mengelola tugas yang sangat berbeda membuat Gato sistem AI berbeda dari yang lain, yang jika di satu sisi belum menjadi kecerdasan buatan umum yang diharapkan semua orang, di sisi lain masih merupakan sistem inovatif untuk jalan. yang mengelola untuk memproses data yang sangat berbeda dari arsitektur yang sama deep learning.

Tutup AI dan AI umum

Sejauh ini salah satu perbedaan utama dalam dunia kecerdasan buatan yang kompleks adalah perbedaan antara AI yang lemah, yang juga disebut AI "sempit", dan AI yang kuat, yang juga disebut AI "umum". Itu adalah cara yang cukup sederhana untuk menyelesaikan pertanyaan tentang mesin berpikir dengan segera. AI sempit adalah jenis kecerdasan buatan yang hanya melakukan satu tugas, seperti merencanakan rute, memberikan hasil pencarian yang relevan, atau melakukan percakapan tertulis. AI Umum, di sisi lain, adalah jenis kecerdasan buatan yang kita lihat di film, yang berpikir seperti manusia, yang melakukan banyak tugas secara bersamaan menciptakan sinergi yang bermanfaat di antara mereka. Singkatan dari mesin mirip manusia ini adalah AGI, Kecerdasan Umum Buatan. Bagi sebagian besar peneliti, sebuah angan-angan yang secara teoritis mungkin tetapi tidak akan kita capai dalam waktu dekat.

Namun, perbedaan ini hari ini berderit dan mulai semakin tidak sederhana untuk dijelaskan. Faktanya, dalam beberapa tahun terakhir penelitian telah mendorong penciptaan model kecerdasan buatan yang semakin umum, tanpa mengarah pada penemuan AGI. Oleh karena itu menciptakan semacam jalan tengah, di mana kami menemukan model AI yang mampu melakukan banyak tugas dengan sifat yang berbeda, sedemikian rupa sehingga mereka tidak lagi dapat digambarkan sebagai AI "sempit", tetapi pada saat yang sama tidak menunjukkan kecerdasan kausal atau kesadaran bahwa untuk banyak ahli harus melekat dalam AGI.

AI multimoda

Kita bisa menyebut jenis kecerdasan buatan ini "generalis" atau mungkin lebih tepat "multimoda”, Karena ada beberapa cara untuk berinteraksi dengannya. Sebagai contoh, sistem AI multimodal akan dapat menemukan prakiraan cuaca untuk wilayah kita (cari dan pilih hasil terbaik), beri tahu kami bahwa hari ini akan hujan (pemrosesan bahasa alami dan sintesis ucapan) dan periksa apakah kita akan pergi keluar dengan atau tanpa payung (penglihatan mesin). Selain itu, salah satu karakteristik utama dari sistem multimodal adalah "menelan" data dari berbagai jenis - misalnya gambar dan teks - mengetahui cara menarik informasi yang berguna dari keduanya. Akibatnya akan tampak bagi kita bahwa kita sedang berhadapan dengan kecerdasan nyata, pada kenyataannya hanya ada beberapa model AI yang "dipasang" dan bersinergi satu sama lain.

Kebun Binatang DeepMind

Mengenai penelitian terhadap AI multimodal, dalam beberapa minggu terakhir perusahaan London DeepMind, yang - kita ingat - adalah bagian dari galaksi Google, telah merilis dua sistem AI yang telah membuat banyak pembicaraan tentang diri mereka sendiri. Yang pertama disebut Flamingo, dan merupakan model yang mampu menyelesaikan "tugas multimodal", yaitu tugas yang mungkin memiliki informasi masuk yang disampaikan melalui modalitas yang berbeda, seperti gambar, video dan teks, bahkan dalam kombinasi satu sama lain. Flamingo adalah model bahasa visual (VLM) yang dapat menangani informasi klasifikasi, manajemen teks, jawaban pertanyaan berbasis gambar, semua sambil memberikan hanya beberapa sampel input / output (disebut "belajar sedikit" ").

Tujuan dari model adalah untuk “memahami” situasi suatu gambar atau video, menggambarkannya secara benar dengan sistem linguistiknya dan dengan benar menjawab pertanyaan yang berkaitan dengan apa yang “dilihatnya”.

Konektivisme dan kecerdasan?

Gato tidak selalu menjadi model AI terbaik untuk tugas tertentu. Kontrol robot Sawyer (robot yang terdiri dari lengan dengan banyak "sendi") memiliki standar yang baik, tetapi pembuatan teks hanya biasa-biasa saja, sementara penanganan beberapa game Atari kurang dari yang lain yang didedikasikan model AI. DeepMind menyatakan bahwa dari 450 tugas (dibandingkan dengan 604 tugas yang dilatihnya) Gato lebih akurat daripada ahli manusia "lebih dari separuh waktu". Cara yang agak berbelit-belit untuk mengatakan bahwa dari total 604 tugas, setidaknya 154 memberikan hasil yang sangat buruk, sementara di 450 sisanya, separuh waktu Gato berperilaku lebih baik daripada seorang ahli manusia, tetapi separuh lainnya berperilaku lebih buruk.

Jalan menuju generalisasi

Hasil dari minggu-minggu ini adalah hasil dari komitmen yang telah dilakukan DeepMind selama bertahun-tahun. Jangan lupa bahwa tujuan perusahaan adalah untuk "memecahkan masalah intelijen", mengembangkan sistem yang lebih umum yang mampu menangani berbagai masalah yang berbeda. Itulah yang perusahaan sebut kecerdasan umum buatan, dan ke sanalah mereka ingin pergi. Tahun lalu langkah ke arah ini diambil dengan penerima, model multimodal berdasarkan arsitektur Transformer yang mampu menangani berbagai jenis input, seperti gambar, teks, video, suara, data 3D. Pencipta Gato sendiri berpikir bahwa Perceiver dapat berguna untuk lebih memperluas jumlah mode sistem umum masa depan.

Artikel diambil dari Post of Luca Sambucci, jika Anda ingin membacaseluruh postingan klik disini