İnformatika

Gato, DeepMind və ümumi süni intellektə doğru yarış

Gato, həmişə eyni neyron şəbəkəsindən istifadə edərək yüzlərlə müxtəlif işi yerinə yetirməyə qadir olan DeepMind-dən yeni multimodal süni intellekt sistemidir.

Bunun yolunu düşünənlər var insan səviyyəsində süni intellekt indi planlaşdırılmışdır, indi söhbət yalnız hesablama resurslarının artırılmasından gedir, digərləri isə yavaşlayır, çünki bir çox tələblər hələ də çatışmır. Bununla belə, çox fərqli tapşırıqları idarə etmək üçün fövqəladə qabiliyyəti Gatonu digərlərindən fərqli bir AI sistemi edir, əgər bir tərəfdən hələ hər kəsin gözlədiyi ümumi süni intellekt deyilsə, digər tərəfdən bu, hələ də öz işini yerinə yetirmək üçün innovativ bir sistemdir. kimi eyni arxitekturadan çox fərqli məlumatları emal etməyi bacarır deep learning.

AI və ümumi AI-ni bağlayın

İndiyədək süni intellektin mürəkkəb dünyasındakı əsas fərqlərdən biri “dar” süni intellekt adlanan zəif AI ilə “ümumi” süni intellekt adlanan güclü AI arasındakı fərqdir. Düşüncə maşınları məsələsini dərhal həll etmək üçün kifayət qədər sadə bir yol idi. Dar süni intellekt marşrutun planlaşdırılması, müvafiq axtarış nəticələrinin təqdim edilməsi və ya yazılı söhbət kimi yalnız bir tapşırığı yerinə yetirən süni intellekt növüdür. Ümumi süni intellekt isə filmlərdə gördüyümüz, insan kimi düşünən, eyni vaxtda bir çox işi yerinə yetirən, onlar arasında faydalı sinerji yaradan süni intellekt növüdür. Bu insana bənzər maşınların qısaltması AGI-dir, Süni Ümumi İntellekt. Əksər tədqiqatçılar üçün nəzəri cəhətdən mümkün olan, lakin tezliklə çatmayacağımız bir kimera.

Ancaq bu gün bu fərq xırdalanır və izah etmək getdikcə daha az sadə olmağa başlayır. Əslində, son illərdə tədqiqatlar AGI-nin kəşfinə gətirib çıxarmadan, getdikcə daha çox ümumiləşdirilən süni intellekt modellərinin yaradılmasına təkan verdi. Buna görə də yaradır bir növ orta yer, burada biz fərqli xarakterli çoxsaylı tapşırıqları yerinə yetirə bilən AI modellərini tapırıq, o qədər ki, onları artıq "dar" AI kimi təsvir etmək mümkün deyil, lakin eyni zamanda bu səbəb-nəticə zəkasını və ya şüurunu göstərmir. bir çox mütəxəssis AGI-yə xas olmalıdır.

Multimodal AI

Bu tip süni intellektə “generalist” və ya daha doğrusu deyə bilərik”.multimodal” Çünki onunla qarşılıqlı əlaqə qurmağın bir neçə yolu var. Məsələn, multimodal süni intellekt sistemi ərazimiz üçün hava proqnozunu tapa bilər (axtarın və ən yaxşı nəticəni seçin), bizə bu gün yağış yağacağını söyləyin (təbii dilin işlənməsi və nitq sintezi) və getdiyimizi yoxlaya bilər. çətirli və ya çətirsiz (maşın görmə). Bundan əlavə, multimodal sistemin əsas xüsusiyyətlərindən biri, hər ikisindən faydalı məlumatı necə çıxarmağı bilmək kimi müxtəlif növ məlumatların – məsələn, şəkillər və mətnlərin “udulması”dır. Nəticədə, bizə elə gələcək ki, biz əsl intellektlə məşğuluq, əslində “batareyaya” qoyulmuş və bir-biri ilə sinerji olan bir neçə AI modeli var.

DeepMind Zooparkı

Multimodal süni intellektlə bağlı araşdırmalara gəlincə, son həftələrdə London şirkəti DeepMind, xatırlayırıq ki, bu qalaktikanın bir hissəsidir. google, özləri haqqında çox danışan iki AI sistemini buraxdı. Birincisi deyilir Qızılqaz, və "multimodal tapşırıqları", yəni şəkillər, video və mətn kimi müxtəlif üsullarla, hətta bir-biri ilə kombinasiyada ötürülən daxil olan məlumatlara malik ola bilən tapşırıqları həll edə bilən modeldir. Flamingo vizual dil modelidir (VLM), təsnifat məlumatlarını, başlıqların idarə edilməsini, təsvirə əsaslanan sual cavablarını, bütün bunlarla yanaşı, yalnız bir neçə giriş/çıxış nümunəsini ("bir neçə vuruşla öyrənmə" adlanır) təmin edir.

Modelin məqsədi şəkil və ya videonun vəziyyətini “başa düşmək”, onu dil sistemi ilə düzgün təsvir etmək və “gördükləri” ilə bağlı suallara düzgün cavab verməkdir.

Konnektivizm və zəka?

Gato həmişə müəyyən bir tapşırıq üçün ən yaxşı AI modeli deyil. Sawyer robotunun (bu, çoxlu "oynaqları" olan qoldan ibarət robotdur) idarəetməsi yaxşı standartdır, lakin başlıqların yaradılması sadəcə orta səviyyədədir, bəzi Atari oyunlarının idarə edilməsi isə digərlərinə nisbətən daha azdır. AI modelləri. DeepMind bildirir ki, 450 tapşırıqdan (öyrəndiyi 604 tapşırıqla müqayisədə) Qato insan ekspertlərindən "vaxtın yarısından çoxu" daha dəqiqdir. Cəmi 604 tapşırığın ən azı 154-ü çox pis nəticələr verir, qalan 450-də isə Qato vaxtın yaxşı yarısında insan mütəxəssisdən daha yaxşı davranır, lakin digər yarısı da özünü göstərir. daha pis.

Ümumiləşdirməyə gedən yol

Bu həftələrin nəticələri DeepMind-in uzun illərdir yerinə yetirdiyi öhdəliyin nəticəsidir. Unutmayaq ki, şirkətin məqsədi “kəşfiyyat problemini həll etmək”, müxtəlif problemlərin geniş spektrini həll etməyə qadir olan getdikcə daha ümumi sistemlər inkişaf etdirməkdir. Şirkətin Süni ümumi intellekt adlandırdığı şey budur və getmək istədikləri yer budur. Keçən il ilə bu istiqamətdə bir addım atıldı Qəbul edən, Transformer arxitekturasına əsaslanan multimodal model, şəkillər, mətn, video, səs, 3D məlumat kimi müxtəlif növ girişləri idarə edə bilir. Qatonun yaradıcıları düşünürlər ki, Perceiver gələcək ümumi sistemlərin rejimlərinin sayını daha da genişləndirmək üçün faydalı ola bilər.

Məqalə Postundan götürülmüşdür Luca Sambucci, oxumaq istəyirsinizsəbütün yazı bura klikləyin