Informatik

Gato, DeepMind und das Rennen um allgemeine künstliche Intelligenz

Gato ist ein neues multimodales KI-System von DeepMind, das Hunderte verschiedener Aufgaben ausführen kann, wobei immer dasselbe neuronale Netzwerk verwendet wird.

Es gibt diejenigen, die denken, dass der Weg zu Künstliche Intelligenz auf menschlicher Ebene Ist nun nachvollziehbar, ginge es nur noch um die Erhöhung der Rechenressourcen, wer sich stattdessen zurückhält, weil noch viele Anforderungen fehlen würden. Die außergewöhnliche Fähigkeit, sehr unterschiedliche Aufgaben zu bewältigen, macht Gato jedoch zu einem KI-System, das sich von den anderen unterscheidet. Wenn es sich einerseits noch nicht um die allgemeine künstliche Intelligenz handelt, die jeder erwartet, ist es andererseits immer noch ein innovatives System die es schafft, sehr unterschiedliche Daten aus derselben Architektur zu verarbeiten deep learning.

Schließen Sie KI und allgemeine KI 

Bisher war einer der Hauptunterschiede in der komplexen Welt der künstlichen Intelligenz der Unterschied zwischen schwacher KI, auch „enge“ KI genannt, und starker KI, auch „allgemeine“ KI genannt. Es war ein ziemlich einfacher Weg, die Frage der Denkmaschinen sofort zu klären. Narrow AI ist die Art von künstlicher Intelligenz, die nur eine Aufgabe erfüllt, wie z. B. das Planen einer Route, das Bereitstellen relevanter Suchergebnisse oder das Führen eines schriftlichen Gesprächs. Allgemeine KI hingegen ist die Art von künstlicher Intelligenz, die wir in Filmen sehen, die wie ein Mensch denkt, der viele Aufgaben gleichzeitig ausführt und nützliche Synergien zwischen ihnen schafft. Das Akronym für diese menschenähnlichen Maschinen ist AGI, Künstliche allgemeine Intelligenz. Für die meisten Forscher eine theoretisch mögliche Chimäre, die wir aber so schnell nicht erreichen werden.

Allerdings knarrt diese Unterscheidung heute und lässt sich immer weniger einfach erklären. Tatsächlich hat die Forschung in den letzten Jahren auf die Schaffung zunehmend generalistischer Modelle der künstlichen Intelligenz gedrängt, ohne jedoch zur Entdeckung von AGI zu führen. Es schafft also eine Art Mittelweg, wo wir KI-Modelle finden, die in der Lage sind, zahlreiche Aufgaben unterschiedlicher Art zu erfüllen, so sehr, dass sie nicht mehr als "enge" KI bezeichnet werden können, die aber gleichzeitig nicht diese kausale Intelligenz oder dieses Bewusstsein zeigen Viele Experten sollten einem AGI innewohnen.

Multimodale KI

Wir können diese Art von künstlicher Intelligenz "Generalist" oder vielleicht richtiger "multimodal“, da es mehrere Möglichkeiten gibt, damit zu interagieren. Beispielsweise könnte ein multimodales KI-System die Wettervorhersage für unsere Gegend finden (das beste Ergebnis suchen und auswählen), uns sagen, dass es heute regnen wird (natürliche Sprachverarbeitung und Sprachsynthese) und prüfen, ob wir gehen mit oder ohne Regenschirm (Machine Vision). Darüber hinaus ist eines der Hauptmerkmale eines multimodalen Systems das „Einnehmen“ von Daten unterschiedlicher Art – beispielsweise Bilder und Text – und das Wissen, wie aus beiden nützliche Informationen gezogen werden können. Infolgedessen scheint es uns, als hätten wir es mit einer echten Intelligenz zu tun, in Wirklichkeit gibt es nur mehrere KI-Modelle, die "in Batterie" und in Synergie miteinander gesteckt sind.

Der DeepMind-Zoo

In Bezug auf die Forschung zur multimodalen KI hat in den letzten Wochen das Londoner Unternehmen DeepMind, das – wie wir uns erinnern – Teil der Galaxie von ist Google, hat zwei KI-Systeme veröffentlicht, die viel von sich reden gemacht haben. Der erste wird gerufen Flamingo, und ist ein Modell, das in der Lage ist, „multimodale Aufgaben“ zu lösen, d. h. Aufgaben, bei denen eingehende Informationen möglicherweise durch verschiedene Modalitäten wie Bilder, Video und Text übermittelt werden, sogar in Kombination miteinander. Flamingo ist ein visuelles Sprachmodell (VLM), das Klassifikationsinformationen, Bildunterschriftsverwaltung und bildbasierte Frageantworten handhaben kann, während es nur wenige Input-/Output-Beispiele bereitstellt (sogenanntes "Few-Shot-Learning" ").

Der Zweck des Modells besteht darin, die Situation eines Bildes oder Videos zu „verstehen“, es mit seinem Sprachsystem richtig zu beschreiben und Fragen zu dem, was es „sieht“, richtig zu beantworten.

Innovations-Newsletter
Verpassen Sie nicht die wichtigsten Neuigkeiten zum Thema Innovation. Melden Sie sich an, um sie per E-Mail zu erhalten.

Konnektivität und Intelligenz?

Gato ist nicht immer das beste KI-Modell für eine bestimmte Aufgabe. Die Steuerung eines Sawyer-Roboters (es handelt sich um einen Roboter, der aus einem Arm mit vielen "Gelenken" besteht) ist auf einem guten Niveau, aber die Erstellung von Untertiteln ist nur mittelmäßig, während die Handhabung einiger Atari-Spiele weniger als die anderer dedizierter ist KI-Modelle. DeepMind gibt an, dass Gato von 450 Aufgaben (im Vergleich zu den 604, für die er ausgebildet wurde) "mehr als die Hälfte der Zeit" genauer ist als menschliche Experten. Eine etwas verworrene Art zu sagen, dass von insgesamt 604 Aufgaben mindestens 154 sehr schlechte Ergebnisse liefern, während sich Gato in gut der Hälfte der Zeit besser als ein menschlicher Experte verhält als ein menschlicher Experte, aber in der anderen Hälfte der Zeit benimmt er sich schlechter.

Der Weg zur Verallgemeinerung

Die Ergebnisse dieser Wochen sind das Ergebnis eines langjährigen Engagements von DeepMind. Vergessen wir nicht, dass das Ziel des Unternehmens darin besteht, „das Problem der Intelligenz zu lösen“ und immer allgemeinere Systeme zu entwickeln, die in der Lage sind, eine Vielzahl unterschiedlicher Probleme zu lösen. Das nennt das Unternehmen Künstliche allgemeine Intelligenz, und da wollen sie hin. Im vergangenen Jahr wurde ein Schritt in diese Richtung mit gemacht Empfänger, ein multimodales Modell, das auf der Transformer-Architektur basiert und in der Lage ist, verschiedene Arten von Eingaben wie Bilder, Text, Video, Ton und 3D-Daten zu verarbeiten. Die Schöpfer von Gato selbst denken, dass Perceiver nützlich sein könnte, um die Anzahl der Modi zukünftiger allgemeiner Systeme weiter zu erweitern.

Artikel aus der Post von extrahiert Luca Sambucci, wenn Sie die lesen möchtengesamten Beitrag hier klicken 


Innovations-Newsletter
Verpassen Sie nicht die wichtigsten Neuigkeiten zum Thema Innovation. Melden Sie sich an, um sie per E-Mail zu erhalten.

Aktuelle Artikel

Die Vorteile von Malvorlagen für Kinder – eine Welt voller Magie für alle Altersgruppen

Die Entwicklung der Feinmotorik durch Malen bereitet Kinder auf komplexere Fähigkeiten wie das Schreiben vor. Färben…

2. Mai 2024

Die Zukunft ist da: Wie die Schifffahrtsindustrie die Weltwirtschaft revolutioniert

Der Marinesektor ist eine echte globale Wirtschaftsmacht, die auf einen 150-Milliarden-Milliarden-Markt zusteuert...

1. Mai 2024

Verlage und OpenAI unterzeichnen Vereinbarungen zur Regulierung des Informationsflusses, der von künstlicher Intelligenz verarbeitet wird

Letzten Montag gab die Financial Times einen Deal mit OpenAI bekannt. FT lizenziert seinen erstklassigen Journalismus…

30. April 2024

Online-Zahlungen: So zahlen Sie mit Streaming-Diensten ewig

Millionen von Menschen zahlen für Streaming-Dienste monatliche Abonnementgebühren. Es ist eine weitverbreitete Meinung, dass Sie…

29. April 2024