Članki

Microsoft je predstavil model AI, ki prepozna slikovno vsebino in odpravi vizualne težave

Novi model AI Kosmos-1 je multimodalen Large Language Model (MLLM), ki se lahko odzovejo ne le na jezikovne namige, ampak tudi na vizualne namige, in se zato bolje odzivajo na seje vprašanj in odgovorov.

Multimodalna umetna inteligenca (MLLM) bi lahko bila ključ do razvoja umetne splošne inteligence, tehnologije, ki bi lahko v prihodnosti nadomestila človeka pri kateri koli intelektualni nalogi ali delu.

Kaj je Kosmos-1

Kosmos-1 je multimodalni model, ki so ga razvili Microsoftovi raziskovalci. Prejšnji ponedeljek je bil predstavljen kot model, ki lahko:

  • preberite vsebino slik,
  • reševanje vizualnih ugank,
  • prepozna besedilo na slikah,
  • dosegli dobre rezultate na testih vizualnega IQ
  • razumeti navodila v naravnem jeziku.

RazvojUmetna inteligenca multimodalnost velja za ključni korak k ustvarjanju umetne splošne inteligence (AGI), ki je sposobna izvajati splošne naloge na ravni človeka.

Jezik ni vse, kar potrebujete: Usklajevanje zaznavanja z jezikovnimi modeli

"Ker je temeljni del inteligence, je multimodalno zaznavanje nujno za doseganje umetne splošne inteligence v smislu pridobivanja znanja in vgradnje v resnični svet," pišejo raziskovalci v svojem akademskem članku, Jezik ni vse, kar potrebujete: Usklajevanje zaznavanja z jezikovnim modelom.

Model Kosmos-1 lahko analizira slike in odgovarja na vprašanja o njih, bere besedilo s slike, piše napise za slike in doseže med 22 in 26 odstotki pri vizualnem IQ testu, kot je prikazano v vizualnih primerih v Kosmos-1 študija.

Glasilo o inovacijah
Ne zamudite najpomembnejših novic o inovacijah. Prijavite se, če jih želite prejemati po e-pošti.

AGI za OpenAI

OpenAI, Microsoftov ključni poslovni partner na področju umetne inteligence, je postavil AGI kot svoj glavni fokus. Zdi se, da je Kosmos-1 ekskluzivna pobuda Microsofta, brez pomoči OpenAI.

BlogInnovazione.it

Glasilo o inovacijah
Ne zamudite najpomembnejših novic o inovacijah. Prijavite se, če jih želite prejemati po e-pošti.

Nedavni članki

Inovativna intervencija v obogateni resničnosti z Apple viewerjem na polikliniki Catania

Operacija oftalmoplastike s komercialnim pregledovalnikom Apple Vision Pro je bila opravljena na polikliniki Catania…

3 maja 2024

Prednosti pobarvank za otroke - svet čarovnije za vse starosti

Razvijanje finih motoričnih spretnosti z barvanjem otroke pripravi na kompleksnejše spretnosti, kot je pisanje. Za barvanje…

2 maja 2024

Prihodnost je tukaj: Kako ladjarska industrija revolucionira svetovno gospodarstvo

Pomorski sektor je prava svetovna gospodarska sila, ki je krmarila proti 150 milijardnemu trgu...

1 maja 2024

Založniki in OpenAI podpisujejo sporazume za urejanje pretoka informacij, ki jih obdeluje umetna inteligenca

Prejšnji ponedeljek je Financial Times objavil dogovor z OpenAI. FT licencira svoje vrhunsko novinarstvo ...

April 30 2024