Artikler

Microsoft avduket en AI-modell som gjenkjenner bildeinnhold og løser visuelle problemer

Den nye modellen av AI Kosmos-1 er en multimodal Large Language Model (MLLM), i stand til å svare ikke bare på språklige signaler, men også på visuelle signaler, og reagerer derfor bedre på spørsmål-og-svar-økter.

Multimodal kunstig intelligens (MLLM) kan være nøkkelen til utviklingen av kunstig generell intelligens, en teknologi som i fremtiden kan erstatte mennesker i enhver intellektuell oppgave eller arbeid.

Hva er Kosmos-1

Kosmos-1 er en multimodal modell utviklet av Microsoft-forskere. Sist mandag ble den avduket som en modell som kan:

les innholdet i bildene,
løse visuelle gåter,
gjenkjenne tekst i bilder,
score godt på visuelle IQ-tester
forstå instruksjoner gitt på naturlig språk.

Utviklingen avKunstig intelligens multimodal blir sett på som et avgjørende skritt mot å skape en kunstig generell intelligens (AGI) som er i stand til å utføre generelle oppgaver på menneskelig nivå.

Språk er ikke alt du trenger: samkjøre persepsjon med språkmodeller

"Som en grunnleggende del av intelligens, er multimodal persepsjon en nødvendighet for å oppnå kunstig generell intelligens, når det gjelder kunnskapsinnhenting og innbygging i den virkelige verden," skriver forskerne i sin akademiske artikkel, Språk er ikke alt du trenger: samkjøre persepsjon med språkmodell.

Kosmos-1-modellen kan analysere bilder og svare på spørsmål om dem, lese tekst fra et bilde, skrive bildetekster for bilder og score mellom 22 og 26 prosent på en visuell IQ-test, som vist i de visuelle eksemplene i Kosmos-1 studere.

AGI for OpenAI

OpenAI, Microsofts viktigste forretningspartner innen kunstig intelligens, har satt AGI som sitt primære fokus. Kosmos-1 ser ut til å være et eksklusivt initiativ fra Microsoft, uten hjelp fra OpenAI.

BlogInnovazione.it