Artiklar

Microsoft presenterade en AI-modell som känner igen bildinnehåll och fixar visuella problem

Den nya modellen av AI Kosmos-1 är en multimodal Large Language Model (MLLM), kan svara inte bara på språkliga ledtrådar, utan också på visuella ledtrådar, och svarar därför bättre på fråge-och-svar-sessioner.

Multimodal artificiell intelligens (MLLM) kan vara nyckeln till utvecklingen av artificiell allmän intelligens, en teknik som i framtiden kan ersätta människor i vilken intellektuell uppgift eller arbete som helst.

Vad är Kosmos-1

Kosmos-1 är en multimodal modell utvecklad av Microsofts forskare. I måndags presenterades den som en modell som kan:

läs innehållet i bilderna,
lösa visuella pussel,
känna igen text i bilder,
får bra resultat på visuella IQ-tester
förstå instruktioner som ges på naturligt språk.

Utvecklingen avArtificiell intelligens multimodal ses som ett avgörande steg mot att skapa en artificiell allmän intelligens (AGI) som kan utföra allmänna uppgifter på mänsklig nivå.

Språk är inte allt du behöver: anpassa perception med språkmodeller

"Som en grundläggande del av intelligens är multimodal perception en nödvändighet för att uppnå artificiell allmän intelligens, när det gäller kunskapsinhämtning och inbäddning i den verkliga världen", skriver forskarna i sin akademiska uppsats, Språk är inte allt du behöver: anpassa perception med språkmodell.

Kosmos-1-modellen kan analysera bilder och svara på frågor om dem, läsa text från en bild, skriva bildtexter för bilder och få mellan 22 och 26 procent på ett visuellt IQ-test, som visas i de visuella exemplen i Kosmos-1 studie.

AGI för OpenAI

OpenAI, Microsofts viktigaste affärspartner inom artificiell intelligens, har satt AGI som sitt primära fokus. Kosmos-1 verkar vara ett exklusivt initiativ från Microsoft, utan hjälp av OpenAI.

BlogInnovazione.it