품목

마이크로소프트, 이미지 콘텐츠 인식해 시각적 문제 해결하는 AI 모델 공개

AI 코스모스-1의 새로운 모델은 멀티모달(Multimodal)이다. Large Language Model (MLLM)은 언어적 단서뿐만 아니라 시각적 단서에도 반응할 수 있으므로 질의응답 세션에 더 잘 반응합니다.

MLLM(Multimodal Artificial Intelligence)은 미래에 모든 지적 작업이나 작업에서 인간을 대체할 수 있는 기술인 인공 일반 지능 개발의 핵심이 될 수 있습니다.

코스모스-1이란?

Kosmos-1은 Microsoft 연구원이 개발한 다중 모드 모델입니다. 지난 월요일, 다음과 같은 기능을 갖춘 모델로 공개되었습니다.

  • 이미지의 내용을 읽고,
  • 시각적 퍼즐을 풀고,
  • 이미지 속 텍스트 인식,
  • 시각적 IQ 테스트에서 좋은 점수
  • 자연어로 주어진 지시를 이해합니다.

의 개발인공 지능 다중 모드는 일반적인 인간 수준의 작업을 수행할 수 있는 인공 일반 지능(AGI)을 만드는 데 중요한 단계로 간주됩니다.

언어가 필요한 전부는 아닙니다: 인식을 언어 모델과 일치시키기

연구원들은 학술 논문에서 "지능의 근본적인 부분인 다중 모드 인식은 지식 습득 및 실세계 임베딩 측면에서 인공 일반 지능을 달성하는 데 필요합니다."라고 썼습니다. 언어가 필요한 전부는 아닙니다: 인식을 언어 모델과 일치시키기.

Kosmos-1 모델은 이미지를 분석하고 이미지에 대한 질문에 답하고, 이미지에서 텍스트를 읽고, 이미지에 대한 캡션을 작성하고, Kosmos-22의 시각적 예에서 입증된 것과 같이 시각적 IQ 테스트에서 26~1%의 점수를 얻을 수 있습니다. 공부하다.

혁신 뉴스레터
혁신에 관한 가장 중요한 뉴스를 놓치지 마세요. 이메일로 받으려면 가입하세요.

OpenAI용 AGI

Microsoft의 인공 지능 핵심 비즈니스 파트너인 OpenAI는 AGI를 주요 초점으로 설정했습니다. Kosmos-1은 OpenAI의 도움 없이 Microsoft의 독점 이니셔티브로 보입니다.

BlogInnovazione.it

혁신 뉴스레터
혁신에 관한 가장 중요한 뉴스를 놓치지 마세요. 이메일로 받으려면 가입하세요.

최근 기사

미래가 여기에 있습니다: 해운 산업이 글로벌 경제를 어떻게 혁신하고 있습니까?

해군 부문은 150억 시장을 향해 항해해온 진정한 글로벌 경제강국입니다.

1 월 2024

출판사와 OpenAI, 인공지능이 처리하는 정보의 흐름을 규제하기 위한 계약 체결

지난 월요일, Financial Times는 OpenAI와의 계약을 발표했습니다. FT는 세계적 수준의 저널리즘에 라이선스를 부여합니다…

4월 30 2024

온라인 결제: 스트리밍 서비스를 통해 영원히 결제하는 방법은 다음과 같습니다.

수백만 명의 사람들이 스트리밍 서비스 비용을 지불하고 월간 구독료를 지불합니다. 당신은…

4월 29 2024

Veeam은 보호부터 대응, 복구까지 랜섬웨어에 대한 가장 포괄적인 지원을 제공합니다.

Coveware by Veeam은 계속해서 사이버 강탈 사건 대응 서비스를 제공할 것입니다. Coveware는 법의학 및 교정 기능을 제공할 것입니다…

4월 23 2024