• 文库
  • 字符
  • 转换
  • 加密
  • 网络
  • 更多
    图表
    数学
    坐标
    图片
    文件
  • 文库
    字符
    转换
    加密
    网络
    更多
    图表
    数学
    坐标
    图片
    文件
logo 在线工具大全

具身智能与多模态语言模型: GPT4-Vision 地表最强Agent?

出处: mp.weixin.qq.com 作者: PCA-EVAL 团队

来自北大和腾讯的研究者提出PCA-EVAL多模态具身决策智能评测集,通过对比基于多模态模型的端到端决策方法与基于LLM的工具调用方法,观察到GPT4-Vision展示出从多模态感知到行为的出色的端到端决策能力,这为具身智能和视觉语言模型领域开启了新的篇章。

查看原文 6 技术 lddgo 分享于 2023-10-13