具身智能与多模态语言模型: GPT4-Vision 地表最强Agent？

出处： mp.weixin.qq.com 作者： PCA-EVAL 团队

来自北大和腾讯的研究者提出PCA-EVAL多模态具身决策智能评测集，通过对比基于多模态模型的端到端决策方法与基于LLM的工具调用方法，观察到GPT4-Vision展示出从多模态感知到行为的出色的端到端决策能力，这为具身智能和视觉语言模型领域开启了新的篇章。

查看原文

156 技术 lddgo 分享于 2023-10-13