• Open API
  • 文库
  • 字符
  • 转换
  • 加密
  • 网络
  • 更多
    图表
    数学
    坐标
    图片
    文件
  • Open API
    文库
    字符
    转换
    加密
    网络
    更多
    图表
    数学
    坐标
    图片
    文件
logo 在线工具大全

面向智能导购的Agent评测实践

出处: mp.weixin.qq.com

本文提出一套面向家居导购Agent的自动化评估链路:基于结构化多维度(基础/专业/补充指令+用户画像)Benchmark,采用LLM-as-a-judge实现91.9%准确率的自动评分,并通过人工抽样校准;在“放我家”落地后,量化对比发现gpt51最优(总分0.680),较当前线上模型qwen3-vl提升16.4%;核心瓶颈为:无法识别已有家具、抓不住核心需求、推荐过度。

查看原文 2 技术 lddgo 分享于 2026-05-15