面向智能导购的Agent评测实践

出处： mp.weixin.qq.com

本文提出一套面向家居导购Agent的自动化评估链路：基于结构化多维度（基础/专业/补充指令+用户画像）Benchmark，采用LLM-as-a-judge实现91.9%准确率的自动评分，并通过人工抽样校准；在“放我家”落地后，量化对比发现gpt51最优（总分0.680），较当前线上模型qwen3-vl提升16.4%；核心瓶颈为：无法识别已有家具、抓不住核心需求、推荐过度。