• ARTICLE
  • STRING
  • CONVERTER
  • ENCRYPT
  • NETWORK
  • MORE
    CHART
    MATH
    COORDINATE
    IMAGE
    FILE
    OPEN API
  • ARTICLE
    STRING
    CONVERTER
    ENCRYPT
    NETWORK
    MORE
    CHART
    MATH
    COORDINATE
    IMAGE
    FILE
    OPEN API
logo Online Tools

面向智能导购的Agent评测实践

Source : mp.weixin.qq.com

本文提出一套面向家居导购Agent的自动化评估链路:基于结构化多维度(基础/专业/补充指令+用户画像)Benchmark,采用LLM-as-a-judge实现91.9%准确率的自动评分,并通过人工抽样校准;在“放我家”落地后,量化对比发现gpt51最优(总分0.680),较当前线上模型qwen3-vl提升16.4%;核心瓶颈为:无法识别已有家具、抓不住核心需求、推荐过度。

View 2 Technology lddgo Shared on 2026-05-15