本文作者主要阐述为什么大家认为 Agent 模式会在 2025 年开始爆发,我们有了哪些进步,我们又面临了哪些挑战。
在模型轻量化领域,量化是一种用于减少神经网络模型大小和计算量的技术,将模型参数(权重)或中间变量(激励)从高精度类型(FP32, FP16, BF16等)转换为低精度类型(int8, int4, fp8等)。 而近年来随着Transformer,MoE等架构的提出和大模型的兴起,使得神经网络模型能轻松突破几十亿甚至上万亿的规模参数,因此,我们需要一些适应于大模型的压缩技术,来降低模型的部署成本,并提升模型的推理效率。 从最初的GPTQ、AWQ等weight-only的量化算法开始,到现在LLM从训练、推理、轻量化、Agent等所有赛道都卷到飞起的时代,基于大模型的特性,在两年多时间里业内已有很多新的量化算法。
RTP-LLM是阿里巴巴智能引擎团队自研的大模型推理加速引擎,作为一个高性能的大模型推理解决方案,已在阿里内部众多LLM场景中得到实际应用与检验。本文探讨与分析了大模型推理引擎中P-D分离技术的意义与优势,并提出了项目自己的方案。
Istio 在 GKE 上的无缝 TLS 体验:使用自定义 Admission Controller 自动签发证书
大模型时代是人工智能领域的一个重要发展阶段,在当今人工智能研究领域,基于Transformer架构的多模态视觉理解大模型(VLM)在全世界范围内引发了深度的技术关注。多模态视觉理解大模型的主要创新在于将语言和视觉两种模态进行有效的对齐,使其不仅能够进行基本的图像识别,还能执行基于视觉输入的动态内容推理和复杂问题解答。可以应用在房内家具家电识别、涉黄涉爆检测、商家店铺门头识别等多个场景,相比传统模型取得更好的效果。但是由于多模态视觉理解大模型的推理性能比传统模型低,导致整体成本高,严重阻碍了多模态视觉理解大模型的推广。提高多模态视觉理解大模型的推理性能成为研究重点。我们是多模态大模型技术部门,负责多模态大模型相关的模型研发、推理优化和推广的工作。我们在58的多模态视觉理解的项目场景中,对推理框架和模型进行优化,使用多种方法提高多模态视觉理解模型的推理性能。
通信协议是AI Agent加速落地的核心基础设施之一。Anthropic推出的MCP已逐步确立其作为AI Agent连接外部工具的标准协议地位,而Google最新发布的A2A则聚焦于打破智能体协作壁垒,推动跨Agent协同体系的构建。作为AI Agent时代最受关注的两大通信规范,它们的安全性直接关乎AI Agent的安全边界,任何安全问题都可能引发AI Agent被劫持与数据泄露等连锁风险。朱雀实验室系统性的梳理了MCP协议安全缺陷、常见攻击方法与防护建议,并分析了Google最新发布的A2A协议安全特性,为行业构建更安全的AI Agent产品提供参考。
随着 AI 技术的飞速发展,MCP(模型上下文协议) 逐渐崭露头角。这项由 Anthropic 公司(Claude 的创造者)于 2024 年 11 月推出的开放协议,正在重新定义 AI 与数字世界的交互方式。这项开放协议不仅让 AI 突破传统对话边界,更赋予其执行现实任务的能力,堪称人工智能向"行动智能体"进化的里程碑。然而从火热概念到落地业务,MCP 还需要找到云端“好搭档”。
书接上回,林渊盯着监控屏上跳动的QPS 18500,突然发现商品搜索接口的Handler_read_next计数器每秒暴涨百万次。"这是全表扫描的死亡信号!"他抓起对讲机:"立刻降级推荐系统!"技术总监老吴却按住他的手:"活动还有1分钟开始,现在降级等于自杀!"机房突然陷入黑暗——过载的UPS触发了熔断保护。
你是否曾经遇到这样的问题:同一个 React 组件在不同场景下需要呈现完全不同的布局或样式?最近我发现了一种能彻底解决这个问题的组件模式:复合组件(Compound Components)。本文将通过具体实例,带你了解这一革命性的 React 组件模式,并教你如何立即将它应用到自己的项目中。