大模型时代是人工智能领域的一个重要发展阶段,在当今人工智能研究领域,基于Transformer架构的多模态视觉理解大模型(VLM)在全世界范围内引发了深度的技术关注。多模态视觉理解大模型的主要创新在于将语言和视觉两种模态进行有效的对齐,使其不仅能够进行基本的图像识别,还能执行基于视觉输入的动态内容推理和复杂问题解答。可以应用在房内家具家电识别、涉黄涉爆检测、商家店铺门头识别等多个场景,相比传统模型取得更好的效果。但是由于多模态视觉理解大模型的推理性能比传统模型低,导致整体成本高,严重阻碍了多模态视觉理解大模型的推广。提高多模态视觉理解大模型的推理性能成为研究重点。我们是多模态大模型技术部门,负责多模态大模型相关的模型研发、推理优化和推广的工作。我们在58的多模态视觉理解的项目场景中,对推理框架和模型进行优化,使用多种方法提高多模态视觉理解模型的推理性能。
通信协议是AI Agent加速落地的核心基础设施之一。Anthropic推出的MCP已逐步确立其作为AI Agent连接外部工具的标准协议地位,而Google最新发布的A2A则聚焦于打破智能体协作壁垒,推动跨Agent协同体系的构建。作为AI Agent时代最受关注的两大通信规范,它们的安全性直接关乎AI Agent的安全边界,任何安全问题都可能引发AI Agent被劫持与数据泄露等连锁风险。朱雀实验室系统性的梳理了MCP协议安全缺陷、常见攻击方法与防护建议,并分析了Google最新发布的A2A协议安全特性,为行业构建更安全的AI Agent产品提供参考。
随着 AI 技术的飞速发展,MCP(模型上下文协议) 逐渐崭露头角。这项由 Anthropic 公司(Claude 的创造者)于 2024 年 11 月推出的开放协议,正在重新定义 AI 与数字世界的交互方式。这项开放协议不仅让 AI 突破传统对话边界,更赋予其执行现实任务的能力,堪称人工智能向"行动智能体"进化的里程碑。然而从火热概念到落地业务,MCP 还需要找到云端“好搭档”。
书接上回,林渊盯着监控屏上跳动的QPS 18500,突然发现商品搜索接口的Handler_read_next计数器每秒暴涨百万次。"这是全表扫描的死亡信号!"他抓起对讲机:"立刻降级推荐系统!"技术总监老吴却按住他的手:"活动还有1分钟开始,现在降级等于自杀!"机房突然陷入黑暗——过载的UPS触发了熔断保护。
你是否曾经遇到这样的问题:同一个 React 组件在不同场景下需要呈现完全不同的布局或样式?最近我发现了一种能彻底解决这个问题的组件模式:复合组件(Compound Components)。本文将通过具体实例,带你了解这一革命性的 React 组件模式,并教你如何立即将它应用到自己的项目中。
DRM,即数字版权管理(Digital Rights Management),是指使用加密技术保护视频内容、通过专业技术安全地存储和传输密钥(加密密钥和解密密钥)、并允许内容生产商设置商业规则,限制内容观看者的一种系统。
LangEngine v1.2.1 推出 openmanus-preview 的 Java 版本,由于LangEngine框架前期已经有许多技术积累,openmanus很快能够复刻出来,初步具备从规划到执行全流程自主完成任务的能力,本篇文章将针对功能展开介绍。Monica.im公司推出全球首款自主 AI Agent 产品Manus,引发 AI 行业震动,甚至出现了邀请码一码难求的情况,Manus在 GAIA 基准测试中取得了 SOTA 成绩,其性能超越 OpenAI 的同层次大模型。开源界也实现了类似于 manus 功能的openmanus、owl等开源框架,但是这些框架都是基于 python 语言编写,LangEngine作为纯 java 的 AI 应用开发框架的代表,全新实现了 openmanus 功能,优化规划功能、BrowserUse工具、DeepSearch深度搜索的工具能力。什么是Manus?Manus作为全球首款真正意义上的通用AI Agent,具备从规划到执行全流程自主完成任务的能力,如撰写报告、制作表格等。它不仅生成想法,更能独立思考并采取行动。
最近 GPT-4o 生图模型横空出世,效果和玩法上都有突破性的进展,笔者整理了一下目前相关的技术,抛砖引玉一下,希望有更多大神分享讨论。