在一个生产环境中,服务节点通常暴露了成百上千个 HTTP 接口对外提供服务。为了保证系统的稳定性,核心 HTTP 接口往往需要配置限流规则。给 HTTP 接口配置限流,可以防止突发或恶意的高并发请求耗尽服务器资源(如 CPU、内存、数据库连接等),从而避免服务崩溃或引发雪崩效应。
在人工智能技术快速演进的时代,大型语言模型和AI智能体已成为各类应用的核心组件,引发AI相关API流量的指数级增长。而大模型网关,正是这场变革中应运而生的智能交通枢纽。 随着DeepSeek、Qwen等开源模型及各类商用大模型的普及,企业AI应用场景日益丰富,从智能客服自动化到代码生成与软件开发,从金融法律分析到内容生成引擎,AI正深度融入企业核心业务流程。 这种深度融合使得企业不仅使用SaaS化的LLM服务,更在私有化环境中微调、部署LLM模型,形成混合云架构,随之带来了多LLM适配管理、成本失控、数据安全和可靠性保障等系列挑战。
随着企业数字化转型加速推进,大数据业务规模呈现指数级增长,迭代变更越发频繁。此背景下,呈现"高频变更"与"超大规模"并存的特征,这种双重特性给大数据任务的发布变更带来了严峻挑战。
AI编程工具正在重塑开发流程,但真正的价值不在于替代开发者,而在于构建人机协作的新型开发范式。Claude Code通过精准对话流设计、模块化任务分解和专业化子代理协作,在提升开发效率的同时,也面临着上下文管理、协作边界和质量控制等实际挑战。 作为一线开发者,我们每天都在与复杂的业务逻辑和不断迭代的技术栈打交道。不知道你是否也遇到过这些场景:刚理清一个复杂业务流程,被打断后又得重新梳理思路;接手一个老项目,花了半天还没搞懂其中某个模块的设计思路;或者在不同项目间切换时,总要重新适应不同的编码规范和架构风格。
得物社区推荐的实践中,我们发现用户兴趣容易收敛到少数几个主兴趣上,难以做到有效的兴趣拓展,通过将大模型与推荐结合的方式,在得物社区的用户兴趣拓展方向上切实取得了突破,拿到了显著的业务收益并推全上线。因此我们将相关工作中采用的核心算法与模型策略总结整理,投稿了AAAI-PerFM,入选了长论文《Enhancing Serendipity Recommendation System by Constructing Dynamic User Knowledge Graphs with Large Language Models》。AAAI Conference on Artificial Intelligence)由人工智能促进会(AAAI)主办,是人工智能领域历史最悠久的国际学术会议之一。以下内容为正文的详细介绍。
得物经过10年发展,计算任务已超10万+,数据已经超200+PB,为了降低成本,计算引擎和存储资源需要从云平台迁移到得物自建平台,计算引擎从云平台Spark迁移到自建Apache Spark集群、存储从ODPS迁移到OSS。 在迁移时,最关键的一点是需要保证迁移前后数据的一致性,同时为了更加高效地完成迁移工作(目前计算任务已超10万+,手动比数已是不可能),因此比数平台便应运而生。
随着得物App各业务功能的丰富和升级,得物App内可供用户体验的内容和活动逐步增多,在用户App内体验时长不断增长的大背景下,App使用过程中的体验问题变得愈发重要。同时,在整个功能研发流程中,App端的测试时间相对有限,对于App上的各种场景的体验问题无法实现完全的覆盖,传统的UI自动化回归无法全面满足应用质量保障的需求。特别是在涉及页面交互和用户体验等较为主观的问题时,往往只能依赖于测试人员手动体验相关场景来进行质量保障,整体测试效率较低。 前段时间,我们结合内部的前端页面巡检平台,实现了对App上核心场景和玩法的日常巡检执行能力,对于基础的页面展示问题检查、交互事件检测和图片相似检测等问题已经初步具备有效的检测能力。针对应用体验类问题在传统自动化方式下的检测难题,我们结合AI模型在内部场景应用的经验,开始尝试在App上利用大型模型的分析能力进行巡检,并最终实现得物App智能巡检的应用落地。相较于传统的App质量保障方式,App智能巡检在帮助业务排查应用体验类问题有着极大的优势。
在得物(Poizon)业务场景中,算法生态已演进为涵盖交易搜索、社区推荐、图像识别及广告策略的多维复杂系统。请求从Java网关下发,进入 C++ 构建的高性能算法核心(DSearch检索、DGraph图计算、DFeature特征提取等)。 随着系统复杂度的指数级增长,我们对现有系统的可观测性进行了全面梳理,为了提高稳定性,我们希望建设一个业务场景维度全链路变更事件中心,以“聚焦做好可观测性”为核心目标,通过建设监控平台的事件中心与全链路可观测的核心产品,整合各平台资源与数据,提升系统的整体透明度和稳定性,从而提升业务稳定性和故障止血效率,为产品迭代奠定坚实的基础。
随着公司业务的快速发展,前端平台作为研发职能部门,在高效支撑业务迭代的同时,前端新建的应用不断增加,截止到2023年5月在Uraya平台统计的各业务域的应用(B端+C端)总数已经达到170多个,发布流程中出现问题的风险逐步显现,稳定性问题逐步突出。为了更好的维护应用的代码,解决潜在的稳定性问题风险,2023年6月做了前端大仓的技术调研并在7月开始试行前端大仓的研发模式,在2024年年初开始对前端大仓应用的稳定性进行体系化治理,近2年时间的治理,前端大仓的应用无论在代码质量还是流程统一上都达到了一定的稳定程度,应用稳定性的治理达到了不错的效果,从未出现因大仓稳定性治理导致的线上问题。
在分布式系统架构中,消息队列如同畅通的“信息神经网络”,承担着解耦、削峰与异步通信的核心使命。在众多成熟方案中,RocketMQ凭借其阿里巴巴与Apache双重基因,以卓越的金融级可靠性、万亿级消息堆积能力和灵活的分布式特性脱颖而出,成为构建高可用、高性能数据流转枢纽的关键技术选型。本文将深入解析RocketMQ的核心架构、设计哲学与实践要义。