笔者最近对负责项目做了一些服务性能优化的工作,主要优化了项目中的一些不合理设计,例如:服务间使用 json 传输数据;监控上报处理逻辑在主流程中;重复数据每次都请求下游服务;多个耗时操作串行请求等。取得了 A 服务平均耗时跟 p99 耗时均下降 80% 、事件底层服务平均耗时下降 50% 的业务收益。 本文总结了在服务架构设计时,提升服务性能的 9 大常用办法,相信可以有效帮到你的日常工作。期待你的点赞转发收藏一键三连!
"API 管理" 和 "API 网关" 这两个术语经常会被交替使用,在大模型应用上更甚(大模型被认为是 API 经济/货币化的催化剂)。但实际上,它们代表着不同的概念,服务于 API 生命周期的不同阶段。本文将探讨两者的起源和发展、关键差异对比、如何协同工作以及未来发展趋势。希望本文对技术团队做出更明智的架构决策上,能起到一些助益。
告警治理永远是后台架构中绕不开的话题,几乎可以认为告警是否治理得好,决定能否做好后台的服务质量。现网运作过程中,时而都会面临现网质量的问题,可能是大范围的故障,也可能是一个发布有 Bug 导致某一小群用户某个功能功能不可用。让人尴尬的是,事后复盘之时,总会发现优化措施里总是有告警优化措施的身影。而告警措施无论怎么补全,似乎永远补不完。 本文将结合笔者最近一年团队的成功实战经验,从如何结合错误码设计开始,再到统一告警策略、工具建设乃至团队值班制度管理等,介绍腾讯会议部分模块告警治理经验。 本文全文1.4w字,阅读本文后,后台团队质量负责人将能回答出以下三个问题:怎么样让告警是覆盖有效的,且能真实告警是故障(这个通常不难,一旦有大范围问题,告警通常是泛滥的),还能包含一些功能性的质量/bug问题,在大面积用户反馈之前介入。在告警有效的前提下,如何做到后台服务的告警不会一直处于轰炸状态,导致团队麻木。如何推动团队真正长期有效地对告警所反映的问题做到闭环解决。
在分布式消息队列 RocketMQ 中,ConsumeQueue(消费队列) 是消息消费的核心组件之一。它作为 CommitLog 的索引机制,帮助消费者快速定位并拉取消息。如果没有 ConsumeQueue,消费者将无法高效地从海量消息中筛选出自己订阅的数据。 本文将基于 RocketMQ 5.0 源码,深入探讨 ConsumeQueue 的设计原理与实现细节。
本文尽量用最简单的方式, 帮读者理解 LLM, Transformer, Prompt, Function calling, MCP, Agent, A2A 等这些基本概念. 表述时不追求绝对准确, 尽量通俗易懂. 部分内容有个人理解的成份, 内容难免疏漏, 欢迎指正.