要确保Kafka在使用过程中的稳定性,需要从kafka在业务中的使用周期进行依次保障。主要可以分为:事先预防(通过规范的使用、开发,预防问题产生)、运行时监控(保障集群稳定,出问题能及时发现)、故障时解决(有完整的应急预案)这三阶段。
Prometheus 作为云原生时代最流行的监控组件,已然成为社区监控事实上的标准,但是在多集群,大集群等场景下,只使用 Prometheus 是远远不够的;单集群场景下我们一般主要关注指标采集、存储、告警、可视化等基础监控能力,随着集群规模的增大,监控系统的弹性以及可扩展性成为首要解决的痛点问题,为此社区诞生了 Thanos、Cortex、Prometheus 联邦等一系列成熟的解决方案,我们也通过自研的 Kvass 解决方案,通过将服务发现与采集过程分离,以及自研的任务分片算法,无侵入式的支持采集任务横向扩展,满足大规模集群场景下的采集和监控需求。在分布式云场景下,用户集群往往采用混合多云多集群的部署架构,集群的地理位置更加分散,网络环境更加复杂,为此我们也在寻找一种新的方案来统一解决此类问题。本文以腾讯云跨账号集群统一监控为例,介绍分布式云下的多集群监控方案的最佳实践。
在《Effective HPA:预测未来的弹性伸缩产品》 一文中,我们提到原生HPA并不完美。基于阈值被动响应机制的滞后性与众多应用冷启动慢等原因导致很大一部分应用无法安心配置弹性。 基于DSP(Digital Signal Processing,数字信号处理)算法的预测机制,Crane确保在阈值到达之前就能提前感知并使应用提前弹出,确保冷启动慢的应用也能有效利用弹性。 在技术交流群中,不断有人问,DSP算法的原理和细节是什么。其所依赖的傅里叶变换号称上个世纪最强算法甚至有史以来最强算法,涉及很多数学基础,巧妙又复杂,学习门槛很高。 因此有必要写一篇文章,将对该算法的细节,以及Crane如何应用该算法公开来。为方便阅读,本文会尽量减少劝退的数学公式的出现次数。
2021年元宇宙概念已无处不在,也寓意数字虚拟世界和现实世界新一轮的大融合已开启。要构建以假乱真、令人沉浸、承载多人实时交互的虚拟世界,需要庞大的渲染算力支撑,仅依靠终端设备算力无法实现。本文介绍实时云渲染技术,使用云端高性能海量算力满足虚拟世界实时渲染需求。