线上的告警系统运行多年来一直很稳定,但是也曾出现过一些问题。数据库告警指标明明已经很高了,但是却没有告警出来,有些指标告警出来了,但是却排查不到什么问题,甚至监控图上都没有什么变化。如果修改告警间隔以及告警次数可能会造成误报和漏报,针对这种情况,需要系统性梳理当前告警系统存在的风险,有针对性地解决这些问题。线上数据库、服务器信息等各种指标的采集也分散在各个地方,没有纳入统一的管理。这些指标的采集需要进行详细的梳理,并统一进行管理,为后续其他的系统的使用打好基础。本文主要关注的是数据库(MySQL、Redis)方面的监控,针对其他方面的监控也略有涉及。监控的原理是相同的,只是在细节方面有所不同,不同的告警系统在设计上可以有所参考。
在当今快速发展的软件开发环境中,安全漏洞管理正在经历一场深刻的变革。随着 DevOps 理念的广泛普及,安全左移(Shift Left Security)已成为行业共识,企业纷纷将安全检测前置到开发流程的早期阶段,构建真正的 DevSecOps 体系,去哪儿网也基于微软提出的软件开发生命周期(SDLC)将安全左移嵌入 DevOps 流程中。在实际工程实践中,SAST 作为安全检测的核心能力,承担着漏洞发现的兜底责任,而 IAST 和 DAST 更多作为补充手段。这种架构设计使得 SAST 的运营质量直接决定了整个安全漏洞管理体系的有效性。安全开发生命周期(SDLC)中的白盒扫描环节一直面临着严峻挑战:业内比较优秀的静态应用安全测试(SAST)工具的准确率基本也维持在 60-70%左右,大量人力消耗在漏洞真实性确认上。大部分互联网公司安全团队在 SDLC 上的人力投入可达 40% 甚至更多。
去哪儿网的数据平台为了满足各业务线的看数、取数、用数需求,沉淀出多种数据产品,包括QBI看板、质检系统、即席/SQL分析、趣分析、离线圈人、实时营销等。这些数据产品依赖于多种计算引擎和数据存储来满足不同的业务场景需求。
一些流量突增事件如考研、国考准考证打印高峰期等,会导致酒店业务量骤增,如果超出应用承载上限,会引起服务性能严重下降,限流或崩溃等风险,对生产带来损害。 另外五一十一等出游高峰, 虽然有HPA(Horizontal Pod Autoscaler), 但在做稳定性保障时,需要手动去计算各系统扩容机器数并手动进行扩容和缩容, 计算精度不足且效率低下。 所以如果能提前评估事件影响,预估所需容量,对受影响的服务提前自动扩容,对保障线上服务的稳定性的同时提升运维效率是非常有价值的。
在用户在线浏览酒店时,旅行平台需要解决一个重要问题:如何更好地为用户挑选适合的酒店,并降低用户选择的费力度。而为用户挑选符合需求的酒店,需要千人千面的模型排序。在去哪儿(Qunar)APP中,触发个性化排序的场景主要是欢迎度排序
在大数据处理和存储中,"小文件" 通常是指文件大小远小于HDFS(分布式文件系统)中块(block)大小的文件。一般公司集群的block大小在128MB/256MB这二者的居多,因此,公司对小文件的大小没有一个统一的定义,通常小的不足1MB,大的甚至达到32MB或更大。