满足各种需求的监控平台
Checkmk 是一个用于监控内部或云端应用程序、服务器和网络的综合平台。凭借其广泛的功能,Checkmk 可以毫不费力地监控最简单的 IT 操作和复杂的 IT 环境。
自动化
自动化监控,节省时间
- 使用自动检测和配置,添加新组件更省力:Checkmk将识别它们,并对其所有相关组件及其指标和阈值进行监控。
- 主机生命周期管理和主机自动注册等功能可帮助您自动监控动态、临时的基础设施: 可以从监控中自动添加和移除容器、pod、虚拟机等。
- 使用基于规则的现代 1 对 N 配置,即使在复杂的环境中也能保持直观,与其他监控解决方案相比,配置工作量更小。
- 使用 Checkmk REST API 自动配置和操作。
- 集中管理您的代理,利用Agent Bakery自动更新代理。
- 使用功能强大的 API 集成其他系统,实现几乎任何可以想象到的自动化。
配置
从零到监控只需十分钟
- 通过单一集成包快速安装,无需单独安装和维护数据库和网络服务器。
- 可用于各种 Linux 平台、可作为AWS 和 Azure 的市场镜像、Docker 的容器镜像以及虚拟或物理设备。
- Checkmk 的自动发现功能可为您检测主机和服务——轻松配置所有相关指标和阈值的监控。
- 整合您的数据: 通过HTTP或SNMP将基于代理的监控优势与无代理监控优势相结合——或通过API将Checkmk连接到不同的应用程序。
- 在网络界面配置一切。快速、简单、不易出错。
- 为用户和组操作实施套用了细粒度权限模型的基于角色的访问控制(LDAP、AD)。
插件
为强大的混合 IT 监控做好准备
- 超过2,000多个已维护插件,从您的系统中收集不同异构IT基础设施的指标。
- Checkmk不仅涵盖云中最重要的用例,而且由于其独特的插件集合,还涵盖大多数内部部署系统——可用于强大的混合IT监控。
- 积极维护、定期更新的插件能跟上您的软件和硬件变化。
- 在 Checkmk Exchange 中,我们的社区中会共享其他插件,以补充我们的本地插件。
性能
通过性能优化的分布式架构扩大监控范围
- 使用一个监控实例轻松监控数千个服务,无需在单个数据中心维护和同步多个监控实例。
- 跨数百个站点和数百万台设备进行扩展。构建全球分布式监控网络,实现普通监控系统难以企及的规模。
- 利用高效、独立的代理,将 CPU、RAM 和存储使用率降至最低。它们甚至可以在最小的服务器上运行,无需使用 DLL 或库。
混合基础设施监控
面向云和本地部署的现代监控概念
- 以足够高的粒度摄取数据,以处理各种 IT 架构——包括传统环境和容器编排平台。
- 实时采样,测量间隔可短至 1 秒。
- 利用主机生命周期管理和自动注册等特殊功能,在监控中自动映射动态云和微服务环境中的临时主机和工作负载。
- 为每个受监控的组件或系统提供有意义的状态(“OK”、“WARN”、“CRIT”)来识别 IT 中的问题,包括单击进行更深入的分析。
- 只需点击几下即可分析 IT 系统的状态,并通过 Checkmk 在正确的上下文中查看 IT 的健康状况。
- 在概览中绘制应用程序依赖关系图,一目了然地监控复杂系统。
- 手动标记数据或自动发现标记和标签,为您提供相关上下文,帮助您进行筛选——标签提供充分的灵活性,而标记则确保一致性。
- 将指标存储在磁盘空间效率高的长期存储器中。
网络流量监控
详细了解您的网络
- 通过 ntop 将网络流量集成到 Checkmk 中,对网络流量进行深入分析。
- 网络流量仪表盘。
- 根据持续时间、严重程度和警报类型查看警报。
- 按照不同维度对流量进行筛选,进而分析您的网络。
- 主机的详细视图:流量、数据包、端口、对等节点。
定制
轻松定制或扩展以满足您的需求
- 定制或扩展以易读的 Python 编写的 Checkmk 源代码。
- 依靠我们和我们广泛的合作伙伴网络来定制 Checkmk 或其插件。
- 使用新的 Check-API 为 Checkmk 编写自己的插件,或使用任何编程语言编写本地检查。
- 从海量的开发员文档中学习。
可视化
使用现代化、可自定义的仪表盘可视化您的数据
- 借助Checkmk现代化的可自定义仪表盘,全面了解您的IT状况。
- 开箱即用的仪表盘提供 AWS 和 Azure 云环境、Linux 和 Windows 服务器以及 Kubernetes 集群的关键指标。
- 充分发挥图表的作用,展示实时监控数据。
- 利用交互式 HTML5 图形分析长时间范围内的时间序列指标。
- 利用不同的仪表盘元素,根据您的特定需求自定义仪表盘和视图,从而将最重要的指标可视化。
- 一目了然地比较多个图表中的指标。
- 为用户或用户组自定义仪表盘和视图,例如为 VMware 管理员自定义 vSphere 特定视图。
- 根据偏好自定义侧边菜单:添加快捷方式,一键直达最重要的监控信息,或添加链接,一键访问最相关功能或报告。
- 此外,还可以使用 Grafana Checkmk 数据源插件或 Checkmk 的 InfluxDB Graphite 输出程序在 Grafana 中实现数据可视化。
警报
通过智能和细粒度警报避免通知超载
- 快速通知负责团队,例如,通知存储管理员磁盘出现故障。并在问题未得到及时处理时将其升级。
- 通过电子邮件、短信、Slack 或 MS Teams 自动发送通知。
- 通过与 ServiceNow、Jira、PagerDuty 或 VictorOps 等 ITSM 系统集成,自动生成处理事件的单据。
- 在特定情况下配置附加警报或取消警报。
- 即使在分布式环境中,也能集中处理警报。
- 使用警报处理程序,在检测到新问题时自动触发操作,例如进行自我修复。
日志监控
结合指标和日志数据,快速识别问题并分析根本原因
- 监控来自系统日志、SNMP 陷阱、Windows 事件日志、日志文件和其他应用程序等来源的事件。
- 过滤和转发事件,进而触发脚本或生成通知。
- 将重复条目合并为单个事件(如多个用户登录失败),防止操作员超负荷工作。
- 过滤接收到的信息,只显示重要事件——不再需要手动过滤,杜绝信息过载。
高级分析
利用高级分析预测趋势和资源利用情况
- 分析历史数据以确定趋势或预测未来的资源消耗。
- 使用先进的预测监控算法,根据历史事件动态调整阈值。
- 依靠将一次性或季节性因素纳入预测的容量管理。
业务流程监控
监控关键业务流程的健康状况
- 通过将应用程序依赖关系映射到单一概览中来监控业务流程,使您一目了然地查看复杂系统的可用性和性能。
- 将不同服务和主机聚合为单一状态。
- 对聚合进行“冻结”,并将其与基础架构的实时状态进行比较,以便直观地了解变化情况,并获得对任何状态变化的解释。
- 查看历史状态,确定性能下降的根本原因。
- 通过清晰、易懂的视图掌控全局,为客户提供更可靠的服务。
- 以前所未有的自由度支持所有可能的配置——两个及以上节点高可用性、高性能计算(HPC)等。
- 实时模拟最坏情况,研究故障组件的影响,确定运行薄弱环节。
硬件和软件库存
识别 IT 和 IT 内部的所有资产
- 识别并清点所有硬件和软件,主动监控变化。
- 将定期更新的监控数据(如 CPU 利用率或磁盘使用率)整合到配置管理数据库(CMDB) 视图中,并为资产的健康状况添加 “动态 ”参数。
- 在一个统一的视图中将库存表与服务或其他库存表数据相结合。
报告
通过自动生成的报告积极主动地向业务部门通报情况
- 创建品牌 PDF 报告,其中包括您创建的所有视图——临时视图或定期自动视图。
- 只需单击鼠标,即可查看任意时间段内的历史状态,实时计算可用性。
- 对可用数据的清理进行平均化处理:排除未监控时间、更改分辨率或忽略短时间间隔。
- 监控复杂的服务等级协议(SLA),在违反 SLA 合同之前接收通知,即使 SLA 的定义仅包括工作时间。
集成
与主要 ITOM/ITSM 工具集成,简化工作流程
- 通过功能强大、文档齐全的API,实现与常用ITSM和messenger 解决方案的深度集成。
- 通过电子邮件、短信和messenger接收通知。
- 通过在项目管理系统中自动创建单据来简化流程。
- 与标准的现成配置管理数据库(CMDB)软件接口。
- 通过 Checkmk 的 API,使用配置管理数据库 (CMDB) 中的现有信息配置监控。
可观察性
将您的监控与其他工具进行连接
- 通过将指标和标签导出至 Grafana / Grafana Cloud,将 Checkmk 数据与其他数据源可视化。
- 通过Prometheus集成缩小DevOps和Ops团队之间的差距,并将K8s数据和Prometheus警报导入Checkmk。
- 将监控器和事件从DataDog导入Checkmk,以改善OPs和DevOps团队之间的沟通。
- 将来自Checkmk的指标与来自您所选择的TSDB(如InfluxDB 2.0)中其他监控工具的指标结合起来,进行集中指标监控。
注意:其中一些功能仅在商业 Checkmk 版本中提供