集群服务
集群/产品概览
通过"运维中心-概览”功能页,掌握产品运行状况,包含CPU使用率、内存使用率、磁盘使用率、网络IO、主机概览等,产品运行情况,快速定位异常服务、异常告警信息。
组件/服务概览
概览页面左上角展示该产品下(可在第二层导航左上角切换产品)各个组件及服务的运行状态和健康检查状态。 分为两层,第一层是组件层,系统会将异常的组件显示在上方,正常的组件的显示在下方。异常组件的icon为红色、正常组件的icon为绿色。可查看异常组件下的异常服务,运行异常或未通过健康检查的组件会显示出来,从而可快速定位异常组件下的异常服务,掌握集群运行情况。 异常的服务可点击,点击跳转至具体的服务页面,可查看具体的服务实例,运行日志,进行服务运维。
告警信息概览
展示该产品异常的告警信息,查看某个服务因为什么原因在什么时间发出告警,及时运维。此处的告警信息来自于在仪表盘中配置的Alert规则。
集群指标概览
页面右侧由轮播仪表盘构建,展示可展示集群重要运行指标的仪表盘,帮助运维人员快速掌握集群资源情况。
服务运行
当产品部署完成,点击"运维中心-服务-运行状态”进入集群运维页面,各组件上服务的运行状态代表了集群的运行状态、稳定状态。
运行状态查看
- 服务版本号:可在服务名称的后面查看该服务的版本号;
- 服务运行实例:列表中展示内容为该服务部署在哪几台主机上,一个服务在一台主机上部署,称之为一个"服务实例";
- 服务运行状态:查看各服务实例的运行状态,当运行状态为run fail状态时,运维同学应及时查看日志,故障修复,恢复服务运行;
- 服务健康状态:主要以服务是否告警、主机健康检查脚本是否正常执行、主机是否告警三种状态来反映整体服务在该主机上的健康状态。健康检查通过脚本中的自定义规则来实现,服务部署配置中包含健康检查的检查周期、超时时间等参数,一般为20s检查一次。当服务处于不健康状态时,也需要及时查看;
- 组件版本号:指该服务所属组件的版本号,即组件安装包的版本号。如hdfs_datanode属于Hadoop组件,则组件版本指Hadoop安装包的版本;
- 更新时间:服务实例的更新时间,一般服务停止/启动、滚动重启,时间都会更新;
运行日志查看
点击查看日志,会跳转到日志管理界面,查看该服务实例的运行日志,具体操作详见日志查看页面。
服务停止/启动
- 服务停止:服务停止需二次确认后,停止后,该服务处于waiting状态,不再运行;
- 服务启动:服务启动后,提供集群服务。
tip
需避免全部服务实例处于停止状态,会造成服务不可用,服务停止时可单台停止,至少保障一台服务实例在运行状态。
服务滚动重启
当服务修改配置,需要服务重启时,可采用服务滚动重启,服务实例轮番启停,保障服务一致处于可用状态。
运行状态
运行状况主要包含 “服务告警”、“主机告警”、“健康检查” 三块内容。
- 服务告警:主要为来自服务仪表盘中配置告警的指标当前的告警状态,红色表示存在告警、绿色表示正常无告警,异常告警的指标会展示最近一次告警时间帮助运维进行判断。 列表提供指标所属的仪表盘,可点击一键跳转相应仪表盘查看指标图表配置;
- 主机告警:展示该服务所在主机的相关指标在仪表盘中配置告警后的正常状态,若指标处于告警未恢复状态,则该指标状态将显示异常,来源仪表盘供用户快速跳转至主机仪表盘进行对应指标趋势查看及问题排查;
- 健康检查:服务在部署至节点后,会周期性的在主机上运行健康检查脚本,此处展示该服务对应需在主机上运行的脚本,以及脚本的检查时间、检查是否失败,提供定时执行、手动执行双模式,通过切换运行主机查看各主机脚本执行情况,灵活实现主机健康检查监控。
参数配置
服务的参数包含运行配置、部署配置、依赖服务。参数操作包含参数修改、参数新增、配置下发、滚动重启。
tip
服务的部署配置、依赖服务在此处不能修改,只能查看,部署配置在"部署向导"中可修改。
以下针对运行配置主要说明:
参数修改
修改原有参数时,直接修改参数值即可,修改后可进行保存,或取消保存恢复默认值; 恢复默认值可通过输入框的恢复按钮或者操作栏的恢复按钮; 修改/新增的参数,系统会给出最近一次修改时间,以及参数默认值; 修改后的参数若要生效,可进行配置下发,待下一次部署时新的配置项生效。亦或是进行服务滚动重启,即时生效。
添加参数
添加参数通过修改配置文件的方式进行, 新增的参数,系统会给一个 “New” 的标识。
配置下发
配置下发指将修改后的参数配置下发至部署该服务的各个主机上,配置下发后参数还未生效,需等到升级部署或是重启服务时生效。
滚动重启
滚动重启指该服务的服务实例滚动重启,从而让修改后的参数立即生效。
服务监控
每个服务的指标不一样,在监控页面可查看各指标的趋势值,掌握服务运行状况。针对重要的指标,可配置服务告警,及时通知运维。 下方是hdfs_datanode的监控仪表盘,以此为例。 HDFS文件系统使用
步骤一:点击hdfs_namenode的IP地址
YARN运行任务查看
步骤一:点击yarn_resourcemanager的IP地址,进行YARN任务管理界面。