阿里云监控使用手册
云监控使用手册 ,云监控/使用手册使用手册产品介绍云监控简介云监控作为云服务的监控管理入口,能让您快速了解各产品实例的状态和性能。云监控从站点监控、云服务监控、自定义监控三
云监控

使用手册
,云监控/使用手册
使用手册
产品介绍
云监控简介
云监控作为云服务的监控管理入口,能让您快速了解各产品实例的状态和性能。云监控从站点监控、云服务监控、自定义监控三个方面来为您提供服务。通过云监控管理控制台,您可以看到当前服务的监控项数据图表,清晰了解服务运行情况。并通过设置报警规则,管理监控项状态,及时获取异常信息。
如果您已经开通了阿里云相关产品(ECS云服务器、RDS关系型数据库等),那么您可以直接登录云监控控制台,查看相关实例的监控状态(ECS需要一键安装云盾插件)。目前我们为您提供8种云服务监控,其他云服务监控近期也将接入云监控,敬请期待。
如果您需要了解自己的站点可用性和响应时间,可以开启云监控站点服务来获取站点的可用性和响应时间。站点监测既可以监测ECS服务器上的站点,也可以监测非阿里云服务器上的站点。在站点监测栏中添加监测站点,并选择需要的监控项,便可成功开启站点监测功能。
如果云服务监测和站点监测依然满足不了您的监控需求,您还可以安装云监控SDK,自定义监控项。自定义监控项信息同样可以以图表的形式展示在云监控控制台。我们为您提供了详细的自定义使用文档
获取监控信息分为两种方式,登录云监控管理控制台直接查看信息和调用OpenAPI获取监控数据信息。
云监控控制台模块包括一下

名词解释

1
,云监控/使用手册
名词解释
这些名词是云监控的关键概念。
【监控项】: 用户设置或者系统默认的监控数据类型,例如站点监控的Http监控默认有两个监控项
【监控点】: 监控项的一个实例。如针对www.aliyun.com这个站点的http监控,实际包含两个监控点http.response & http.status。对于ECS云主机有11个监控项,所以一台云主机默认有11个监控点。
【维度】: 定位监控项数据位置的维度,例如磁盘IO这个监控项,通过实例和磁盘名称两个维度可以定位到唯一的监控点位置。 在自定义监控中,目前维度用“字段信息表示”。
【规则】: 规则是一个条件; 例如“CPU使用率>=50”是一个规则; 10台ECS服务器中有7台可用也是一个规则,“可用服务器比例>=70”。
【事件】: (本版本中“事件”是隐性的,没有展现给使用者) 当一个监控点上,规则条件满足时,产生一个事件。例如CPU使用率达到60,满足“CPU使用率>=50”这一规则的条件,则产生一个事件。 多个事件满足一个规则的条件,可以产生一个新的事件。例如站点监控由两个探测点,只有一个探测点探测到目标站点不可用,不满足“不可用探测=2”规则,不产生“双探测不可用”事件,不会触发报警。只有两个探测点同时探测某一站点不可用,产生一个“双探测不可用”事件,进而触发报警。
【事件级别】:(本版本中“事件级别”没有展现给使用者) 事件的影响分级。 可以通过严重程度来划分,不同的级别报警通道不同。 可以通过已知处理方法和未知处理方法来划分,已知处理方法的时间可以自动处理,未知处理方法的通知联系人人工处理。
【报警】: 由事件驱动的一个通知动作,通过特定形式通知报警联系人或服务。
【报警联系人】: 报警消息的接收人,包含手机、旺旺(淘宝)、邮件。
【报警组】: 一组报警联系人,可以包含一个或多个“报警联系人”。在报警设置中,均通过“报警组”发送报警通知。对应每一个监控点,根据预先设定的报警方式在到达报警阈值时向报警组成员发送报警消息。
【报警方式】: 异常通知用户的手段。包括短信、旺旺、邮件等。
快速上手
快速开始
快速开始
当您进入云监控控制台后,您会看到在页面的顶端看到 概览,站点监控,云服务监控,自定义监控,报警联系人,5个页面信息
初次使用,您可以先浏览一下名词解释,对云监控产品的一些关键概念的术语有所了解。
初次使用,请您先进入报警联系人 输入您的报警联系人和报警组信息,后面定义报警规则的时候会用到。
然后,您可以进入站点监控,为您需要监控的站点新建监控项。 进入云服务监控

,查看您已开通的云服务的使2
,
云监控/使用手册
用情况和运行状态。 您还可以通过自定义监控,自行上报数据,设置监控项。
目前云监控支持查看三十天内的历史监控数据,不支持数据导出功能。如果您需要查看更长时间的历史数据或导出数据,可使用OpenAPI 功能,获取监控数据并存储。
概览
概览
目前云监控提供站点监控、云服务监控和自定义监控三种服务。
云监控概览页如下图所示,目前云服务监控提供8种服务监控,随后将会有更多云服务监控。您购买一个云服务实例后,云监控便默认开启了监控服务,您可以到云监控对应的服务页面查看实例的监控信息,并对其设置相应的报警规则。
概览页名词解释
q 监控项:自定义监控的监控项数量,自定义监控是没有显性监控点概念,自定义监控的靠维度(字段信息)来定位监控点
监控点:站点监控的监控点和云服务监控ECS监控点数量
实例数量 云产品受监控的实例个数
报警规则:通过设置报警规则,当监控项超出报警阈值和重试次数后,会触发告警通知
报警:目前处于报警状态的监控项
数据不足:该监控点没有足够数据上报,无法判断被监控的站点或者服务的状态
暂停:用户保留该监控,但是暂停该监控项或者监控点数据上报,暂停状态属于正常状态。不再触发报警规则
q q q q q q
注意 :您只有设置了报警规则以后,才会在监控项触发报警规则时收到报警信息。否则无论监控项数据发生何种变化,您都只能自行查看,无法收到报警信息。
站点监控
站点监控

站点监控可以对目标站点服务的可用性以及响应时间进行监控。系统已经默认预置了8种监控类型,包括http监3
,
云监控/使用手册
控、ping监控、tcp监控、udp监控、DNS监控、pop监控、smtp监控、ftp监控。其中每种监控类型里面包含了两个监控项:status和responsetime。
每个用户最多可以设置200个站点监控。
从2015年7月9日起,使用站点监测功能需进行云监控产品服务认证,未认证用户无法新建监测站点
点击进行认证 点击认证帮助
1 监控类型

2 创建站点监控和报警
点击站点管理,进入站点监控页面

点击创建站点,添加新的监测点
4
,
云监控/使用手册
创建监控点 表单描述
1) 监控点名称: 为您的监控点输入个性化的名称
2) 监控地址: 您要监控的地址,对http来说,就是一个网站的地地址,对域名解析来说,就是某一个域名等等。
3) 监测频率: 站点监控探测引擎多长时间执行一次探测任务,并上报数据的频率。默认为5分钟,请谨慎选择1分钟,过于频繁的探测可能会导致对方服务屏蔽您的账号。
4) 分布式探测点 目前部署了两个监测点,可以分别从杭州和青岛对您设置的目标服务进行监测,您也可以只选择从其中一个监测点进行探测。(后续会支持更多监测点,包括海外的监测点)
5) 高级设置
不同的监控类型会有一些高级选项
a. http监控:
i. 请求方法,http标准的请求方法,getposthead,其中post支持提交内容。
ii. 提交内容,只对post请求方法有效,输入您的目标服务能够识别的内容。
iii.匹配响应内容,您期望探测目标网站返回什么样的内容。
iv. 匹配方式:选择匹配,则如果网站返回内容匹配您期望的内容报警;选择不匹配,则如果网站返回内容不匹

配您期望的内容报警。5
,云监控/使用手册
v. Cookie:您期望探测目标网站需要的cookie,key:value形式,多个cookie以半角分号分隔。
vi. http请求头信息:您期望探测目标网站需要的http header信息,key:value形式,多个header以半角分号分隔。
b. ping监控: 您可以使用ping监控服务来检测目标服务的网络延迟。
c. Tcp监控: 监控地址的端口是不是连通的。另外,您也可以配置请求内容和期望的响应内容。如果配置了这两项内容,则不匹配时会报警。内容支持16进制字节码和文本两种形式
i. 16进制字节码。如:0xcf,0x0f,0x85,0x85
ii. 文本。系统内容会对文本内容进行转换,请注意空格等容易出错的字符。
d. Udp监控: 监控某地址的udp服务,因为udp协议的特性,必须要为udp配置请求和响应内容,否则udp探测将永远成功。
i. 16进制字节码。如:0xcf,0x0f,0x85,0x85
ii. 文本。系统内容会对文本内容进行转换,请注意空格、换行符等容易出错的字符。
e. DNS监控: 监控域名的可用性和响应时间,并获得各种域名记录列表,支持域名轮询(RR)。通常只需要默认选择查询类型A.
f. POP监控: 监控POP3协议的接收邮件服务器,填写正确的地址、端口,如果配置用户名密码,则会验证用户名密码。请注意频率,如果频率太快,有可能会导致对方服务屏蔽您的账号。请依据对方服务选择是否使用完全连接。
g. Smtp监控: 监控SMTP协议的发送邮件服务器,填写正确的地址、端口,如果配置用户名密码,则会验证用户名密码。请注意频率,如果频率太快,有可能会导致对方服务屏蔽您的账号。请依据对方服务选择是否使用完全连接。
h. ftp监控:验证Ftp服务是否正常以及延迟情况。
约定
a. 每个创建成功的监控点会形式两个监控指标,一个是状态status,一个是响应时间responsetime。对所有的状态来说,我们约定,http小于400的状态码为正常(对需要匹配内容的服务,如果服务状态正常,但内容不匹配,我们也认为是不正常。),大于等于400的状态为异常(有可能是服务响应内容不匹配您预置的期望值)。
b. 响应时间单位是毫秒millisecond。
c.对于可用性图表,每小时计算一次。可用性的计算是根据您的设置的HTTP探测频率来定的,若您设置的频率是1分钟,那么在一个小时内就会探测60次,然后会计算其中探测成功的次数。
d. 对于ping监控,目前没有可用性统计,我们展示的是某统计周期内的丢包率和响应时间的平均值统计。
e. 监控点创建成功后,站点监控后台会启动相应的探测任务, 按您指定的频率探测并上报数据给云监控后台,进行分析和报警服务。

添加报警规则6
,

云监控/使用手册
设置站点监控的监控点后,会弹出窗口提示站点监测添加成功,选择设置报警规则按钮,可进入报警规则设置。如果不进行设置,可后续在站点管理页添加报警规则。
创建报警规则表单详细描述:
对状态码和响应时间设置范围(ping协议设置丢包率),当不在范围内时,即为超出阈值。
设置通知对象:
1) 重试几次报警:您可以选择连续几次超过阀值报警,默认是三次,通常偶然因素会导致状态不对或者服务响应超时,连续三次以上更能代表服务工作不正常,减少误报的情况。
2)报警方式 多检测点独立报警:任一检测点异常时都会发生一次报警 多检测点组合报警:xxx.status状态类报警采用所有检测点都异常才报警,ping.loss丢包率及xxx.responsetime响应时间类报警采用多检测点取平均值进行报警
4) 联系人通知组:云账号报警联系人。
3 查看监测数据
可以查看可用性和响应时间
4 站点监控所有监控项

7
,云监控/使用手册
请查看监控项参考手册
5 站点监控返回状态码说明
以下是对查看HTTP监测报警历史中,云监控自定义报警值(状态码)的说明


以下是HTTP常见状态码说明,按ctrl F快速查找状态码

8
,
云监控/使用手册

9