DNS解析成功率下降案例分析0703
中国移动东莞分公司广东东莞端到端信令分析优化项目--LTE_DNS解析成功率下降案例分析上海瑞原信息技术有限公司东莞移动端到端信令分析优化项目组2014年7月广东东莞端到端信令分析优化项目组Page
中国移动东莞分公司
广东东莞端到端信令分析优化项目
--LTE_DNS解析成功率下降案例分析
上海瑞原信息技术有限公司
东莞移动端到端信令分析优化项目组


2014年7月
广东东莞端到端信令分析优化项目组
Page 1 of 10
,中国移动东莞分公司 1 概述:
7月2日下午18:30域名为(pool.ntp.org )的用户的DNS 解析成功率都非常低, 怀疑DNS 设备中针对域名为(pool.ntp.org )的解析信息被删除或者DNS 配置数据存在异常;建议下一步要省公司配合检查DNS 设置,排查DNS 解析成功率问题。
2 LTE 网络DNS 分析
2.1 【问题描述】
通过瑞原监控平台发现PGW101板卡维度对应的DNS 成功率于7月02日18:30 从92下降至20,下降幅度为72个百分点,于07月03日上午04:00开始恢复到目前为止恢复到80左右。

2.2 【问题分析】
2.2.1 PGW 维度分析
统计指标下降前后(17:00-17:30和19:00-19:30)两个时段成功率对比情况如下表所示:
广东东莞端到端信令分析优化项目组
Page 2 of 10
,中国移动东莞分公司
通过上表可以看出,有7个主要USER_IP段有明显下降,下降幅度70。

这7个user_ip(10.16,10.161,10.162,10.163,10.164,10.165,10.166)主要都集中在DOGSAEGW101BHw 设备下面(这里很容易误认为是PGW 问题)。
2.2.2 域名维度分析
通过异常时段域名维度指标分析,域名“pool.ntp.org ”的失败占比较高,在DOGSAEGW101BHw 网元维度失败占比达98,在全网维度失败占比50。


广东东莞端到端信令分析优化项目组
Page 3 of 10
,中国移动东莞分公司
2.2.2.1 域名(pool.ntp.org )分析
7月2日下午19:00-19:30域名(pool.ntp.org )的DNS 解析失败尝试次数为55850,其中55818次返回ip 为空,成功率非常低。

7月2日下午17:00-17:30域名(pool.ntp.org )的DNS 解析失败尝试次数为6279,其中6046次返回正确IP ,233次返回ip 为空,成功率比较高。

广东东莞端到端信令分析优化项目组
Page 4 of 10

中国移动东莞分公司
2.2.3 用户IP 维度分析
统计异常时段(19:00-19:30)用户IP 维度的DNS 成功率,在域名为(pool.ntp.org )的用户IP 成功率都非常低,大部分集中在DOGSAEGW101BHw 网元(10.164.0.0/16),但是其他网元下面的用户IP 也存在成功率低的问题,只是访问量非常小,失败占比也非常少,详细情况如下:

可见问题不是出在PGW 设备上,主要问题还是DNS 解析过程中出现问题。
2.2.4 DNS_return_ip维度分析
针对域名为(pool.ntp.org )返回return_ip变化可以看出问题关键:
广东东莞端到端信令分析优化项目组
Page 5 of 10
,中国移动东莞分公司
7月2日下午19:00-19:30域名(pool.ntp.org )的DNS 解析失败尝试次数为55850,其中55818次返回ip 为空,成功率非常低;7月2日下午17:00-17:30域名(pool.ntp.org )的DNS 解析失败尝试次数为6279,其中6046次返回正确IP ,233次返回ip 为空,成功率比较高。
2.2.5 其它维度分析
针对CI 维度、SGW_IP维度、TAC 维度以及MME 等维度的分析发现,在这些维度上的DNS 失败均不存在集中性。
2.3 【问题跟踪】
截止7月3日下午16:30,指标尚未完全恢复,DOGSAEGW101BHw 网元(10.164.0.0/16)维度指标成功有所提升,主要是域名(pool.ntp.org )的DNS 解析申请次数明显下降,所以对指标的影响有所缓解。


广东东莞端到端信令分析优化项目组
Page 6 of 10
,中国移动东莞分公司


DNS 解析尝试申请次数明显下降,从7月2日30分钟5万多次下降至1万多次。失败占比也明显下降。
3 GSM/TD-S网络DNS 分析
3.1 【问题描述】
通过IBS 平台性能指标监控发现,从7月2日下午18:00开始,东莞全网DNS 成功率下降10个百分点左右。
指标走势如下图所示:
同时全网TCP 以及GET 指标走势如下:
广东东莞端到端信令分析优化项目组

Page 7 of 10
,

中国移动东莞分公司


可见,TCP 成功率无明显波动,而GET 指标则于凌晨0点左右出现下降,2点左右指标恢复正常,无明显影响。
3.2 【问题分析】
3.2.1 LAN 维度分析
如上所示,指标于LAN3/5均出现不同幅度下降。
3.2.2 GGSN 维度分析
取7月1日与2日20:00-20:30全网DNS 数据展开对比分析。
广东东莞端到端信令分析优化项目组
Page 8 of 10
,中国移动东莞分公司

从GGSN 维度来看,各个GGSN 成功率都有所降低,没有集中性。
3.2.3 DOMIAN_NAME维度分析
提取7月2日20:00-20:30数据,统计DOMIAN_NAME维度如下所示:
可以看到,失败主要集中在域名“pool.ntp.org ”之上,统计期间其尝试次数高达130多万次,而成功率仅为0.08,失败占比高达25.54。
对“pool.ntp.org ”7月1日同时段指标统计如下:
广东东莞端到端信令分析优化项目组
Page 9 of 10

中国移动东莞分公司

可见其失败次数在7月2日出现激增,导致全网DNS 成功率下降。
3.3 汕头DNS 指标走势
汕头同事取7月2日的DNS 指标对比发现在18:30时DNS 解析成功率指标也出现明显下滑,因此可以判定为DNS 问题,而非核心网络问题。
可见,汕头同时段DNS 成功率均存在下降,降幅为10个百分点左右。
4 结论
结合以上分析,域名为(pool.ntp.org )的用户IP 的DNS 解析成功率都非常低, 怀疑DNS 设备中针对域名为(pool.ntp.org )的解析信息被删除或者DNS 配置数据存在异常;建议下一步要联系省公司检查DNS 设置,排查DNS 解析成功率问题。
广东东莞端到端信令分析优化项目组
Page 10 of 10
