酷米网(kmw.com),专注高端域名快速交易!

  1. 当前位置: 
  2. 首页 > 
  3. 域名资讯  > 离线案例--草案
服务器时间:2018-07-20 09:14:04 (CST +08:00)

离线案例--草案

2017-12-17 17:09:29     浏览量: 68

离线案例——demo 草案 《正式版及更多教程可联系44144198》

Web 日志分析离线案例课程大纲

,

需求分析

什么是网站流量分析

网站流量统计分析,可以帮助网站管理员、运营人员、推广人员等实时获取网站流量信息,并从流量来源、网站内容、网站访客特性等多方面提供网站分析的数据依据。从而帮助提高网站流量,提升网站用户体验,让访客更多的沉淀下来变成会员或客户,通过更少的投入获取最大化的收入。

流量分析需求

概述

提供多角度的数据统计、对比、以及生成报表功能,便于网站运营者全面掌握网站运营情况;提供网站实时访问流量数据,方便及时查看最新分析信息。

分析报表

主要数据报表功能项为:流量分析、来源分析、受访分析、访客分析、转化路径分析。 各功能项中包含每系列数据的详细报表。

登录统计后台、切换左侧菜单功能项即可查看。

1) 流量分析

趋势分析:根据您选定的时段,提供网站流量数据,通过流量趋势变化形态,为您分析网站访客的访问规律、网站发展状况提供参考。

对比分析:根据您选定的两个对比时段,提供网站流量在时间上的纵向对比报表,帮您发现网站发展状况、发展规律、流量变化率等。

当前在线:提供当前时刻站点上的访客量,以及最近15分钟流量、来源、受访、访客变化情况等,方便用户及时了解当前网站流量状况。

访问明细:提供最近7日的访客访问记录,可按每个PV 或每次访问行为(访客的每次会话)显示,并可按照来源、搜索词等条件进行筛选。 通过访问明细,用户可以详细了解网站流量的累计过程,从而为用户快速找出流量变动原因提供最原始、最准确的依据。

,

2) 来源分析

来源分类:提供不同来源形式(直接输入、搜索引擎、其他外部链接、站内来源)、不同来源项引入流量的比例情况。通过精确的量化数据,帮助用户分析什么类型的来路产生的流量多、效果好,进而合理优化推广方案。

搜索引擎:提供各搜索引擎以及搜索引擎子产品引入流量的比例情况。从搜索引擎引入流量的的角度,帮助用户了解网站的SEO 、SEM 效果,从而为制定下一步SEO 、SEM 计划提供依据。

搜索词:提供访客通过搜索引擎进入网站所使用的搜索词,以及各搜索词引入流量的特征和分布。帮助用户了解各搜索词引入流量的质量,进而了解访客的兴趣关注点、网站与访客兴趣点的匹配度,为优化SEO 方案及SEM 提词方案提供详细依据。

提供最近7日的访客搜索记录,可按每个PV 或每次访问行为(访客的每次会话)显示,并可按照访客类型、地区等条件进行筛选。为您搜索引擎优化提供最详细的原始数据。

来路域名:提供具体来路域名引入流量的分布情况,并可按“社会化媒体”、“搜索引擎”、“邮箱”等网站类型对来源域名进行分类。 帮助用户了解哪类推广渠道产生的流量多、效果好,进而合理优化网站推广方案。

来路页面:提供具体来路页面引入流量的分布情况。 尤其对于通过流量置换、包广告位等方式从其他网站引入流量的用户,该功能可以方便、清晰地展现广告引入的流量及效果,为优化推广方案提供依据。

来源升降榜:提供开通统计后任意两日的TOP10000搜索词、来路域名引入流量的对比情况,并按照变化的剧烈程度提供排行榜。 用户可通过此功能快速找到哪些来路对网站流量的影响比较大,从而及时排查相应来路问题。

3) 受访分析

受访域名:提供访客对网站中各个域名的访问情况。 一般情况下,网站不同域名提供的产品、内容各有差异,通过此功能用户可以了解不同内容的受欢迎程度以及网站运营成效。

受访页面:提供访客对网站中各个页面的访问情况。 站内入口页面为访客进入网站时浏览的第一个页面,如果入口页面的跳出率较高则需要关注并优化;站内出口页面为访客访问网站的最后一个页面,对于离开率较高的页面需要关注并优化。

受访升降榜:提供开通统计后任意两日的TOP10000受访页面的浏览情况对比,并按照变化的剧烈程度提供排行榜。 可通过此功能验证经过改版的页面是否有流量提升或哪

,

些页面有巨大流量波动,从而及时排查相应问题。

热点图:记录访客在页面上的鼠标点击行为,通过颜色区分不同区域的点击热度;支持

将一组页面设置为" 关注范围" ,并可按来路细分点击热度。 通过访客在页面上的点击量统计,可以了解页面设计是否合理、广告位的安排能否获取更多佣金等。

用户视点:提供受访页面对页面上链接的其他站内页面的输出流量,并通过输出流量的

高低绘制热度图,与热点图不同的是,所有记录都是实际打开了下一页面产生了浏览次数(PV )的数据,而不仅仅是拥有鼠标点击行为。

访问轨迹:提供观察焦点页面的上下游页面,了解访客从哪些途径进入页面,又流向了

哪里。 通过上游页面列表比较出不同流量引入渠道的效果;通过下游页面列表了解用户的浏览习惯,哪些页面元素、内容更吸引访客点击。

4) 访客分析

地区运营商:提供各地区访客、各网络运营商访客的访问情况分布。 地方网站、下载

站等与地域性、网络链路等结合较为紧密的网站,可以参考此功能数据,合理优化推广运营方案。

终端详情:提供网站访客所使用的浏览终端的配置情况。 参考此数据进行网页设计、

开发,可更好地提高网站兼容性,以达到良好的用户交互体验。

新老访客:当日访客中,历史上第一次访问该网站的访客记为当日新访客;历史上已经

访问过该网站的访客记为老访客。 新访客与老访客进入网站的途径和浏览行为往往存在差异。该功能可以辅助分析不同访客的行为习惯,针对不同访客优化网站,例如为制作新手导航提供数据支持等。

忠诚度:从访客一天内回访网站的次数(日访问频度)与访客上次访问网站的时间两个

角度,分析访客对网站的访问粘性、忠诚度、吸引程度。 由于提升网站内容的更新频率、增强用户体验与用户价值可以有更高的忠诚度,因此该功能在网站内容更新及用户体验方面提供了重要参考。

活跃度:从访客单次访问浏览网站的时间与网页数两个角度,分析访客在网站上的活跃

程度。 由于提升网站内容的质量与数量可以获得更高的活跃度,因此该功能是网站内容分析的关键指标之一。

5) 转化路径分析

路径分析:根据您设置的特定路线,监测某一流程的完成转化情况,算出每步的转换率和流失率数据,如注册流程,购买流程等。

,

系统设计 概述

整个日志分析系统分为以下几大流程

1、 数据采集——技术选型:Flume

2、 数据存储——技术选型:HDFS

3、 数据预处理——技术选型:mapreduce

4、 数据挖掘——hive mapreduce

5、 数据展现——mysql javaweb

系统结构图

,

指标体系 流量分析 ◆ 浏览次数(PV) ◆ 独立访客(UV) ◆ IP ◆ 新独立访客

◆ 访问次数 :平均访问时长 ◆ 人均浏览页数 ◆ 平均访问深度

来源分析 ◆ 来源分类 ◆ 来路域名 ◆ 来路页面

受访分析 受访域名 受访升降榜 热点图

用户视点 访问轨迹

访客分析 区域分布 终端详情 新老访客 忠诚度

活跃度

平均日访问次数….

,

项目数据流程——数据采集

数据形式

数据由网站web 服务器集群(nginx )产生,为日志文件,存放在各台服务器如下路径: /var/log/httpd/access_log.2015-11-10-13-00.log

/var/log/httpd/access_log.2015-11-10-14-00.log

/var/log/httpd/access_log.2015-11-10-15-00.log

/var/log/httpd/access_log.2015-11-10-16-00.log

/var/log/httpd/access_log.2015-11-10-17-00.log

/var/log/httpd/access_log.2015-11-10-18-00.log

/var/log/httpd/access_log.2015-11-10-19-00.log

数据内容样例

字段解析:

1、访客ip 地址: 58.215.204.118

2、访客用户信息: - -

3、请求时间:[18/Sep/2013:06:51:35 0000]

4、请求方式:GET

5、请求的url :/wp-includes/js/jquery/jquery.js?ver=1.10.2

6、请求所用协议:HTTP/1.1

7、响应码:304

8、返回的数据流量:0

9、访客的来源url :

10、访客所用浏览器:Mozilla/5.0 (Windows NT 5.1; rv:23.0) Gecko/20100101 Firefox/23.0

,

数据生成规律

日志文件的生成规律在web 服务器的log4j.properties 中定义:

基本规律为:

当前正在写的文件为access_log;

文件体积达到64M ,或时间间隔达到30分钟,即滚动重命名切换成历史日志文件; 形如: access_log.2015-11-10-13-00.log

日志采集系统设计

可选方案

✧ Shell 脚本

优点:轻量级,开发简单

缺点:对日志采集过程中的容错处理不便控制

✧ Java 采集程序

优点:可对采集过程实现精细控制

缺点:开发工作量大

✧ Flume 日志采集框架

成熟的开源日志采集系统,且本身就是hadoop 生态体系中的一员,与hadoop 体系中的各种框架组件具有天生的亲和力,可扩展性强

,

Flume 采集实现

✧ 版本选择:apache-flume-1.6.0

✧ 采集规则设计:

1、 采集源:nginx 服务器日志目录

2、 存放地:hdfs 目录/home/hadoop/testdata/logs

,

项目数据流程——数据存储 存储目录规划

Flume 所采集的数据存放路径:

父目录:hdfs://hdp-node-01:9000/weblog/flume-collection/ 子目录:以小时划分

hdfs://hdp-node-01:9000/weblog/flume-collection/2015-11-10/13-00/ hdfs://hdp-node-01:9000/weblog/flume-collection/2015-11-10/14-00/

经过合并处理之后的数据存放路径

父目录:hdfs://hdp-node-01:9000/weblog/flume-combined/ 子目录:以小时划分

hdfs://hdp-node-01:9000/weblog/flume-combined/2015-11-10/13-00/ hdfs://hdp-node-01:9000/weblog/flume-combined/2015-11-10/14-00/