在进行互联网用户浏览行为的定量研究中,阿里巴巴中国站用户研究小组开发了一个基于服务器日志的可视化分析工具。(视频)
这个分析工具可以通过用户产生的服务器日志数据自动还原出网站结构,并按照页面流量阈值绘制站点地图,并将关键的页面流量数据及其他商业指标进行可视化处理,标注在这张特殊的网站地图上。
用户研究员可以快速获得网站重要页面及产品的直观图像甚至健康状态。
这个工具也被加入了丰富的交互功能,允许用户分析员选中或者搜索某个页面(节点),查看当前页面的主要用户来源和流向,并打印出URL列表。
同时它也支持按照session或者cookie对用户的群体行为进行多步回溯,从中发现用户浏览网站或者产品使用上的群体行为。
现在这个工具可以在普通笔记本上在10分钟内处理1000万PV的日志样本。假设再加上实时的log数据,或许这个工具也将改变网站产品设计和内容运营的方式,成为一个”Real Time Game”
以下是详细介绍:
随着网站用户的增加,越来越多的网站希望能够了解用户的访问行为。面对纷繁复杂的数据,很多研究者致力于研发直观明了操作便利的可视化软件。本文将介绍我们小组研发的网站用户行为可视化软件G2G (the Guide to Galaxy or loG).
一.实现原理:
1.前提:
用户在访问网站过程中,网站数据仓库记录了用户的IP地址,访问时间,访问的URL,来源Refer(注1), CookiID等相关信息,这些信息被称为日志。G2G根据日志分析页面的转换率(注2), 主要来源和去向,群体用户的访问步骤等。
2.结构:
G2G分为两个页面,左页面是时间步数序列图,右页面是页面分布图。
左页面纵坐标为时间:0-24小时,横坐标为用户访问步长:1-800步。每个像素代表用户在一分钟内是否访问过,颜色越红,访问用户越多。例如,当某个用户的访问步长是100步时,则在横坐标为100处,纵坐标为用户访问时间处标注颜色。如果用户在接连不断的访问网站,则在相应位置会出现一条纵线。
右页面的每个圆圈代表网站的一个URL,圆圈大小代表访问量,越大代表访问量越高。颜色代表转换率,越蓝代表转换率越高。基本上,蓝点可以看做是起点,橘黄色的点可看做是终点。
URL的排列采取目录结构方式,内圈代表最简单的目录,越往外圈,目录越深。例如,某个url名称为a/b/c.html,则a作为一个url在最内圈,a/b在次外圈,a/b/c.html在第三圈。在很多情况中,a和a/b只是纯目录结构,并非实际页面,因此并没有用户会访问到它们。此时会以正方形表示,以此为圆心的空心圆圈大小代表其子节点的访问量,在此例中,a的空心圆圈的大小就是a/b,a/b/c.html,a/d,a/d.html等等a/*的页面的访问量之和。
二.功能
G2G除了可以显示上述信息之外,还有以下几种功能可以帮助研究者从不同角度查找信息。
1.可以搜索或者选中一个节点,即URL,查看其主要来源和去向,也可以查看按照时间序列的多步路径。
2.可以从左页面中选中某个区域,点击搜索,在右页面中将会显示选中区域时间段内的页面访问量,转化率等信息。
三.应用点举例
有些信息很明显,例如从左页面上,我们很容易看出一天24时内,何时是访问高峰期或低谷期,因此准确选择合适的时间做一些更换服务器等维护工作。
我们也可以直观分析外站的搜索引擎引入的流量,从而判断哪种搜索引擎更有效,以及这些用户在网站中的访问模式。
另外,我们在研究中发现一个有趣的插曲,在阿里巴巴十周年时,从淘宝首页访问到阿里巴巴的用户中,大部分被引导到阿里巴巴十周年专题。
研究者如果对数据比较敏感,或者能够从多种角度查找信息,则会发现更多有趣的现象。
四:总结
网站用户的行为轨迹对网站来说是一笔很巨大的财富,如果能够充分利用这些信息,将对网站的发展意义重大,我们期待更多研究者参与网站用户行为的可视化研究领域。
注1:用户访问当前页面的前一个来源页面,例:用户从A页面的某个连接进入B页面,则B页面的Refer是A页面。
注2:转换率是指从当前页面跳转到其他页面的比例。








