在进行互联网用户浏览行为的定量研究中,阿里巴巴中国站用户研究小组开发了一个基于服务器日志的可视化分析工具。(视频

这个分析工具可以通过用户产生的服务器日志数据自动还原出网站结构,并按照页面流量阈值绘制站点地图,并将关键的页面流量数据及其他商业指标进行可视化处理,标注在这张特殊的网站地图上。

用户研究员可以快速获得网站重要页面及产品的直观图像甚至健康状态。

这个工具也被加入了丰富的交互功能,允许用户分析员选中或者搜索某个页面(节点),查看当前页面的主要用户来源和流向,并打印出URL列表。

同时它也支持按照session或者cookie对用户的群体行为进行多步回溯,从中发现用户浏览网站或者产品使用上的群体行为。

现在这个工具可以在普通笔记本上在10分钟内处理1000万PV的日志样本。假设再加上实时的log数据,或许这个工具也将改变网站产品设计和内容运营的方式,成为一个”Real Time Game”

以下是详细介绍:
随着网站用户的增加,越来越多的网站希望能够了解用户的访问行为。面对纷繁复杂的数据,很多研究者致力于研发直观明了操作便利的可视化软件。本文将介绍我们小组研发的网站用户行为可视化软件G2G (the Guide to Galaxy or loG).

一.实现原理:
1.前提:
用户在访问网站过程中,网站数据仓库记录了用户的IP地址,访问时间,访问的URL,来源Refer(注1), CookiID等相关信息,这些信息被称为日志。G2G根据日志分析页面的转换率(注2), 主要来源和去向,群体用户的访问步骤等。

2.结构:
G2G分为两个页面,左页面是时间步数序列图,右页面是页面分布图。
左页面纵坐标为时间:0-24小时,横坐标为用户访问步长:1-800步。每个像素代表用户在一分钟内是否访问过,颜色越红,访问用户越多。例如,当某个用户的访问步长是100步时,则在横坐标为100处,纵坐标为用户访问时间处标注颜色。如果用户在接连不断的访问网站,则在相应位置会出现一条纵线。

右页面的每个圆圈代表网站的一个URL,圆圈大小代表访问量,越大代表访问量越高。颜色代表转换率,越蓝代表转换率越高。基本上,蓝点可以看做是起点,橘黄色的点可看做是终点。
URL的排列采取目录结构方式,内圈代表最简单的目录,越往外圈,目录越深。例如,某个url名称为a/b/c.html,则a作为一个url在最内圈,a/b在次外圈,a/b/c.html在第三圈。在很多情况中,a和a/b只是纯目录结构,并非实际页面,因此并没有用户会访问到它们。此时会以正方形表示,以此为圆心的空心圆圈大小代表其子节点的访问量,在此例中,a的空心圆圈的大小就是a/b,a/b/c.html,a/d,a/d.html等等a/*的页面的访问量之和。

二.功能
G2G除了可以显示上述信息之外,还有以下几种功能可以帮助研究者从不同角度查找信息。
1.可以搜索或者选中一个节点,即URL,查看其主要来源和去向,也可以查看按照时间序列的多步路径。
2.可以从左页面中选中某个区域,点击搜索,在右页面中将会显示选中区域时间段内的页面访问量,转化率等信息。

三.应用点举例
有些信息很明显,例如从左页面上,我们很容易看出一天24时内,何时是访问高峰期或低谷期,因此准确选择合适的时间做一些更换服务器等维护工作。
我们也可以直观分析外站的搜索引擎引入的流量,从而判断哪种搜索引擎更有效,以及这些用户在网站中的访问模式。
另外,我们在研究中发现一个有趣的插曲,在阿里巴巴十周年时,从淘宝首页访问到阿里巴巴的用户中,大部分被引导到阿里巴巴十周年专题。
研究者如果对数据比较敏感,或者能够从多种角度查找信息,则会发现更多有趣的现象。

四:总结
网站用户的行为轨迹对网站来说是一笔很巨大的财富,如果能够充分利用这些信息,将对网站的发展意义重大,我们期待更多研究者参与网站用户行为的可视化研究领域。

注1:用户访问当前页面的前一个来源页面,例:用户从A页面的某个连接进入B页面,则B页面的Refer是A页面。
注2:转换率是指从当前页面跳转到其他页面的比例。

g2g_s

18 Responses to “G2G 2.0, User Behavior Visualization Analyzer released.”

  1. panda 说:

    抢沙发。

    这是我们数据可视化迈出的小小一步,但却是历史性的一步,哈哈

    [回复]

  2. [...] 匿名读者 写道 “在进行互联网用户浏览行为的定量研究中,阿里巴巴中国站用户研究小组开发了一个基于服务器日志的可视化分析工具(视频)。 这个分析工具可以通过用户产生的服务器日志数据自动还原出网站结构,并按照页面流量阈值绘制站点地图,并将关键的页面流量数据及其他商业指标进行可视化处理,标注在这张特殊的网站地图上。用户研究员可以快速获得网站重要页面及产品的直观图像甚至健康状态。这个工具也被加入了丰富的交互功能,允许用户分析员选中或者搜索某个页面(节点),查看当前页面的主要用户来源和流向,并打印出URL列表。同时它也支持按照session或者cookie对用户的群体行为进行多步回溯,从中发现用户浏览网站或者产品使用上的群体行为。现在这个工具可以在普通笔记本上在10分钟内处理1000万PV的日志样本。假设再加上实时的log数据,或许这个工具也将改变网站产生设计和内容运营的方式,成为一个”Real Time Game”。” [...]

  3. [...] “在进行互联网用户浏览行为的定量研究中,阿里巴巴中国站用户研究小组开发了一个基于服务器日志的可视化分析工具(视频)。 [...]

  4. HeNNeSSy 说:

    ms在某个大学的实验室论文中见过这个创意,关于网络攻击流量的

    [回复]

  5. est 说:

    我猜是Java写的?

    [回复]

  6. tcdona 说:

    菜鸟评价
    看起来好酷好深奥

    [回复]

  7. UR 说:

    是C和xlib写的.

    [回复]

  8. ant 说:

    上面实现的功能,其实对多数中小网站GA就足够了,当然考虑商业秘密的话,有钱有闲自己开发最好。

    [回复]

  9. 蛋王 说:

    哇,这产品赞的,不知道会不会共享出来啊?哈哈。。。

    [回复]

  10. Mucro 说:

    有点像isi webofscience上的引用地图哈。。。下一步有没有嵌套方块图啊

    [回复]

    茶农 回复:

    给我的第一感觉也是这个。。。 基于的原理相同。
    不过确实将数据挖掘中的一些功能进行视觉化,也是一个“前人栽树”的工程,赞一下!

    [回复]

  11. 余热锅炉 说:

    不知道会不会共享出来啊

    [回复]

  12. 好东西.大家一起分享

    [回复]

  13. dawenxi3000 说:

    这个产品设计的非常好。我一直以来也在做着类似的尝试,始终没有完成一个成型的东西。看到你们的制作的工具,很佩服。
    根据我的研究发现几点问题,和你们分享,希望你们的工具不断完善起来.
    一,用户行为分析的数据基础,应该或者必须建立在网站固有的结构数据之上,所谓【背景数据】。
    用“用户行为数据”还原网站结构,有些欠妥。
    作为用户行为统计分析工具,都是基于url统计的。简言之:“谁”看了哪些“网页(url)”。这类数据非常重要!url通过refer可以很好的被串联起来,勾勒出网站的用户的行为,从中挖掘用户意向,对网站很有用。
    然而,网站本身的结构也在很大程度上决定着用户行为的走向。每一次页面内容更新,对于用户行为都有很大影响。refer可以固化、串联每一次的用户访问行为,但是,仅仅通过用户行为串联url,充满了随机和偶然。这时候,如果,有网站结构,既网站固有的url数据作为背景数据。用户行为数据应该是“锦上添花”。(待续)

    [回复]

  14. pyzy 说:

    呵呵 我个人曾经做过一个跟踪页面鼠标的,可以通过鼠标滑过的坐标点判断热点区域、热点点击;

    很想看看视频效果 ,但现在看不了了?

    [回复]

Leave a Reply