分类
数据分析 社交网络 移动互联网

防止浏览器跟踪,保护网络隐私

PRISM,该死的PRISM计划,揭露了这个丑恶的互联网的冰山一角,才发现防止浏览器跟踪、保护网络个人隐私的必要了。还好我们还是有一些武器来应对,比如Disconnect,比如Do Not Track Me。

想一想,各种网站分析、跟踪工具通过cookie等手段对我们的一举一动了如指掌;还有眼花缭乱的各种云服务,云存储,云通讯,社交网络,每家每户都无所不用其极的去了解你的行为,分析你的数据(窥探你也不知道啊),更可恶的是他们会在不通知你的情况下美其名曰按照政府法令提交给了情报机构。

还有哦,我把bookmark、contact全部托管的google,我也在用它的Chrome,那他是不是时时刻是知道我是谁?我在哪里?我访问了哪些网站?访问了多久?我跟谁联系过了?浏览器保存密码它是否也会知晓呢?

不敢想,还是要计划能offline的还是offline吧。这几天看到俩浏览器隐私保护的插件,DiscconnectDoNotTrackMe,感觉还不错,至少我自己用下来,的确一些分析工具跟踪不到我去访问的记录了。

disconnect_logo

DoNotTrackMe

 

 

 

以Disconnect为例,看看它的Dashboard就明白了,会明确告诉你过滤了多少跟踪代码,你的网速带宽也提高和节约了多少,还可以手动启用某些代码(比如你确实要用到某个站点的功能,像我就是Clicky)。

disconnect_plugin

 

 

 

 

 

 

 

 

 

 

 

这两个plugin都针对Chrome、Safari、Firefox。顺便说一下,Firefox其实已经支持Do Not Track特性了,但是它只是在你的数据上传到网络的时候,加一个“Do Not Track”的HTTP Header,但是对方服务器遵不遵守呢?看天地良心,鬼知道了。

最后来一张今天看到的美国五大科技公司怎么利用用户的数据的,蛮全面了。

infographic_big_brother_tech_company_06192013

分类
EC运营 数据分析

Google Analytics 温故而知新 (三)

从一个基本的Audience – Behavior – New vs Returning report,来看看GA的报表结构,其中会讲一下怎么配置几个重要参数。

A – report时间范围

这个比较简单,可以下拉选取几个定义好的时间,还可以compare其他的时间段,也可以自己在日历表里手动选取时间段。

B – 用户细分段、加入Dashboard,加入shortcut

用户细分段其实蛮重要的,对一个网站来说,不是所有的用户的行为特征都是一样的。可以实现去Admin-Asset里面定义好感兴趣的用户段,然后在这里过滤。

C – Dashboard、Shortcut

把这个报表添加到dashboard或者shortcut里面。

D – 报表类型

很多报表里面都会出现这个菜单项,这样就可以在最底下的报表里面显示goal和Ecommerce的转化内容,而不仅仅是普通的用户visit内容。

goal是指网站的一些转化指标,比如用户注册了,比如用户停留了多久,在Admin-profile里面设置。GA可以设置四类goal:目标网页、停留时间、访问页面数和事件。

GA goal type

一般来说电商网站在用户填完快递付款信息点击“下订单”按钮后会最终显示一个订单成功页面给用户,就可以用这个页面作为新订单的目标网页;然后可以为这个goal设置funnel,funnel就是说用户完成这个goal经历的步骤,比如先访问首页,然后访问产品页面,再到购物车页面,再到结算页面。定义好这个funnel以后,以后在goal funnel报表里面,看到每个步骤的流失率。

停留时间和访问页数好理解了。事件呢,就是比如我要跟踪我网站上一个“下载”按钮点击了多少次,我的某个视频按钮点了多少次,事件配置需要在源代码上引入GA的方法,GA方法可以在GA Help里面找到很多,搜索Event即可。

E – 报表metric

可以添加其他metric,在同一个图里面显示出来。下拉菜单里面都有很详细的list。

F – 维度

有主维度,次要维度,以显示更详细的报表内容。

这些都是基础了,关键还是你要知道你需要什么?你的目的是什么?你要优化什么?然后通过分析,行动,对比,来达到目的。

而其他的分析工具还有很多,很多免费的,很多商业的。商业上比较有名的可以看看被IBM收购的Coremetrics,还有被Adobe收购的Omniture。免费的还有Clicky等很多,国内baidu之类的也有不少。

而Adobe的Market Suite其实不光是分析了,它的套装涵盖了从市场营销到分析结果,一站式的解决方案。

当然每个分析工具,有些参数或者监控方法其实是有少许差别的,比如怎么定义bounce,怎么计算停留时间等等。不管怎么样,还是那句话,重点是趋势。

参考:

Google Analytics 温故而知新 (一)

Google Analytics 温故而知新 (二)

分类
EC运营 数据分析

Google Analytics 温故而知新 (二)

一个gmail账号,可以创建多个GA account,通常以域名来区分。每个account都有一个ID。

一个GA account,可以有多个配置文件property,配置文件以account ID-1,-2命名。

account ID共享users、filters设置,users决定这个account内容可以共享给哪些其他GA用户,filters可以过滤一些不需要的流量,比如来自公司内部的,或者过滤掉某个子目录的访问。

配置文件可以配置代码选项,配置目标goal(包括event),还有用户分段。

GA menu

导航条上从左到右分别有“当前account/property”,“reporting”,“customization”,“Admin”和“help”。”当前account/property“可以下拉选择想要去的配置文件,”Admin“是修改更新配置文件,比如添加goal、用户分段等。

回到重点,”reporting“。左侧栏有2大类功能区,分别是”My Stuff“和”Standard Reports“。

My Stuff可以定制一些内容,比如定制自己的dashboards(缺省就有,可以再拖拉定制),定制shortcut,也就是把一些常用的report生成快捷放在这个区域,还有定制智能提醒事件,比如流量下降多少提醒,毕竟有时候找个人专门看GA还是不那么容易。

Standard Reports就是GA的核心报表了。分下面几大块:

1. Real-Time 实时报告

2. Audience 访客报告

有关用户的数据都在这,除了overview,具体又包括
a. 访客统计 – 语言 地理位置
b. 用户行为 – 新旧访客 访问频率 用户参与度(停留时间和访问页面数)
c. 技术参数 – 浏览器 操作系统 ISP
d. 移动用户 – 移动概述 移动设备统计

3. Traffic Sources 流量来源报告

用户来源也包括
a. 来源 – 直接访问 链接referral 搜索引擎 广告活动
b. 搜索引擎优化 – 需要webtool配合
c. 社交

4. Content 流量具体内容报告
a. 网站内容 – 页面 登陆页面 退出页面
b. 网站速度
c. 网站搜索
d. 事件event
e. AdSense

5. Conversions 转化报告
a. 目标Goal – 目标URL 反向目标路径 转化可视化漏斗图
b. 电子商务 – 产品 销售 交易订单 产生购买的时间
c. 多渠道分析 – 附注转化 最高转化路径 时间差 路径深度

网站优化的目的,无非要么多吸引点新用户过来,要么留住用户多看点内容,要么让老用户多回来看看,要么多转化用户购买或者下载或者观看之类。

一般,GA重在趋势,而非个体分析。有了足够多的参考数据,就可以通过分析用户来源,用户行为,网站页面的跳出率,转化率等指标,去做针对性的网站页面、内容、设计、流程、市场活动的改善,然后对比前后趋势,去达到最终的网站优化的目的。

下一次会继续讲一下GA report里的常规内容,一些使用方面的心得。

参考:

Google Analytics 温故而知新 (一)

Google Analytics 温故而知新 (三)

分类
EC运营 数据分析

Google Analytics 温故而知新 (一)

开始讲讲Google Analytics,google的网站分析工具,由于免费加上功能完整,因此很受欢迎。当然有些特性上还是和商业的有些差距。

先说说基础的一些东西:跳出率,退出率,visit,session,PV,UPV。

跳出率 – 只访问了一个页面page随即退出的访问数visit比例

有很多因素会导致跳出率升高,比如入口页面有网站设计或者不可用性问题,或者用户在那个页面没有找到他想要的信息,或者没有需要或兴趣继续下去了。

下面列一下可能的因素:

1. 单页站点 – Single page site
碰到这样的站点,除非用户刷新页面(这个点可能也是GA的一个问题),否则GA不会统计到多个pageview,所以一般有很高的跳出率。怎么办呢?这时候就要使用其他的跟踪方法了,如Events。

2. GA配置问题 – Incorrect implementation
高跳出率也有可能是因为GA跟踪代码没有配置对,好好检查下。

3. 网站设计问题 – Site design
如果GA跟踪代码没问题,也不是单页面站点,还是有很高的跳出率,就必须考虑:
a. 重新设计登陆页
b. 根据用户的搜索词或者广告内容,来优化登陆页,使用户觉得所得即所搜
c. 根据页面内容,调整广告和关键词

4. 用户行为 – User behavior
有时候用户的行为也会导致高跳出率,比如一个用户收藏了你的某个页面,他访问完以后就走了。

怎么改善跳出率:

具体来说,改善跳出率,需要具体情况具体对待,最好的办法就是分析数据。一个网站同时进行的不同市场活动都会导致不同的跳出率,所以要针对特定流量来源分析。另外考虑其他维度,比如媒介,关键词,campaign,登陆页去逐个分析也是很好的方法,总之从细分的跳出率入手比从网站统一跳出率更有可操作性。

退出率 vs 跳出率

为了更好地理解某个具体页面page的退出率和跳出率,记住下面三点:

1. 某个页面的退出率 = (这个页面是session最后一个page的pageview)/ 这个页面所有的pageview

2. 某个页面的跳出率 = (既是登陆页又是唯一页面的session数)/ 以这个页面为登陆页的所有session数

3. 页面跳出率是基于visit的,visit的登陆页必须是这个页面。visit就是session哦,但是不同于unique visit。

打个比方,你的网站有3个页面page – A、B、C,每天只有一个session:

周一:A -> B -> C
周二:B -> A – > C
周三:A -> 退出

于是GA报告里,page A有3个pageview,50%的跳出率,注意是1/2,不是1/3,以A为登陆页的只有2个session。一个页面的跳出率只有这个页面发起了一个session时才有意义,而跳出则是说这个session只有一个网页互动操作。

让我们来扩展一下这个例子:

周一: B > A > C
周二: B > 退出
周三: A > C > B
周四: C > 退出
周五: B > C >A

退出率:
A:1/3
B:2/4
C:2/4

跳转率:
A:0
B:1/3
C:1/1

再关注几个概念PV,UPV,visit,session:

1. unique pageview vs pageview

英文解释是:Unique Pageviews is the number of visits during which the specified page was viewed at least once. (The unique pageview statistic represents the number of individual visitors who have loaded a given page per session. Each visitor to your site is counted only once per session, no matter how many pages are opened by the same visitor.)(A unique pageview aggregates pageviews that are generated by the same user during the same session. A unique pageview represents the number of sessions during which that page was viewed one or more times.)

中文可以解释为:某个页面至少被访问了一次的用户访问visit数;也就是说在一次访问visit里,可以对这个page有多个pageview。

pageview就简单了,统计所有的page访问数,页面刷新或者离开再返回都算新pageview。

2. session/visit vs visitor

Visits represent the number of individual sessions initiated by all the visitors to your site. If a user is inactive on your site for 30 minutes or more, any future activity is attributed to a new session. Users that leave your site and return within 30 minutes are counted as part of the original session.

The initial session by a user during any given date range is considered to be an additional visit and an additional visitor. Any future sessions from the same user during the selected time period are counted as additional visits, but not as additional visitors.

访问visit表示由用户发起的对网站的会话(session),session有30分钟的timeoue时间,idle时间超过30分钟(可以配置),用户再发起的活动就算新session了。用户离开但是同一个电脑同一浏览器30分钟内回来,还算相同的session。

给定时间内的初始会话可以视为一个新的visit和一个新的visitor,这段时间内的新session都算是新visit,但是不是新的visitor。

所以基本上visit可以等同于session。

参考:

Google Analytics 温故而知新 (二)

Google Analytics 温故而知新(三)

分类
数据分析

PRISM,美国网络间谍网曝光

华盛顿邮报今天曝光了美国网络间谍网,PRISM。网络巨头们虽然极力否认,但是目前看来事实已经明摆了。

Huffingtonpost则连登了一系列的文章作为抬头专题,表明一切都是真的,连美国国务院的声明,好多Senate的表态都放出来了。

Prism-report

Google,你也骗人,你的privacy政策呢?

让我想起来了,去年好几次奥巴马召集科技巨头们开会,还以为是研究美国国家科技政策呢,估计是私底下讨论PRISM吧。

tech giants

基本上,从目前的资料看:

  1. PRISM主要针对国外用户,反正也没有法案保护国外用户,反正你随时都有可能成为恐怖分子;

  2. 如果RPISM要针对美国公民或者居住在美国的人,必须出具法院文件,科技公司会配合。

  3. 美国国会议员其实都知道这个东西,只是对民众秘而不宣罢了。

  4. 所以科技公司的申明,总是说,我们不知晓PRISM(废话,当然要配合政府),我们只会在法院文件下提供数据。

好吧,看看曝光的PRISM资料的片段吧。

prism-slide-1

prism-slide-2

prism-slide-4

prism-slide-5

分类
基础架构 数据分析

原来CAPTCHA还有点公益性质呢

这个东西,CAPTCHA,大家都很熟悉,也做过,也很讨厌吧。

太tmd难认了,也难怪很多国内网站都采用了其他方案。至少之前搭的Vinilla采用了问答式的解决方案。

不过今天偶然发现才知道,原来google收购的这个东东,来源自reCAPTCHA,一个数字化报纸,书籍等数字时代以前的出版资料项目。

扫描以前的书籍出版物,电脑碰到不认识的,reCAPTCHA就做一个CAPTCHA出来,给人来读。一举两得,既用众人之力解决了问题,又能帮助网站辨识真人和机器人。

但是既然电脑都不认识,它又怎么知道你输入的是对的呢?于是乎,一个标准的CAPTCHA都是两个word,一个是好辨认的也是电脑也认识的不过更加打乱了一些,另外一个是电脑不好辨认的。只要电脑认识的那个输入对了,第二个也会作为备选答案,和其他人的结果作对比,选出最佳答案。

Google的reCAPTCHA网站,也列出了做一个安全的网站CAPTCHA的guideline,可以好好瞧瞧,安全第一啊!

分类
基础架构 数据分析

Splunk赶上了大数据的春风

2010年第一次听讲Splunk,还是一个MS的合作伙伴的一次技术研讨会,那时候Splunk其实已经很火了,只不过因为没有大数据(big data),当时的概念还只是任何平台,任何数据,索引然后搜索!记得它的还是因为它每天有Free的500M log数据,对于中小企业来讲,已经足够了。

然后2012年4月,它上市了!赶上了大数据的春风。而且股票,市值很抢手。被众多媒体评论人投资人工程师追捧,这不,被“风投家、银行家和高科技行业专家看好的几家大数据公司”,“最被硅谷工程师看好的创业公司”。

不要被目前的大热“大数据”“big data”所迷惑,其实Splunk说复杂很复杂,说简单很简单。

利用agent,收集几乎所有IT设备,系统,程序来的日志,利用它核心的索引技术,为技术人员带来高效率的搜索查询,解决问题。

本身的免费措施会吸引很多IT技术人员投入其中,毕竟500M一天对很多IT架构来说已经足够了。

另外,由于采用了流行的APP模式,又吸引了一大批IT开发人员投入到外围的APP中,让splunk有一个生态链,不断的发展,功能扩展。

迫不及待,可以试试了。

分类
数据分析

利用Google GA监控线上广告流量来源

首先知道一下Google的URL工具

根据google的建议,新建一个特定的线上广告URL,其实基本就是你的网站的URL后面跟上了若干参数,方便GA来跟踪。

然后在线上广告的你的网站的网址链接用google生成的那个URL,比如你放在其他合作网站上的link,比如你的二维码的实际link。

最后,去GA,查看流量来源的“广告”,右侧显示的就是“广告名字”。

就可以看到访问量,跳出率等等追踪数据,这样就可以评估广告的效果了。