正能量资讯
数据化运营的四个主要数据类型

数据化运营是一个近年来兴起的概念,它在运营的基础上,提出了以数据驱动决策的口号。在了解数据化运营前,运营们有没有过如下的问题:

 

不同渠道,效果究竟是好是坏?

活跃数下降了,到底是因为什么原因?

这次活动推广成效如何?

发布了版本,用户喜不喜欢?

我们总是说传播,传播到底有多大?

 

这是产品和运营每天每时每刻都会遇到的问题。数据化运营,实际以解决这些问题为根本。它从来不是BAT的专属,也不是大数据的独宠,每一家互联网公司,都有适合的数据运营土壤。

 

数据运营体系,是数据分析的集合与应用,也是数据先行的战略,它不仅是运营人员的工作,也是产品、市场和研发的共同愿景。从管理角度,是自上而下的推动,如果领导不重视,那么执行者数据用得再好,也是半只腿走路。

 

如何构建数据化运营体系呢?以下是我的总结思考。

 

我将数据化运营体系划分成四层架构,每一层架构都逐步演进互相依赖,每一层又不可缺少。这四层分别是数据收集层,数据产品层,数据运营层,用户触达层。它是以运营人员为视角的框架。

 

数据化运营体系的底层是数据收集,数据是整个体系中的石油。

 

数据收集的核心是尽可能收集一切的数据,它有两个原则:宜早不宜晚,宜全不宜少。

 

宜早不宜晚,意思是产品从创立阶段,就需要有意识的收集数据,而不是等到公司发展到B轮、C轮才去收集。数据化运营贯彻产品全阶段,不同阶段有不同的运营方法。

 

宜全不宜少,指的是只有不合适的数据,而没有烂数据。像历史数据、变更记录或者细节处的数据,都存在价值。

 

举一个例子,有一家金融产品,它的征信系统会详细记录用户的行为,用户在借贷时上传担保资料,会记录用户在这些页面的操作步骤和时间。这里有一个假设,上传担保资料普通人一定是谨慎小心的,如果这步骤完成的非常顺畅快速,很可能是会违约和欠款的人群:你操作那么溜,是不是想捞一笔?属于熟练工作案。征信系统会把这些数据作为特征判断风险。

 

需要收集的数据能划分成四个主要类型:行为数据、流量数据、业务数据、外部数据。

 

1.行为数据

 

它是记录用户在产品上一系列操作行为的集合,按时间顺序记录。用户打开APP,点击菜单,浏览页面是行为;用户收藏歌曲、循环播放歌曲,快进跳过歌曲是行为。行为数据的核心是描述哪个用户在哪个时间点、哪个地方,以哪种方式完成了哪类操作。

 

我们可以利用其分析用户的偏好,页面停留时间的长短,浏览的频繁程度,点赞与否,都可以成为依据。另外一方面,用户行为也是用户运营体系的基础,按不同行为,如购买、评论、回复、添加好友等,划分出不同梯度,定义核心用户、重要用户、普通用户、潜在用户的分层。

 

行为数据通过埋点技术收集。埋点有不同种的实现方式,采集到的数据内容倒是没有差别,主要以用户ID,用户行为,行为时间戳为最主要的字段。用表格画一个简化的模型:

 

useId用来标示用户唯一身份,通过它来确定具体是谁,理解成身份证号就行。active就是具体操作的行为,需要在技术层面设置和定义,timestamp就是发生行为的时间点,我这里只精确到分,一般会精确到毫秒。用户的行为记录应该详细,比如浏览了什么页面,此时页面有哪些元素(因为元素是动态的,比如价格),它是半结构化的NoSQL形式,我这里简化了。

 

有时候为了技术方便,行为数据只会采集用户在产品浏览的页面,像点击、滑动这类操作不记录。属于折衷的方法。

 

除此以外,行为数据还会记录用户设备、IP、地理位置等更详细的信息。不同设备的屏幕宽度不一样,用户交互和设计体验是否会有差异和影响,怎么拿来分析?这也是数据化运营的应用之一,是宜全不宜少的体现。

 

2.流量数据

 

流量数据是行为数据的前辈,是Web1.0就兴起的概念。它一般用于网页端的记录,行为数据在产品端。

 

流量数据和行为数据最大的差异在于,流量数据能够知道用户从哪里来,是通过搜索引擎、外链还是直接访问。这也是SEOSEM以及各渠道营销的基础。

 

虽然现在是移动时代,Web时代的流量数据并不过时。比如微信朋友圈的内容都是HTML页面,活动运营需要基于此统计效果,我们可以把它看作一类流量数据。另外,不少产品是原生+Web的复合框架,内置的活动页大多通过前端实现,此时即算行为,也算流量数据,当我们将活动页发送到朋友圈时,相应的统计只能依赖基于前端的流量数据来采集了。

 

流量数据是基于用户访问的网页端产生。主要字段为用户ID、用户浏览页面、页面参数、时间戳四类,简化模型如下。

 

url是我们访问的页面,以 ***.com/*** 形式记录,param是描述这个页面的参数,我们在页面上的搜索、属性信息会以参数的形式记录。和行为数据一样,如果流量数据需要更详细的统计,也是以半结构化为佳,囊括操作记录。

 

它是活动及内容运营的好基友,活动的转化率,文章被发到朋友圈的阅读量等,都是作为流量数据被记录。主要通过JS采集。

 

流量数据的统计已经比较成熟,Google Analytics和百度统计都是知名的第三方工具,最为常用。不过它们不支持私有化的部署,只能提供统计,我知道这个页面有100人访问,但这一百人是谁不能定位,数据也无法记录在数据库中,这对数据化运营是一种麻烦。一些新式的工具则能支持这种更精细的需求,不过要收费。

 

如果有可靠和先进的技术手段,我们是能做到将行为数据和流量数据统一到一起,这是未来的趋势。

 

3.业务数据

 

业务数据在产品运营过程中伴随业务产生。比如电商产品,我进行了促销,多少用户领取了优惠券,多少优惠券被使用,优惠券用在哪个商品上,这些数据和运营息息相关又无法通过行为和流量解释,那么就归类到业务数据的范畴。

 

库存、用户快递地址、商品信息、商品评价、促销、好友关系链、运营活动、产品功能等都是业务数据,不同行业的业务数据是不一样的,业务数据没有固定结构。

 

业务数据需要后端研发进行配置,因为结构不能通用化,最好提前和研发们打声招呼提下需求。

 

行为数据、流量数据、业务数据构成了数据来源的三驾马车。统称为原始数据,指没有经过任何加工。

 

4.外部数据

 

外部数据是一类特殊的数据,不在内部产生,而是通过第三方来源获取。比如微信公众号,用户关注后我们就能获取他们的地区、性别等数据。比如支付宝的芝麻信用,很多金融产品会调用。还有公开数据,像天气、人口、国民经济的相关指标。

 

另外一种外部数据的获取方式是爬虫,我们可以爬取豆瓣电影评分、微博内容、知乎回答、房地产信息为我们所用。第三方不可能支持你获取,很多时候会有防爬虫机制。它需要一定的技术支持,不属于稳定轻松的来源。

 

外部数据因为质量难以保证,更多是一种参考的作用,不像内部数据能产生巨大的作用。

 

这四类数据构成了数据化运营的基石。随着互联网公司数据化水平的提高,能够利用的数据越来越多。数据结构逐步从SQLNoSQL;信息源更加丰富,图形和声音数据越来越多;技术由单服务器演变成分布式;响应从离线批处理到实时流式,都是数据收集的挑战。

 

当我们有了数据以后,进入下面一层,数据产品层。


如需转载请注明原文出处: 数据化运营的四个主要数据类型     http://www.znlds.com

Tags: