1.3 业界画像平台介绍

画像平台涉及的技术并不复杂,主要依托现有的大数据技术来实现相关功能。但是要实现一个好用且有用的画像平台,需要产研团队不断打磨。目前业界除了大公司之外,很少有公司自研画像平台。原因有两点:一是自研周期长、成本高,不如直接使用商业方案;二是绝大部分公司的互联网应用生命周期较短且用户量少,使用画像平台的效果不佳。

本节将介绍4款商用的用户画像相关平台(神策数据、火山引擎增长分析、GrowingIO、阿里云智能用户增长),包括它们的主要功能、技术架构和实现逻辑,帮助读者了解画像平台发展现状、常见功能及架构设计,为自研画像平台提供参考依据。

1.3.1 神策数据

神策数据(Sensors Data)的创始人是《数据驱动:从方法到实践》的作者桑文峰,他在2015年从工作了八年的百度离职之后创建了神策数据。神策数据(以下简称神策)的定位是国内专业的大数据分析和营销科技服务提供商。截至2022年3月,神策已经服务于30多个行业,付费客户达到2000多个。

神策提出了基于数据流的感知—决策—行动—反馈运营框架,简称SDAF(Sense、Decision、Action、Feedback)。基于这一框架理论,神策提供全渠道的数据采集和全域用户ID打通能力,实现了数据感知。神策分析平台可以进行全场景、多维度的数据分析,从而辅助进行数据决策。神策智能运营是基于用户行为洞察的一站式智能运营平台,能实现全通道的精准用户触达;这对应行动。神策运营相关的各类数据最终可以通过数据采集再次回到系统中,从而实现反馈。目前神策基于上述框架,围绕数据分析和营销构建了多款产品,如神策用户画像是面向业务的用户标签及用户画像管理中台,全端采集的数据整合后可以构建标签库,也就是用户画像数据,并最终可在神策分析和神策智能运营产品中使用。综上所述,神策提供的是从数据采集到智能运营全方位的数据服务,用户画像是其中一个比较重要的子系统。以下是神策平台用户画像的主要功能介绍。

1)标签管理。如图1-2所示,标签管理功能可以对标签进行增、删、改、查操作,标签数据可用于用户分群和画像分析等场景。图1-3展示了神策平台支持的标签创建方式,包括规则创建、SQL创建和导入创建,可以满足各种标签创建需求。

图1-2 神策标签管理功能页面

图1-3 神策平台支持的标签创建方式

2)用户分群。图1-4展示了基于用户属性和行为数据的规则人群创建页面,可以配置不同筛选条件的组合关系,支持例行更新或者手动更新,最终筛选出的用户会生成人群。

图1-4 神策用户分群功能页面

3)用户群画像。基于用户属性和行为可以筛选出满足条件的用户并分析画像信息,分析结果包括属性分布和指标变化等。图1-5展示了神策用户群画像功能页面。

图1-5 神策用户群画像功能页面

由上可知,神策用户画像主要包含标签管理、用户分群以及用户群画像功能。根据神策提供的官方文档,其基础数据流和架构如图1-6所示,数据从左向右进行流转。最左侧为数据采集模块,借助神策提供的SDK(Software Development Kit,软件开发工具包)以及开源工具,可以从不同的数据源采集数据。不同源头的数据最终统一传递到数据接入子系统,在该模块下对数据做ETL(Extract,Transform,Load,抽取,转换,加载)处理并将处理好的数据通过消息队列Kafka发送出去。导入子系统消费Kafka消息后,将数据落盘到存储子系统中,存储子系统借助大数据存储组件HDFS、Kudu以及Parquest实现。行为分析和人群圈选等任务由批量计算子系统来完成。神策查询引擎使用的是Impala,神策对于Impala比较熟悉并且在该引擎上做了大量的优化工作。大数据资源调度借助Yarn来实现。标签存储和管理模块实现了对各类标签的管理,采用Redis来缓存数据,实现高效查询。神策平台可以通过标签在线服务接口和平台功能对外提供服务。

图1-6 神策基础数据流与架构

神策的功能非常丰富,虽然其依赖的底层数据模型比较简单,但简单的模型为上层业务灵活性奠定了基础。图1-7展示了神策所使用的“事件模型”,主要包括事件和用户两个核心实体。

图1-7 神策数据模型

1.3.2 火山引擎增长分析

2020年6月,字节跳动推出了火山引擎。火山引擎主要依托字节自身在服务海量用户过程中所沉淀的云基础、大数据、智能应用等技术能力,为企业提供系统化的技术服务,助力企业持续快速增长。截至2022年3月,火山引擎已经服务了京东、36氪、猿辅导等多个知名企业。从产品功能角度来看,火山引擎更像阿里云服务,但是其功能点偏重促进业务智能增长。

火山引擎目前分为五个模块。云基础模块主要提供云基础设施,包括云服务器、对象存储、负载均衡、云数据库等常见的云服务。视频与内容分发模块偏重视频点播、视频直播、内容分发网络等视频处理和分发相关的技术能力。智能应用模块提供了智能推荐、音视频处理技术、机器学习平台等功能。开发与运维模块提供了一站式应用开发和管理服务功能,包括移动研发平台、持续交付、云监控等功能。数智平台模块提供搭建数据中台以及增长营销套件,其中增长营销套件包含客户数据平台、增长分析和增长营销功能。增长分析提供了一站式用户分析和运营平台,其功能包括各类行为分析、用户标签与分群、运营优化等。以下是火山引擎增长分析中用户画像主要功能介绍。

1)用户标签。图1-8展示了增长分析用户标签列表页面,可以对标签进行增、删、改、查操作。图1-9展示了新增标签的主要创建方式,支持自定义标签,也支持根据具体特征、SQL和上传文件生成标签等。

2)用户分群。图1-10展示了用户分群管理页面,支持对人群进行增、删、改、查操作,右侧操作栏支持用户画像的下载、查看等功能。图1-11展示了按规则创建分群页面,可以根据用户属性和行为等数据圈选用户并生成分群,分群支持自动更新。火山引擎也支持通过上传文件的方式创建分群。

图1-8 火山引擎增长分析用户标签列表页面

图1-9 火山引擎增长分析新增标签的主要创建方式

图1-10 火山引擎增长分析用户分群管理页面

图1-11 火山引擎增长分析按规则创建分群页面

3)用户画像。图1-12展示了用户画像页面,可以选择指定用户分群查看画像分布,也支持对分群下用户进行全局筛选,图中通过饼图和柱状图展示了用户性别和年龄分布。

图1-12 火山引擎增长分析用户画像页面

由上可知,增长分析平台画像相关功能主要包含用户标签、用户分群和用户画像功能。依据火山引擎对外公开文档,增长分析平台产品架构如图1-13所示。平台支持多种埋点形式,可以采集App、小程序、公众号、服务端日志等数据,再按照统一的数据指标体系构建用户数据、行为数据和内容数据,并基于这些数据实现用户分析、行为分析和智能分析功能。从图1-13中可以看出,增长分析平台的数据模型包含用户、行为和内容三个主要部分。

图1-13 火山引擎增长分析平台产品架构图

1.3.3 GrowingIO

GrowingIO是一款起步较早的数据分析及应用平台,目标是提供一站式数据增长引擎服务。GrowingIO的创始人是畅销书《首席增长官》的作者张溪梦,他先后在eBay、LinkedIn等公司负责商务数据分析工作。截至2022年3月,GrowingIO已服务上千家客户,日均处理数据量近千亿条。

GrowingIO的产品分为数据平台、智能分析和增长应用三部分。数据平台借助GrowingIO提供的多源数据采集能力将数据汇总、整合到一起,从而打破数据孤岛;基于底层数据可以为企业构建体系化的标签能力,支持深度分析和客户特征洞察,从而发掘业务增长点并发挥数据资产价值。智能分析可以实现用户行为实时监测和精准洞察,从而实现数据驱动产品优化;智能推荐和个性化功能模块是AI在GrowingIO平台上的能力体现,可以实现推荐自动化,借助算法助力增长。增长应用的重点是营销自动化,可以构建实时用户画像精准筛选受众,通过站内和站外渠道实现自动化用户触达。本书介绍的画像平台在GrowingIO中被称为“用户库”,主要实现用户标签、用户分群和用户分析等功能。以下是GrowingIO用户画像主要功能介绍。

1)用户标签。图1-14展示了用户标签页面,支持对标签进行增、删、改、查等操作。GrowingIO支持通过标签统计值、事件属性和标签分层创建新的标签。图1-15展示了通过标签统计值自定义标签的功能。

图1-14 GrowingIO用户标签页面

图1-15 GrowingIO新增标签页面

2)用户分群。图1-16展示了GrowingIO新建分群功能页面,可以基于用户属性和行为数据圈选用户,也支持通过上传数据生成分群。图1-17展示了用户分群列表页面,可以实现分群的收藏、下载和编辑等功能。

图1-16 GrowingIO新建分群功能页面

图1-17 GrowingIO用户分群列表页面

3)用户分析。图1-18展示了GrowingIO用户分析页面,可以筛选出满足条件的用户并进行画像分布、指标变化趋势分析。

图1-18 GrowingIO用户分析页面

依据GrowingIO对外公开的文档,其架构如图1-19所示。GrowingIO推荐使用SDK全埋点方案,用户无须编写埋点代码,只需要引入SDK便可收集全量用户数据。AWS为GrowingIO提供了支持负载均衡的数据接入服务,经由ETL处理后将数据写入Kafka中。实时数据接入系统主要通过Spark Streaming消费Kafka数据并将处理后的数据写入Elasticsearch和HBase;离线计算系统则借助Spark从HBase和Elasticsearch中读取数据,最终将计算结果存储到HBase和HDFS中供后续业务查询使用。

由上可知,GrowingIO用户画像的主要功能包括用户标签、用户分群和用户分析。GrowingIO公开文档中没有给出数据模型介绍。GrowingIO的用户分群和用户分析功能主要基于HBase来实现,HBase中存储了用户的行为明细数据和标签信息。数据可视化交互工作台上的操作最终会转化为SQL语句并通过Phoenix对HBase进行数据查询和统计。

图1-19 GrowingIO架构

1.3.4 阿里云智能用户增长

阿里云在2019年12月推出了智能用户增长(Quick Audience)运营平台,并于2021年7月推出了商业化版本。其定位是以消费者为核心,通过丰富的用户洞察模型和便捷的策略配置,完成消费者多维洞察分析和多渠道触达,助力企业实现用户增长。

智能用户增长主要包含的功能模块有数据源配置、用户洞察和营销触达。数据源配置提供了多种数据集的接入能力,用户洞察包含用户标签、受众管理和洞察分析等功能,营销触达包含用户营销和自动化营销等功能。本书讨论的用户画像相关功能主要集中在用户洞察功能模块。下文展示了阿里云智能用户增长主要支持的几个画像功能。

1)标签管理。不仅支持对标签进行增、删、改、查等操作,而且支持按照类目对标签进行划分。智能用户增长支持自定义添加标签,可以根据出现次数最多或者数值最大的属性创建用户的偏好类标签,也可以根据最后一次行为时间或者累计行为天数、频次等数据创建忠诚度标签,还可以创建购买力标签和用户阶段标签等。

2)人群管理。支持查看所有的人群列表并对人群进行增、删、改、查、下载、推送等操作。智能用户增长支持多种人群筛选方式,包括基于用户标签的标签筛选、基于行为数据的行为筛选、基于已有人群交并差计算的人群交并筛选、基于AIPL(Aware Interest Purchase Loyalty,认知、兴趣、购买、忠诚)和RFM(Recency Frequency Monetary,消费时间、频率、金额)模型的人群筛选。人群推送功能支持将人群发送至消息队列、数据银行或者各投放模块。

3)人群分析。支持透视分析和RFM分析。人群透视分析可以计算出当前人群的标签取值分布情况并通过可视化的组件展示分析结果,透视分析结果支持与其他人群进行数据对比。RFM分析重点分析人群的RFM指标情况,洞察人群的购买力价值。

根据阿里云对外提供的文档,智能用户增长架构如图1-20所示。最底层为数据源接入层,阿里云智能用户增长主要通过数据源和数据集管理来接入数据。数据源主推阿里云配套的数据存储服务。人群洞察层基于底层数据可以直接进行人群透视分析、RFM分析。人群圈选层基于底层数据可以进行人群圈选和人群管理。最上层为人群应用层,主要使用人群数据进行营销活动,支持多种方式传输人群数据。

图1-20 阿里云智能用户增长架构

以上4个平台是目前比较流行的且与画像功能相关的商业化平台。虽然画像相关功能只是其全部功能的子集,但是在各平台中都起着重要作用。以上平台都包含标签创建和管理功能,基于这些标签数据可以实现人群圈选和画像分析,生成的人群数据可用于各类营销活动。画像平台通过标签和人群体现出数据价值,借助分析和营销场景赋能到实际生产活动中。从各平台的定位介绍中能看出,目前画像平台的主要方向是辅助业务做好大数据分析和用户营销,并最终作用于用户增长。为了实现更精准的人群定位,借助机器学习实现智能人群圈选和分析也是当前各平台的主要探索方向。

提示

以上产品均可以进入官网体验相关DEMO功能。因产品更新迭代,本书截图与产品最新功能可能存在差异,以官网发布内容为准。