1.1 画像基本概念

画像是体现大数据价值的一种方式。作为画像数据产品化的主要途径,画像平台尤为重要。本节将介绍画像的基本概念以及画像数据的重要性,引入画像平台并描述其功能定位。

1.1.1 什么是画像

介绍画像之前,先了解一下标签。标签用于描述事物的某项特征,具有抽象性和概括性。以人来举例,男和女是人的特征,这类特征可以抽象为“性别”,性别便可以作为一个标签。以短视频用户为例,在观看短视频过程中用户表现出了对军事或者体育类视频的兴趣,这类特征可以抽象为“兴趣爱好”,这也是一个标签。画像依托于标签。当提到画像的时候,往往是一组具体标签值的组合,比如兴趣爱好包含军事且性别为男的用户。用户画像字面含义偏重“用户”,往往是指对“人”这一主体的画像。

1.1.2 画像的重要性

自2014年以来大数据的重要性逐年凸显起来。2020年3月30日,中共中央、国务院发布《关于构建更加完善的要素市场化配置体制机制的意见》,将数据与土地、劳动力、资本、技术并列,作为新的生产要素,并提出“加快培育数据要素市场”。2021年国家“十四五”规划明确提出要“激活数据要素潜能”,并将大数据视为已融入经济社会发展各领域的重要应用。图1-1展示了我国数据战略的发展历程。

图1-1 我国数据战略的发展历程

在大数据时代,画像的重要性主要体现在三个方面。

❑画像是大数据价值体现的一种方式。虽然大数据已经被各行各业重视起来,但是目前大数据的利用率仍比较低,IDC(Internet Data Center,互联网数据中心)和希捷科技的调研预测,未来两年企业数据将以42.2%的速度保持高速增长。但是目前企业运营中的数据只有56%能够被及时捕获,而被捕获的数据中也仅有57%的数据得到了利用。换句话说,只有约32%的企业数据价值能够被激活。在数据利用率较低的情况下,如何更好地挖掘数据价值便非常重要。画像开发依托于比较成熟的大数据技术体系,各类企业可以借助大数据技术快速进行画像开发并构建完善的画像数据体系,最终通过工程化手段提高画像数据使用的便利性,借助画像释放大数据的价值。

❑画像应用场景广阔。画像数据可以直接应用于各类机器学习算法中,提高算法的准召率;也可以应用于各类分析场景中,提高对业务发展变化的洞察力;还可以用于精细化运营,提高投入产出比。在电商领域,将画像数据应用到推荐算法中可以精准挖掘用户的购买需求,做到千人千面;在销售领域,通过对用户做详尽的洞察分析,如性别分布、常住地域分布、购买力分布等,可以做更有倾向性的产品规划和市场布局;在广告投放领域,客户使用广告投放平台时可以利用画像数据精准定位目标人群,借此提高广告投放转化率。综上可知,画像数据具有非常广阔的应用场景,且已经应用到互联网领域各类业务中并取得了不错的成果。

❑画像可理解性和可解释性强。目前,机器学习算法尤其是深度学习算法已经应用到各类场景中,虽然取得了突出的成绩,但是在算法结果的解释上一直缺乏明确性。以某App推荐为例,每个用户接收到的推荐列表是不同的,但是很难从算法的角度给出明确的推荐理由。这是由于机器学习算法应用了海量的特征及特征组合数据,经由复杂的算法模型处理后,这些数据很难明确地解释清楚用户的特点和动机。与之相反,画像数据可以直接且明确地表达用户的特点,可解释性较强。比如给喜欢NBA的男性用户推荐了篮球,这个推荐的理由非常明确且容易理解。在数据分析过程中也同样需要明确的用户画像数据,比如分析近一个月山东省男性用户在线时长变化,需要明确指定用户的性别和常住省信息。

综上可知,在大数据时代,画像是一种充分体现数据价值的方式,在当下和未来都非常重要。基于现在比较成熟的大数据技术便可以进行画像数据开发,而且其可理解性和可解释性强,不仅可以在数据分析领域起到重要作用,产出的画像数据还可以应用在其他各类业务场景中。

1.1.3 画像平台定位

画像数据一般存储在数据表中,如果只是通过数据表的形式对外提供服务,很难充分发挥数据的价值。画像平台是一款可视化的用于体现画像数据价值的应用,其底层依托于画像数据,借助工程手段以平台功能或服务接口的形式对外提供广泛的画像服务,并由此提高画像数据利用率,扩大画像数据价值。画像平台是本书重点,后文将通过平台发展现状和整体架构介绍引申出平台的常见核心功能,并分别介绍各核心功能的详细架构和实现方案。