编辑导语:聚类分析是对样本或指标进行分类的一种统计方法,它能帮助我们窥探不同人群之间的数据差异,也被应用于基于定量数据的用户分类实践中。本文作者结合某金融借贷服务流程再设计中的用户分类案例,阐述了聚类分析在用户画像中的应用,一起来看一下吧。
聚类分析(Cluster analysis)是对样本或指标进行分类的一种统计方法,属于探索性的数据分析方法。
聚类分析将看似无序的对象(如桌子、人、树木、情绪、观念等)进行分组、归类,按照个体或样本的特征将其分类,使得同一类别下的个体具有尽可能高的同质性,而不同类别/组别之间则是尽可能高的异质性,以更好地理解研究对象。
物以类聚,人以群分。借助聚类分析算法,可以帮助我们窥探不同人群之间的数据差异(如图1)。因此,此种方法也被应用于基于定量数据的用户分类实践中。
图1:二维(2个变量 )下的聚类分析示意图
然而,由于聚类分析所使用的数据并没有明确的分类,聚类分析后的类别数量也是未知的。
即:我们不知道用来聚类分析的样本大概有什么分布,也不了解系统会将其分成哪几类,事先可能也没有任何有关类别信息供参考。
因此聚类分析更像是一种建立假设的方法,而对相关假设的检验还需要借助其它统计方法,在用户画像的生成过程中,建议将聚类分析当做一种探索分类结构、提供数据支撑的手段,而非(也不可能)完全依赖于聚类分析来形成最终用户分类结论。
以下结合某金融借贷服务流程再设计中的用户分类案例,来具体阐述聚类分析在用户画像中的应用。
01 聚类分析适用的数据类型聚类分析所应用的数据类型主要为多维度、连续/等级/分类变量,且要求数据量足够大、客观可测量,因此,较为适合应用于研究者已拥有海量、多维度用户客观数据的情况。
数据来源如:已经运营一段时间的产品后台数据、电商浏览购买行为数据、客户CRM数据、微信公众号后台数据等。
基于这些数据,我们可以以用户实际产生的行为数据(如:点击次数、转发次数、使用频率等)、人口学资料数据等客观数据将用户分成数类。正因此,聚类分析被广泛应用于消费者行为研究、细分市场研究、电子商务运营策略研究等关注人群、市场和消费行为的研究项目中。
聚类分析介入用户分类的程序:在用户研究工作中,用户分类可以基于定性或定量数据来进行,但最终会收敛为一个具体、明确、符合经验的分类模型,使之能够服务于未来的产品设计与运营。如图2:
图2:2019微众银行用户调研之人群画像
仅依靠数据无法帮助我们定义和解释不同类别下的样本轮廓,也无法将统计结果直接运用于生产设计和运营活动中。
因此聚类分析的方法应当结合前后期的定性研究(如产品走查、用户访谈、内部访谈、观察、工作坊等)和定量研究(问卷调查、拦访调研、接受度测试等)而进行。在本案例中,研究者采取了先定性,后聚类,再补充定量的方式,来形成和运用聚类分析的结果,如图3: