通俗理解数理统计,数理统计的基础知识

首页 > 教育 > 作者:YD1662024-05-19 22:38:04

导读:数据分析要熟练掌握数据科学与数理统计的基本概念。

作者:张秋剑 张浩 周大川 常国珍

来源:华章科技

通俗理解数理统计,数理统计的基础知识(1)

01 数据科学的基本概念

随着计算机技术的发展和有用数据的快速增多,数据科学应运而生。数据科学的总体目标是在已有数据集的基础上,通过特定的算法提取信息,并将其转化为可理解的知识以辅助做决策。

例如,北京****信用管理有限公司是一家典型的数据公司,有两个主要业务:第一个是为会员机构提供数据加工服务,第二个是提供反欺诈与信用风险管理的产品和咨询服务。

第一个业务的主要工作内容是为会员机构清洗数据,并提供数据存储与管理服务。按照经济学的观点,这类业务的附加价值极低,只能获得社会一般劳动报酬。

第二个业务属于增值服务,数据科学工作者将数据与金融借贷的业务知识相结合,为会员机构提供风控方面的咨询服务。这类业务的边际报酬在客户量达到一定阈值之后是递增的,即一元的投入会获得高于一元的产出,可以为企业高筑商业的安全边际。

从这家公司的业务中可以看出,数据是基础,数据科学是研发,不做研发的企业只能成为代工厂。

数据科学的工作范式见图1-1,以后我们的工作都是在重复这些步骤。

通俗理解数理统计,数理统计的基础知识(2)

▲图1-1 数据科学的工作范式

我们再来看一个例子。有一个淘宝商家希望通过促销的方式激活沉默客户。这里的“决策和行动”就是向一些客户发放打折券。打折券不应该是随意发放的,比如黏性很高的客户没有打折券也会持续购买。

为了明确应该向哪些客户发放打折券,商家需要了解关于客户的三个知识:客户的流失可能性、客户价值、客户对打折券的兴趣。这些关于客户的知识往往被称为客户标签。根据获取标签的难度,客户标签可以分为基础、统计、模型三种。

具体到本例,客户的流失可能性、客户价值、客户对打折券的兴趣这三个标签都属于统计标签。表1-1所示是该商家的交易流水表,记录了每位客户每笔交易的时间、金额和交易类型。从这些交易流水数据中获取信息的最简单而通用的方法被称为RFM模型。

通俗理解数理统计,数理统计的基础知识(3)

表1-1 淘宝商家的交易流水

图1-2是根据表1-1的数据所做的RFM模型。RFM模型将每个信息进行二次分类,得到客户分群。

直接使用RFM模型是不能满足要求的,我们可以按照交易类型,计算每个客户所有交易类型中购买特价产品的F(一段时期内消费的频次)或M的占比。

这里有人会开始纠结,两个标签该选哪个呢?其实,“对打折券的兴趣”是一个概念,我们可以用多种方法得到不同的标签来表示这个概念。如果你追求完美,可以使用后续章节中讲的主成分方法进行指标合成。

通俗理解数理统计,数理统计的基础知识(4)

首页 123下一页

栏目热文

文档排行

本站推荐

Copyright © 2018 - 2021 www.yd166.com., All Rights Reserved.