一、数据采集的必要性导读:通过上一系列《10分钟带你了解数据库、数据仓库、数据湖、数据中台的区别与联系》,我们了解了目前较为流行的几种发生在企业业务活动中数据存储方式的区别与联系。有了“锅碗瓢盆”,想要做出色香味俱全的“大餐”,食材也是不可或缺的,所以我们就需要进行数据采集。
数据采集是数据分析挖掘的根基:
数据分析与挖掘过程中比较基础且重要的一个环节是数据采集,再好的特征选取,建模算法,没有了优质的元数据,也会“巧妇难为无米之炊”。
采集的数据决定了数据分析挖掘的上限:
经验告诉我们怎样从历史数据的展现和分析过程中得到有用知识,不管你是通过报表或多维分析得到企业各领域指标相关性,还是通过挖掘模型的实施来根据历史数据预测企业未来发展,这一切都是基于企业历史数据的。没有数据质量基础的保证,展现得多华丽的走势图表都是垃圾。
如下图所示,garbage in , garbage out(垃圾进,垃圾出),指如果将错误的、无意义的数据输入计算机系统,计算机自然也一定会输出错误、无意义的结果。(该谚语在数据分析领域也同样适用)
garbage in garbage out(垃圾进垃圾出)
二、数据采集方式数据采集方式按照线上采集,线下采集两大类进行分类,下面对于每种采集方式及相关技术进行简单的介绍。
1. 线上采集
1)开放数据
开放数据指的是互联网中面向所有人公开的数据,其中包括面向特定行业公开的数据,各级政府公开的数据以及网页中相关的内容数据,例如下图所示为北京市公共数据开放平台。