疫情期间,健康码的采用让使疫情防控更加高效、精准。这背后,是大数据技术在发挥作用。但是,大数据在为生活带来便利的同时,我们的隐私可能也会受到威胁。文章从大数据的概念出发,对其利弊进行了分析,并总结了它带来的机遇。
2020年,疫情的爆发使健康码在各大城市相继使用,健康码是以真实数据为基准,识别人员是不是直接或间接接触过一些感染者,从而判断人员是否需要隔离排查。
杭州市委副*在接受新闻采访时表示,健康码的评判来源于三个维度:空间维度、时间维度和人际关系维度。这说明了健康码的生成充分利用了用户的数据,虽官方暂未公开数据使用的详情,但猜测健康码会结合用户的人际关系数据、GPS定位数据、电信运营商数据、消费记录数据、线下扫码位置数据等相关信息,进而判断人员是否出入高危场地。
健康码的应用,属于大数据技术的典型案例,网络服务提供者利用收集到的用户数据,预测用户的健康情况,使疫情防控更加高效、精准。
人们在享受大数据带来便利的同时,若网络服务提供者不按照规定使用用户数据,也将对用户造成*扰,威胁到用户的隐私信息。
一、到底什么是大数据“任何理论首先必须澄清杂乱的,或者说是混淆不清的概念和观念。只有对名称和概念有了共同的理解,才能清楚而顺利地研究问题”。——克劳塞维茨《战争论》
李笑来曾经提及过,在写《韭菜的自我修养》这本书之前从来不会使用“韭菜”一词,因为没有弄清“韭菜”一词的定义,在没有弄清一个词的定义之前,不应该随便使用。
自从大数据概念被提出,我们已经广泛使用了这么多年的“大数据”,那么“大数据”的具体概念应该是什么?
现实世界中,有很多词汇是没有官方定义的,比如“人工智能”,没有哪个机构说他们定义的就是正确的“人工智能”概念。在不同的时代里人们对人工智能的定义也是不同的,上个世纪60年代,人们认为可以下跳棋的计算机就是人工智能,但现在看来这个说法显然是无法被人们接受的。
相同的,大数据的定义,也没有一个官方机构明确地说明什么就是“大数据”。早些年对于政府机构来说,数据汇集也叫做大数据,而后出现了一些数字办、大数据局等新成立的单位,把各地方、各单位的数据汇聚起来,以发挥后续政府数据的价值。对于金融机构来说,可以通过用户的行为进行用户画像就是大数据,通过用户的行为数据,判断用户的偿还能力及偿还意愿,识别用户贷款的风险。
麦肯锡对大数据给出的定义是:“一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合。”在《大数据时代》中,大数据指“不用随机分析法,而是采用所有数据进行分析处理。”IBM提出,“大数据是具备5V的特性数据,5V包括:Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。”在上述基础上,业内人士已将大数据拓展成了“十字特性”,即:一“大”,二“杂”,三“全”,四“多”,五“快”,六“久”,七“活”,八“简”,九“稀”,十“联”。
大数据的定义如此之多,致使每个人心中都有对大数据的不同理解。如今多数情况下,人们提到大数据,都是在特指通过数据分析,可以得到数据中的价值,具体价值可以是协助人们进行决策判断,预测未来事情的变化,发现事务中的关联性等价值体现。本文所说的大数据,就是在遵循这样的描述。
二、大数据的“利”1. 预测
预测是自古人们都在向往的活动,生活中的预测无处不在,比如通过概率分析法预测彩票的中奖号码,通过价值分析法预测股价的走势。
古代人们利用占卜进行预测,就是通过多年观察到的事务变化,结合历史数据总结出来规律,应用在后续的占卜活动中。占卜并没有科学依据,但实际上占卜就体验了人们的大数据思维,利用对过往数据的总结,不必非得知道现象背后的因果,只要知道相关性就可以预测未来。
古代的中医从业者,并没有能力提炼出草药中的成分,哪种草药可以抑制哪种疾病,完全是在结合大量的实际案例,根据经验从数百种种草药中挑选出不同的组合,从而医治不同的疾病。
预测从古代发展到近代,出现了利用数学模型预测的方法,比如利用过往数据和数学模型的结合,预测未来几年的人口增长情况。
数学模型是用数学符号、公式、方程等对现实世界规律的抽象描述。如今的气象预报,还在应用数学模型的方法来预测未来的天气,气象局会根据气象图的变化趋势,结合温度,压力,湿度,风向,风速,阳光照射情况等,应用数学模型预测天气的变化趋势。
当今的大数据分析,就是在结合了占卜和天气预报的方法,利用历史数据,结合数学模型,预测未来、预测结果。健康码应用,通过我们的电信运营商数据、交通出行数据、交易记录数据等信息,预测我们是否为高危感染人群,判断是否需要进行隔离观察,这就是在预测结果。搜索引擎,通过用户的搜索喜好,预测美国总统的未来人选,这就是在预测未来。
预测是大数据最典型直观的价值体现,有时预测也被看作人工智能的范畴。在未来,利用大数据预测,将给人们带来更多的便利。利用数据预测可能的疾病,以便提早做出预防;利用数据预测学习的缺陷,以便精准教育及练习;利用数据预测用户的真实需求,从而不需要产品经理来瞎猜(估计到时候我也就下岗了)……
2. 发现相关性
2004年,沃尔玛从以往数据中发现,在季节性飓风来临之前,不仅仅飓风用品的销量会增加,而且蛋挞的销量也会大幅增加。因此每当季节性飓风来临之前,沃尔玛就会把蛋挞商品摆放到飓风用品旁边,以便让快速购买飓风用品的顾客留意到蛋挞,增加蛋挞商品的销售量。沃尔玛的人也并不知道为什么蛋挞就成了飓风来临时的畅销产品,但是他们只需要知道飓风来临时沃尔玛的蛋挞会畅销就可以了,找到了这个相关性之后即使不用找到背后的原因,也可以提升销量。
大数据时代,我们不必非得知道现象背后的因果,只需要发现相关性,应用到后续的活动中,就可以创造巨大的经济或社会价值。利用大数据发现相关性,可以加快社会的进步,加快人们的决策,避免了找到“因”,在想清“果”的繁琐过程。
三、大数据的“弊”1. 威胁用户隐私
在大数据时代,人们偶然间发现自己的隐私受到了威胁,我们的隐私被互联网服务提供商监视着,购物应用监视着我们购物习惯,搜索引擎监视着我们网页浏览习惯,社交软件监视着我们的社会关系,理财产品监视着我们的财富……
互联网服务提供商监控着我们的数据,利用我们的数据搞“大数据*熟”,形成“千人千价”,从而提高自身的利润,受害的却是我们消费者。美国国家安全局2007年发起的棱镜计划,通过互联网服务器中的数据监听着我们每一个人的一举一动,在其面前我们没有隐私可言,拥有大量数据的机构,知道我们的每一个真实行为,有时甚至比我们自己都了解我们。
互联网服务提供商不合规利用数据对我们造成的影响尚可原谅,一旦数据被泄露或非法交易,将造成不可预知的后果。当今泄露事件层出不穷,脸书把用户的点赞数据非法供给了剑桥分析公司,间接性对美国大选结果造成一定影响;雅虎2016年泄露15亿人次的用户信息,使广大互联网用户的生日,电话号码,账户密码在暗网流传,随时有可能流入不法分子之手。
2. 强者愈强
未来将是人工智能的时代,从人工智能的历史发展中观察,人工智能算法的优化,用程序员主动去写算法,算法的精准度不如利用大量数据去训练算法的效果好。因而数据在人工智能的发展中,将会起到至关重要的作用。
企业拥有的数据量越大,其算法的训练越充分;算法训练越充分,产品将越趋于完善;产品越完善,用户越多;用户越多,企业的数据量越大。这样就走到了一种无限的循环之中,形成强者愈强的马太效应,使小企业更难赶超大企业。
四、大数据将会带来的机遇1. 商业模式创新
未来可能会存在部分企业,不在以向用户收费或广告商收费的方式盈利,而是以产生数据,售卖数据服务的方式来达到盈利的目的。
例如智能冰箱制造企业,免费提供智能冰箱给用户使用,但冰箱中的货物情况制造企业需要进行监控。企业将监控到的数据售卖给商超形式的货物提供企业,货物提供企业自动对冰箱中的缺货情况进行补货,从而承包用户的全家食材。
同时智能冰箱制造企业还可以将用电数据卖给电力供应商,告知电力供应商每户家庭的冰箱使用及耗电情况。电力供应商通过购买全部智能家电的用电情况,从而实现精准生产电能,避免造成电能的浪费。
2. 数据连接企业
当前企业间、政府间的数据,无法做到互联互通,形成了一个又一个的数据孤岛,但是一些企业可能又需要其他机构的数据,来实现自身业务的优化。例如银行就需要用户的房产数据、车辆数据来判断用户的财富;保险机构需要用户的医疗数据来判断用户的以往病史。
在数据互联需求的驱动下,未来将会催化数据连接平台产品的诞生。平台连接数据的供需双方,成为“数据淘宝”,为供需双方提供数据的信息流和资金流。
由于受到法律的制约,直接进行数据售卖显然将存在法律风险。因而数据连接平台的发展可能会朝着授权流通、画像流通、去标识化流通的方向发展。
授权流通就是在用户的合法授权之下,把数据从供应方转移到需求方;画像流通就是将需求方的用户画像模型运行于供应方的系统之中,从而在供应方的系统中只输出画像结果,不输出原始数据;去标识化流通就是将用户的隐私信息去标识化,只流通无隐私的数据,例如流通某地区的用户购买数据,分析购买喜好,但不能对应到具体个人。
3. 数据思维企业
未来将会有越来越多的企业需要进行数据的价值挖掘,但由于每个企业都有自身的业务,企业内部的员工重点关注自身业务的发展,对数据价值挖掘的具体方法不会特别了解,因此将会有公司专门提供数据价值挖掘思维的业务。如麦肯锡,波士顿,贝恩,四大等,都具备天然的优势开展此类业务。
本文由 @产品工具箱 原创发布于人人都是产品经理,未经许可,禁止转载。
题图来自 Unsplash,基于CC0协议