大数据计算模式有哪些,大数据计算框架有哪些

首页 > 影视动漫 > 作者:YD1662023-10-26 05:47:58

目前,主流的大数据计算模式有离线计算和实时计算两种,离线计算需要数据积累,积累到一定量后进行批量处理,而实时计算是数据随到随处理,降低了处理延时,能够在更短的时间内挖掘数据的价值。显然,实时计算更适合需要即时反馈的生活服务场景。

目前最热门的实时计算引擎当属Apache Flink,2019年开年,阿里收购了Flink的母公司Data Artisans,交易金额为1.033亿美元。2020年双十一购物节期间,Flink完美通过了大考,实时计算峰值达到了破纪录的每秒40亿条记录,数据量也达到了惊人的7TB每秒,相当于一秒钟要读完500万本《新华字典》。

除了网购之外,Flink的算力还被广泛地用于其他生活场景。比如在阿里城市大脑项目中,Flink负责实时交通预测,使车行速度提升了15%,救护车到达现场的时间则减少了一半。

在一些交互性强的生活服务领域,实时计算也起着十分重要的作用。例如在教育领域,美国个性化教育公司Knewton通过连续收集学生行为数据,对其参与的学习活动进行实时分析,进而通过算法推荐最合适的学习目标和任务,并对学生的表现给出实时反馈。当学生完成某项学习活动后,系统会自动推送学生进行下一个活动。

这样一来,每个学生的学习路径都是基于自身学习数据定制的,实现了真正意义的因材施教。亚利桑那州立大学尝试将传统教学模式和Knewton定制学习模式相结合,两个学期后,课程退课率从原来的13%下降到6%,通过率则从66%上升到75%。

实时计算的最终形态,也许是一个高度智能化的生活决策助手,就像《钢铁侠》中的贾维斯一样,随时为人们提供生活解决方案。

▍数据共享——打通壁垒实现联动

最后一个环节是实现数据的共享,让多维度数据在生活服务中发挥最大价值,因为数据维度越多,能挖掘出的关联性也越多,据此就能催生出全新的生活服务内容。然而,“数据孤岛”问题严重制约了大数据多维度价值的释放,各个企业、部门间的数据无法共通,难以发挥合力。究其原因,一方面是数据持有方不愿公开,或不能公开数据;另一方面,即便是公开的数据,也因为缺乏统一的格式标准而难以整合利用。

但互联网时代孕育的“超级平台”正在试图整合“数据孤岛”,发挥大数据的多维度价值。所谓“超级平台”,是指Google、Facebook这类掌握了多维度数据的互联网平台。比如Facebook所记录的数据,不仅包括用户在社交平台留下的数据,还包含那些用Facebook账号登陆过的游戏、购物软件、新闻资讯App、学术平台之上的数据。

▼ 将“数据孤岛”整合成“数据群岛”

大数据计算模式有哪些,大数据计算框架有哪些(9)

▼ 很多互联网大厂都在试图整合数据孤岛。图为Google园区

大数据计算模式有哪些,大数据计算框架有哪些(10)

在我国,生活服务领域也出现了类似的“超级平台”。比如占据中国手机用户近30%时间的微信,截至2019年底,微信小程序总量已达230万个,与苹果应用商店里的APP数量大致相当。不止微信,美团点评等APP也已经覆盖了到店餐饮、外卖、出行各个领域,与消费者建立起紧密的多维度数据联系。

通过多维度数据分析精确描绘用户画像,对于以用户匹配为核心的生活服务行业来说意义重大。比如成立于2015年的房地产中介公司REX,使用机器学习处理来自“超级平台”Google和Facebook的用户数据,通过购房者的位置、收入、兴趣等多维度因素,准确快速地匹配房屋买卖双方,不仅加快了房屋的销售速度,还完成了“技术换人”,大幅度缩减了人力成本,从而在激烈的市场竞争中获得了优势。

与传统房屋中介6%左右的佣金相比,REX只收取2%的佣金,平均算下来,使用REX平台的卖家平均可节约2万美元的成本费用,而买家也可省下1万美元的购房费用。

然而,超级平台不仅在整合数据,也在垄断数据,阻碍充分竞争的“数据海洋”形成。近年来,各大平台因数据互掐的事件屡见不鲜。2017年6月1日,顺丰断开与菜鸟网络的数据接口,使得淘宝上顺丰包裹的物流详情无法正常回传。顺丰指责菜鸟要求自己提供非淘系数据,菜鸟则说在合作中顺丰大量查询使用了非顺丰的数据,最终国家邮政局居中调停才结束这场闹剧。

当然,数据战争不止于物流业,在其他生活服务领域也比比皆是。2020年2月,钉钉、飞书遭到微信封禁,用户无法直接在微信内跳转。2020年10月,抖音直播间购物车不再允许添加第三方来源商品。

从宏观角度看,数据垄断不仅限制了数据价值的进一步挖掘,也阻碍了生活服务业的创新和发展。要解决这个问题,我们可以借鉴国外的先进经验。2018年,欧盟创造性地设立了数据携带权,赋予用户在不同的网站和设备上自由转移个人数据的权利,极大推动了数据的流动与共享,也为在生活服务业中发挥多维度数据价值提供了制度保障。

推动未来演算机落地,编写四套“城市代码”

以上关于技术环节的“人为干预”,都只是推动数据服务生活的“术”;而要真正实现数据向善,只有技术突破和市场主体的积极创新并不够,更需要的是进行合理利用数据的“价值观引导”。

这就需要更具公信力和权威度的政府出面,进行数据向善的“布道”——由政府“降维”打破企业和资本由于“各自为战”和商业逐利而难以全然克服的数据孤岛和隐私侵犯等问题,以实现数据资源的良性共享、开发和利用,进而更好的预测生活、服务生活。

未来各地政府应着重编写四种“城市代码”,以落实“向善价值观”对市场的贯彻和约束。

首先,政府要不断优化“数据开放码”,推动数据整合,盘活数据富矿。政府数据是一座亟待挖掘的数据富矿。因此,政府各部门应率先进行数据整合,实现数据共享。2017年6月,杭州市成立数据资源管理局,其首要任务就是将杭州市的政务数据归集到一个平台。为了达成这个艰巨的任务,数据管理局以任务、需求为导向来推动数据归集过程,也就是推动“最多跑一次”改革,把企业投资项目审批、商事登记、不动产登记和公民个人办事这四类与日常生活最相关的数据归集起来。

如此一来,民众到任何一个部门办事,该部门就能向数据共享平台申请调取所有需要的文件,不用再跑其他部门。四个月后,杭州市总计归集了59个部门的218亿条数据,并实现了36个部门196亿条数据的开放共享。

▼ 杭州市是城市数字化管理做的较为先进的城市之一

大数据计算模式有哪些,大数据计算框架有哪些(11)

其次,政府要输入一段“市场搭建码”,率先培育大数据市场,探索兼顾多方开源和隐私保护的数据利用机制。2020年4月9日,中共中央、国务院正式发布《关于构建更加完善的要素市场化配置体制机制的意见》,将数据与土地、劳动力、资本、技术等传统要素并列为生产要素。北京作为全国领先的数字经济城市,于2021年3月成立了北京国际大数据交易所,力图打造国内领先的数据交易基础设施,促进数据要素的流通。

不同于此前贵州、上海、浙江等地的大数据交易所,北数所使用了隐私计算技术,需求方获得的不是原始数据,而是一个通过算力、带宽和多方安全计算技术加工而成的计算结果,并实现了按使用次数定价,保证了数据交易的安全和高效。

再次,政府要准备一套“技术开发码”,搭建共性技术研发平台,让大数据赋能更多市场主体。生活服务业市场主体以中小企业为主,而中小企业难以承担长周期、大规模的数字化投入。为此,政府可以搭建共性技术平台,助力服务业的数字化。

2021年7月8日,上海现代服务业联合会大数据中心正式成立。平台将围绕服务业数字化进程中的“痛点”环节开展关键共性技术研发,为各细分领域提供有针对性的数据全链路服务,帮助上海市乃至全国现代服务业加快实现数字化转型。

最后,政府还要预留最强力的“安全监管码”,通过立法护航大数据利用。2021年6月10日,《数据安全法》经历三轮审议,在十三届全国人大常委会第二十九次会议上表决通过,成为我国数据安全领域内的“基础性法律”。

各地政府近两年也在进行地方立法探索,2021年7月,深圳推出《深圳经济特区数据条例》,在强化个人数据保护的基础上,对大数据*熟行为做出了明确的处罚规定——最高可处以5000万元罚款。此外,还在国内首次明确,除征得其监护人同意外,不得向未满14岁的未成年人进行个性化推荐。

大数据时代势不可挡,越来越多的城市投身数据之城的打造,各地可以将大数据作为抓手,以服务于民为价值导向,推动生活性服务业升级。相信当我们再次面对大数据是天使还是魔鬼的灵魂拷问时,可以自信地说出,决定权在我手上!

版权声明:本平台全部作品的著作权及其他相关合法权益归华高莱斯国际地产顾问(北京)有限公司(以下简称华高莱斯)所有,未经华高莱斯书面许可,任何单位和个人不得以摘抄、改编、翻译、注释、复制、发行、广播、汇编、通过信息网络向公众传播等方式使用其中全部或部分内容,否则,将可能承担相应的行政、民事甚至刑事责任。华高莱斯将通过一切法律途径维护自身的合法权益。

上一页123末页

栏目热文

文档排行

本站推荐

Copyright © 2018 - 2021 www.yd166.com., All Rights Reserved.