云智慧智能研究院致力于 AIOps 前沿技术的研究,团队拥有 50 多名成员,大部分来自清华、北大、北航等国内外顶尖顶级高校,曾就职于微软亚洲研究院、快手、字节跳动等知名企业,研究团队 95% 以上拥有硕士、博士学历。团队自主研发了首款智能运维领域算法 SDK-Hours,其作为核心模块有效支撑了云智慧智能运维产品。团队积极与知名研究机构展开合作,联合清华大学软件学院成立了首个“智能运维研究中心”,与中科院软件所在根因分析形式建模达成深度合作,携手推进根因分析在工业智能运维场景中的落地。团队积极参与开源社区,成为 Apache 时序数据库 Apache-IoTDB Commiter,开源自主研发的运维可视化系统 FlyFish并获得中国开源云联盟优秀开源项目奖及 Gitee GVP-最有价值开源项目。团队发布并维护智能运维领域公开数据集-GAIA(Generic AIOps Atlas)。
我们的理念是:数据 算法让运维更智能,运维让业务更美好。
--
05
Q&A环节
Q1:IoTDB 可以替代 Prometheus 吗?
A1:IoTDB 不是直接替换 Prometheus 的,Prometheus 具有自身的数据分发和数据收集的模块,使用 IoTDB 作为外存目的是解决 Prometheus 的长时间数据持久化存储的问题。Prometheus 使用了 sstable 到 memoryTable 的一套理论实现了数据持久化存储,Prometheus 官方建议存储 7-14 天的数据。云智慧将 Prometheus 和 IoTDB 的结合使 Prometheus 可以稳定地存储时间跨度更长的数据,也更加提升了数据压缩比。存储进 IoTDB 的数据可以直接进行数据挖掘和分析处理,对数据的二次利用有很高价值。
Q2:智能检测和归因的算法是什么?
A2:时序数据异常检测,主要分为三个流派:第一种机器学习或深度学习流派,提取大量特征,sigma 特征、周期特征、同款比特征等,进行分类;第二种是基于 STL 的分解,将时间序列拆解成周期型、趋势型等,按类型划分进行异常检测;最后一种是基于统计学的预测,例如可以用极值分布进行分析。在行业内,最常用和效果较好的方法是基于统计的方法,尤其在数据量大的情况下,机器学习方法很难落地,但机器学习和深度学习方法可能对其他场景下的异常检测更加适用。基于 STL 的分解方法对周期性数据效果非常好,但对非周期性数据不友好。当然我们适用了多种算法进行异常检测,满足不同场景。
Q3:IoTDB 用的是分布式版本吗?
A3:我们的实践是采用一个前置网关,分发数据到各个单节点 IoTDB 上。
今天的分享就到这里,谢谢大家。
|分享嘉宾|
|DataFun新媒体矩阵|
|关于DataFun|
专注于大数据、人工智能技术应用的分享与交流。发起于2017年,在北京、上海、深圳、杭州等城市举办超过100 线下和100 线上沙龙、论坛及峰会,已邀请超过2000位专家和学者参与分享。其公众号 DataFunTalk 累计生产原创文章800 ,百万 阅读,15万 精准粉丝。