随着人工智能技术的逐步普及,越来越多的行业开始拥抱人工智能,用“人工智能 ”助力技术和产业的不断升级和变革,人工智能已经成为我们当前这个时代的标志。对于企业来说,如果想用人工智能来武装自己,就必须搞清楚人工智能技术的核心。
人工智能的概念始于1956年的达特茅斯会议,由于受到数据、计算力、智能算法等多方面因素的影响,人工智能技术和应用发展经历了多次高潮和低谷。2006年以来,以深度学习为代表的机器学习算法在机器视觉和语音识别等领域取得了极大的成功,识别准确性大幅提升,使人工智能再次受到学术界和产业界的广泛关注。数据、计算力和算法被认为是人工智能发展的三大核心要素,数据是基础,算法是核心,计算力是支撑。
因此,要衡量一个大数据分析平台的核心能力,最为关键的一定是其所具备的算法能力。接下来,小编就为大家隆重介绍一下TempoAI的核心算法体系。、
1) 基于分布式架构的算法设计平台所有算法均基于Spark分布式内存计算框架开发,并采用Scala语言进行算法实现,能够支持海量数据的高效挖掘分析。
2) 多样化、全面化的算法选择平台内嵌130余种数据分析方法,涉及数据预处理、回归、分类、聚类、关联、时间序列、综合评价、文本分析、推荐、统计图表十大类别。
算法类型 | 功能节点 | 说明 |
数据预处理 | 提供对数据进行预处理功能,包括对数据的清洗、转换、归约、集成等,以便提高分析数据的质量。 | Ø 行:数据过滤、排序、随机抽样、数据平衡、数据去重; Ø 列:设置角色、重命名、属性过滤、随机数/ID生成、缺失值处理、数值型属性变换、字符型属性变换、日期型属性变换; Ø 高级:表转置、 分类汇总、数据标准化、数据平滑、孤立点分析、RFM、季节解构、异常值检测、自动数据处理、堆叠列、过程查询分析器; Ø 融合:数据连接、数据追加、数据拆分、数据分解、数据差集; Ø 特征工程:属性生成、主成分分析、因子分析、奇异值分解、分箱、变量选择、自动特征、WOE编码、数据分组、特征编码、高级特征交叉。 |
分类 | 分类属于预测任务,就是通过已有数据集(训练集)的学习,得到一个目标函数f(模型),把每个属性集x映射到目标属性y(类),且y必须是离散的。 | Ø 逻辑回归分类、朴素贝叶斯、Xgboost分类、贝叶斯网络分类、BP神经网络分类、随机森林分类、支持向量机分类、 CART、ID3分类、C45 决策树分类、梯度提升决策树分类、L1/2稀疏迭代分类、RBF神经网络分类、KNN、线性判别分类、Adaboost分类、Bagging分类、DNN分类。 |
回归 | 回归是最常用的数值预测方法,它是在分析现象自变量和因变量之间相关关系的基础上,建立变量之间的回归方程,并将回归方程作为预测模型,根据自变量在预测期的数量变化来预测因变量的值。 | Ø 线性回归、决策树回归、SVM回归、梯度提升树回归、BP神经网络回归、保序回归、曲线回归、随机森林回归、L1/2稀疏迭代回归、Bagging回归、DNN回归、LSTM回归。 |
聚类 | 聚类分析仅根据在数据中发现的描述对象及其关系的信息,将数据对象分组。其目标是,组内的对象相互之间是相似的(相关的),而不同组中的对象是不同的(不相关的)。 | Ø KMeans、模糊C均值、EM聚类、Hierarchy、Kohonen聚类、视觉聚类、Canopy、幂迭代。 |
关联规则 | 关联规则,指在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构。 | Ø Apriori、FPGrowth、序列。 |
时间序列 | 时间序列通常是按时间顺序排列的一系列被观测数据(信息),其观测值按固定的时间间隔采样。研究人员作预测时,常以过去的历史资料为依据,预测将来的变化。 | Ø ARIMA、稀疏时间序列、指数平滑、移动平均、向量自回归、X11、X12、回声状态网络、灰色预测。 |
综合评价 | 使用比较系统的、规范的方法对于多个指标、多个单位同时进行评价的方法,称为综合评价方法 | Ø 熵值法、TOPSIS、层次分析法、模糊综合评价法。 |
推荐 | 推荐是根据用户兴趣和行为特点,向用户推荐所需的信息或商品,帮助用户在海量信息中快速发现真正所需的商品。 | Ø 协同过滤。 |
文本挖掘 | 文本挖掘是指从大量文本数据中抽取事先未知的、可理解的、最终可用的知识的过程,同时运用这些知识更好地组织信息以便将来参考。 | Ø 分词、信息抽取、文本过滤、向量空间、关键词提取、主旨话题分析、观点情感分析、垃圾违禁信息检测、文本相似度、命名实体识别、文本摘要、词频统计、主题模型合并。 |
统计分析 | 提供统计分析方法,对通过调查获取的各种数据及资料进行数理统计和分析,形成定性和定量的结论。 | Ø 方差分析、相关系数、典型相关分析、偏向相关分析、相似度、描述数据特征、概率单位回归。 |
平台内置自动择参、自动分类、自动回归、自动聚类、自动时间序列等多种自学习功能,帮助用户自动选择最优算法和参数,一方面降低了用户对算法和参数选择的经验成本,另一方面极大的节省用户的建模时间成本。