汽车仪表盘code 35是什么意思,汽车仪表盘上出现一个感叹号是什么意思

首页 > 旅游 > 作者:YD1662023-11-08 20:20:06

箱形图剖析:

四分位间距 (IQR) 的概念被用于构建箱形图。IQR 是统计学中的一个概念,通过将数据集分成四分位来衡量统计分散度和数据可变性。

简单来说,任何数据集或任意一组观测值都可以根据数据的值以及它们与整个数据集的比较情况被划分为四个确定的间隔。四分位数会将数据分为三个点和四个区间。

四分位间距对定义离群点非常重要。它是第三个四分位数和第一个四分位数的差 (IQR = Q3 -Q1)。在这种情况下,离群点被定义为低于箱形图下触须(或 Q1 − 1.5x IQR)或高于箱形图上触须(或 Q3 1.5x IQR)的观测值。

汽车仪表盘code 35是什么意思,汽车仪表盘上出现一个感叹号是什么意思(5)

来源:维基百科

汽车仪表盘code 35是什么意思,汽车仪表盘上出现一个感叹号是什么意思(6)

方法 3—DBScan 聚类

DBScan 是一种用于把数据聚成组的聚类算法。它同样也被用于单维或多维数据的基于密度的异常检测。其它聚类算法比如 k 均值和层次聚类也可用于检测离群点。在本例中,作者将展示一个使用 DBScan 的示例。在开始之前,需要先了解一些重要的概念:

核心点:为了理解核心点的概念,我们需要访问一些用于定义 DBScan 任务的超参数。第一个超参数是 min_samples。这只是形成簇所需的最小核心点数量。第二个重要的超参数是 eps。eps 可以视为同一个簇中两个样本之间的最大距离。

边界点与核心点位于同一个簇中,但前者距离簇的中心要远得多。

汽车仪表盘code 35是什么意思,汽车仪表盘上出现一个感叹号是什么意思(7)

图源:https://stackoverflow.com/questions/34394641/dbscan-clustering-what-happens-when-border-point-of-one-cluster-is-considered

其它任何点都被称作噪声点,它们是不属于任何簇的数据点。它们可能是异常的或非异常的,需要进一步研究。

以上代码的输出为 94。这是噪声点的总数。SKLearn 标记噪声点为-1。这种方法的缺点是维度越高,精度就越低。你还需要做一些假设,例如估计 eps 的正确值,这可能是一个挑战。

from sklearn.cluster import DBSCAN seed(1) random_data = np.random.randn(50000,2) * 20 20 outlier_detection = DBSCAN(min_samples = 2, eps = 3) clusters = outlier_detection.fit_predict(random_data) list(clusters).count(-1)

方法 4—孤立森林

孤立森林是一种无监督学习算法,属于组合决策树家族。这种方法和以上所有方法都不同。之前的所有方法都在试图寻找数据的常规区域,然后将任何在此定义区域之外的点都视为离群点或异常值。

这种方法的工作方式不同。它明确地隔离异常值, 而不是通过给每个数据点分配一个分数来分析和构造正常的点和区域。它利用了这样一个事实:异常值只是少数,并且它们具有与正常实例非常不同的属性值。

该算法适用于高维数据集,并且被证明是一种非常有效的异常检测方法。由于本文关注的是实现,而不是理论,因此作者不打算进一步讨论算法的工作原理。但是,周志华合著的论文《Isolation Forest》涵盖了其工作方式的全部细节。

from sklearn.ensemble import IsolationForest import numpy as np np.random.seed(1) random_data = np.random.randn(50000,2) * 20 20 clf = IsolationForest( behaviour = 'new', max_samples=100, random_state = 1, contamination= 'auto') preds = clf.fit_predict(random_data) predsfrom sklearn.ensemble import IsolationForest import numpy as np np.random.seed(1) random_data = np.random.randn(50000,2) * 20 20 clf = IsolationForest( behaviour = 'new', max_samples=100, random_state = 1, contamination= 'auto') preds = clf.fit_predict(random_data) preds

这段代码会输出序列中每个数据点的预测结果。如果结果是-1,说明这个特定数据点是离群点。如果是 1,就说明该数据点不是离群点。

方法 5—Robust Random Cut Forest

Random Cut Forest (RCF) 算法是亚马逊用于异常检测的无监督算法。它也通过关联异常分数来工作。较低的分数值表示数据点点是正常的,较高的分数值则表示数据中存在异常。

「低」和「高」的定义取决于应用,但一般实践表明,超过平均分三个标准差的分数被认为是异常的。算法的细节可以在论文《Robust Random Cut Forest Based Anomaly Detection On Streams》里找到。

这个算法的优点在于它可以处理非常高维的数据。它还可以处理实时流数据(内置 AWS Kinesis Analytics)和离线数据。

作者在下面的视频中更详细地解释了这个概念:

https://youtu.be/yx1vf3uapX8

本文给出了与孤立森林相比的一些性能基准。本文的研究结果表明,RCF 比孤立森林更准确、更快速。

汽车仪表盘code 35是什么意思,汽车仪表盘上出现一个感叹号是什么意思(8)

上一页123下一页

栏目热文

文档排行

本站推荐

Copyright © 2018 - 2021 www.yd166.com., All Rights Reserved.