完整的代码可以在这里找到:
https://github.com/awslabs/amazon-sagemaker-examples/tree/master/introduction_to_amazon_algorithms/random_cut_forest
结论
我们生活的世界里数据每秒钟都在增长。如果使用不当,数据会随着时间而贬值。在在线数据流或离线数据集中发现异常对于识别业务中的问题,主动构建解决方案以在问题发生之前发现问题,甚至在探索性数据分析(EDA)阶段为 ML 准备数据集都至关重要。
原文链接:https://towardsdatascience.com/5-ways-to-detect-outliers-that-every-data-scientist-should-know-python-code-70a54335a623