表 2:训练/测试集的分数 (MAE) 比较。
总结- 我们展示了三种将时间相关信息编码为机器学习模型特征的方法。
- 除了最流行的虚拟编码之外,还有一些方法更适合编码时间的循环性质。
- 使用这些方法时,时间间隔的粒度对于新创建的要素的形状非常重要。
- 使用径向基函数,我们可以决定要使用的函数的数量,以及钟形曲线的宽度。
您可以在我的GitHub上找到本文中使用的代码。如果您有任何反馈,我很乐意在Twitter上讨论。
引用[1] 时间相关的特征工程
https://scikit-learn.org/stable/auto_examples/applications/plot_cyclical_feature_engineering.html
[2] 预处理
https://scikit-lego.readthedocs.io/en/latest/preprocessing.html
[3] 时间/日期因素
https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#time-date-components
关于作者Eryk Lewinson是一位具有定量金融背景的数据科学家。在他的职业生涯中,他曾在两家咨询公司工作,一家是金融科技规模的扩大公司,最近一次是在荷兰最大的在线零售商。在他的工作中,他使用机器学习为公司生成可操作的见解。目前,他将精力集中在时间序列预测领域。Eryk还出版了一本书 - Python for Finance Cookbook - 他在书中探讨了现代数据科学解决方案在定量金融领域的各种应用。他的书的第二版计划于2022年出版。在业余时间,他喜欢玩电子游戏,与女朋友一起旅行,并撰写与数据科学相关的主题。他的文章已被浏览超过250万次。
原文标题:
Three Approaches to Encoding Time Information as Features for ML Models
原文链接:
https://developer.nvidia.com/blog/three-approaches-to-encoding-time-information-as-features-for-ml-models/