Running h2o.init() (in Python)
默认情况下,H2O实例使用所有核心和系统内存的大约25%。 但是,如果您希望为其分配一块固定的内存,可以在init函数中指定它。 假设我们想给H2O实例提供4GB内存,它应该只使用2个内核。
#Allocate resources
h2o.init(nthreads=2,max_mem_size=4)
现在我们的H2O实例仅使用2个内核和大约4GB的内存。 但是,我们还是要使用默认方法。
在Python中使用H2O导入数据
安装成功后,我们就可以继续处理真实数据集了。我们将使用著名的wine数据集处理一个问题:在给定一组特征作为输入的情况下,以0-10的等级预测白葡萄酒的质量。
数据
该数据属于葡萄牙“Vinho Verde”葡萄酒的白色变种。
来源:
https://archive.ics.uci.edu/ml/datasets/Wine Quality
CSV文件:
(https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-white.csv)。
数据导入
从本地CSV文件导入数据。 该命令与pandas.read_csv非常相似,数据作为H2OFrame存储在内存中。
Displaying the first 5 rows of the dataset
EDA
让我们继续研究数据集以获得一些结果。