
排除无用数据
有时,用户可立即知道想要分析的数据集位于哪几列。事实上,如用户名、账号等列数通常无需处理。
读取数据前直接跳过某几列可以节省大量内存。通过Pandas就可以指定想要读取的列数:

忽略那些包含无用信息的列可以在最大程度上节省内存。
另一种方法是过滤存在缺失或NA值的行。使用dropna() 函数可以轻松做到这一点:

一些有用变量则可以传给 dropna():
· how:该变量可以指定“any”(若某行的任一列均为NA值,则删除该行)或“all”(只有当某行的所有列都是NA值时才可删除一行)
· thresh:设置一个阈值,表示删除一行的NA值数量
· subset:选择一个列的子集,用于检查NA值
这些参数,尤其是thresh和subset,可以确定哪些行将会被删除。
Pandas在读取时没有采用与处理列相同的方法,但上述方法可以用于处理每一个数据块。
