hdfs小文件的处理,hdfs的文件写入步骤

首页 > 实用技巧 > 作者:YD1662023-11-28 11:25:24

解压har文件

# 按顺序解压存档(串行) hdfs dfs -cp har:///outputdir/user.har /outputdir/newdir # 查看 hdfs dfs -ls /outputdir/newdir # 要并行解压存档,请使用DistCp,会提交MR任务进行并行解压 hadoop distcp har:///outputdir/user.har /outputdir/newdir2 # 查看 hdfs dfs -ls /outputdir/newdir2

hdfs小文件的处理,hdfs的文件写入步骤(9)

【温馨提示】眼尖的小伙伴,可以已经发现了一个问题,就是cp串行解压,会在解压的目录下保留har文件。

Archive注意事项:

2)合并本地的小文件,上传到 HDFS(appendToFile )

在本地准备2个小文件:

cat >user1.txt<<EOF 1,tom,male,16 2,jerry,male,10 EOF cat >user2.txt<<EOF 101,jack,male,19 102,rose,female,18 EOF

合并方式:

hdfs dfs -appendToFile user1.txt user2.txt /test/upload/merged_user.txt # 查看 hdfs dfs -cat /test/upload/merged_user.txt

hdfs小文件的处理,hdfs的文件写入步骤(10)

web HDFS: http://local-168-182-110:9870/explorer.html#/

hdfs小文件的处理,hdfs的文件写入步骤(11)

3)合并 HDFS 的小文件,下载到本地(getmerge)

# 先上传小文件到 HDFS: hdfs dfs -put user1.txt user2.txt /test/upload # 下载,同时合并: hdfs dfs -getmerge /test/upload/user*.txt ./merged_user.txt

hdfs小文件的处理,hdfs的文件写入步骤(12)

上一页1234下一页

栏目热文

文档排行

本站推荐

Copyright © 2018 - 2021 www.yd166.com., All Rights Reserved.