hdfs小文件的处理,hdfs的文件写入步骤

首页 > 实用技巧 > 作者：YD1662023-11-28 11:25:24

4）针对Hive表小文件数合并处理（CombineFileInputFormat）1、输入阶段合并

需要更改Hive的输入文件格式即参hive.input.format，默认值是org.apache.hadoop.hive.ql.io.HiveInputFormat我们改成org.apache.hadoop.hive.ql.io.CombineHiveInputFormat。
这样比起上面对mapper数的调整，会多出两个参数是mapred.min.split.size.per.node和mapred.min.split.size.per.rack，含义是单节点和单机架上的最小split大小。如果发现有split大小小于这两个值（默认都是100MB），则会进行合并。具体逻辑可以参看Hive源码中的对应类。

2、输出阶段合并

直接将hive.merge.mapfiles和hive.merge.mapredfiles都设为true即可，前者表示将map-only任务的输出合并，后者表示将map-reduce任务的输出合并，Hive会额外启动一个mr作业将输出的小文件合并成大文件。
另外，hive.merge.size.per.task可以指定每个task输出后合并文件大小的期望值，hive.merge.size.smallfiles.avgsize可以指定所有输出文件大小的均值阈值，默认值都是1GB。如果平均大小不足的话，就会另外启动一个任务来进行合并。

HDFS小文件过多问题与处理实战操作就先到这里了，其实企业里基本上都是通过程序或者脚本去处理，这里只是通过命令去演示，其实原理都一样，只是客户端不一样，后面有时间单独会讲程序或者脚本去处理小文件，有疑问的小伙伴欢迎给我留言哦~

,

上一页 1 2 34末页

栏目热文

hdfs 文件分割不完整（hdfs小文件处理方法）
阅读全文>>2023-11-28 11:51:52
hdfs小文件合并的方式（hdfs小文件处理方法）
阅读全文>>2023-11-28 11:31:04
vfs合并失败处理方法（vfs global登录显示错误）
阅读全文>>2023-11-28 11:37:20
顾一心为什么没演第二季（顾一心为什么换演员）
阅读全文>>2023-11-28 11:24:00
一起同过窗2顾一心为什么没参演了（一起同过窗第三季顾一心回国了吗）
阅读全文>>2023-11-28 11:17:22
vfs文件不存在（vfs文件是什么求答案）
阅读全文>>2023-11-28 11:19:23
过大的vfs文件会导致无法使用吗（vfs文件删除影响软件使用吗）
阅读全文>>2023-11-28 11:22:37
hdfs如何在文件中添加内容（hdfs创建文件并写入内容）
阅读全文>>2023-11-28 11:27:18
vfs文件（vfs文件怎么打开）
阅读全文>>2023-11-28 11:48:44
hdfs 文件合并（hdfs小文件处理方法）
阅读全文>>2023-11-28 11:18:45

文档排行

本站推荐

初一至初三古诗大全（初一到初三所有的古诗词免费）
阅读全文>>2024-05-21 02:59:06
怎样蒸鸡好吃视频（蒸乌鸡的做法大全家常）
阅读全文>>2022-11-06 09:16:02
水培绿萝烂根怎么回事（水培绿萝烂根的补救方法）
阅读全文>>2024-10-13 23:01:27
洪湖赤卫队刘闯原型（洪湖赤卫队刘闯是哪里人）
阅读全文>>2023-06-20 06:44:44
之子于归宜其室家归的意思（七子之母不安其室的意思）
阅读全文>>2023-10-28 06:21:13
凯迪拉克xt5优缺点（凯迪拉克xt5详细缺点）
阅读全文>>2022-11-09 06:43:53

Copyright © 2018 - 2021 www.yd166.com., All Rights Reserved.