五、修改Hostname
1、 临时修改hostname
[root@localhost Desktop]# hostname bigdata-senior01.chybinmy.com 1
这种修改方式,系统重启后就会失效。
2、 永久修改hostname
想永久修改,应该修改配置文件 /etc/sysconfig/network。
命令:[root@bigdata-senior01 ~] vim /etc/sysconfig/network 1
打开文件后,
NETWORKING=yes #使用网络 HOSTNAME=bigdata-senior01.chybinmy.com #设置主机名 1 2
六、配置Host
命令:[root@bigdata-senior01 ~] vim /etc/hosts 添加hosts: 192.168.100.10 bigdata-senior01.chybinmy.com 1 2
七、关闭防火墙
学习环境可以直接把防火墙关闭掉。
(1) 用root用户登录后,执行查看防火墙状态。
[root@bigdata-senior01 hadoop]# service iptables status 1
(2) 用[root@bigdata-senior01 hadoop]# service iptables stop关闭防火墙,这个是临时关闭防火墙。
[root@bigdata-senior01 hadoop-2.5.0]# service iptables stop iptables: Setting chains to policy ACCEPT: filter [ OK ] iptables: Flushing firewall rules: [ OK ] iptables: Unloading modules: [ OK ] 1 2 3 4
(3) 如果要永久关闭防火墙用。
[root@bigdata-senior01 hadoop]# chkconfig iptables off 1
关闭,这种需要重启才能生效。
八、关闭selinux
selinux是Linux一个子安全机制,学习环境可以将它禁用。
[hadoop@bigdata-senior01 hadoop-2.5.0]$ vim /etc/sysconfig/selinux 1 # This file controls the state of SELinux on the system. # SELINUX= can take one of these three values: # enforcing - SELinux security policy is enforced. # permissive - SELinux prints warnings instead of enforcing. # disabled - No SELinux policy is loaded. SELINUX=disabled # SELINUXTYPE= can take one of these two values: # targeted - Targeted processes are protected, # mls - Multi Level Security protection. SELINUXTYPE=targeted 1 2 3 4 5 6 7 8 9 10
第三步、安装JDK
九、安装Java JDK
1、 查看是否已经安装了java JDK。
[root@bigdata-senior01 Desktop]# Java –version 1
注意:Hadoop机器上的JDK,最好是Oracle的Java JDK,不然会有一些问题,比如可能没有JPS命令。
如果安装了其他版本的JDK,卸载掉。
2、 安装java JDK
(1) 去下载Oracle版本Java JDK:jdk-7u67-linux-x64.tar.gz
(2) 将jdk-7u67-linux-x64.tar.gz解压到/opt/modules目录下
[root@bigdata-senior01 /]# tar -zxvf jdk-7u67-linux-x64.tar.gz -C /opt/modules 1
(3) 添加环境变量
设置JDK的环境变量 JAVA_HOME。需要修改配置文件/etc/profile,追加
export JAVA_HOME="/opt/modules/jdk1.7.0_67" export PATH=$JAVA_HOME/bin:$PATH 1 2
修改完毕后,执行 source /etc/profile
(4)安装后再次执行 java –version,可以看见已经安装完成。
[root@bigdata-senior01 /]# java -version java version "1.7.0_67" Java(TM) SE Runtime Environment (build 1.7.0_67-b01) Java HotSpot(TM) 64-Bit Server VM (build 24.65-b04, mixed mode) 1 2 3 4
第二部分:Hadoop本地模式安装
第四步、Hadoop部署模式
Hadoop部署模式有:本地模式、伪分布模式、完全分布式模式、HA完全分布式模式。
区分的依据是NameNode、DataNode、ResourceManager、NodeManager等模块运行在几个JVM进程、几个机器。
模式名称各个模块占用的JVM进程数各个模块运行在几个机器数上本地模式1个1个伪分布式模式N个1个完全分布式模式N个N个HA完全分布式N个N个
第五步、本地模式部署
十、本地模式介绍
本地模式是最简单的模式,所有模块都运行与一个JVM进程中,使用的本地文件系统,而不是HDFS,本地模式主要是用于本地开发过程中的运行调试用。下载hadoop安装包后不用任何设置,默认的就是本地模式。
十一、解压hadoop后就是直接可以使用
1、 创建一个存放本地模式hadoop的目录
[hadoop@bigdata-senior01 modules]$ mkdir /opt/modules/hadoopstandalone 1
2、 解压hadoop文件
[hadoop@bigdata-senior01 modules]$ tar -zxf /opt/sofeware/hadoop-2.5.0.tar.gz -C /opt/modules/hadoopstandalone/ 1
3、 确保JAVA_HOME环境变量已经配置好
[hadoop@bigdata-senior01 modules]$ echo ${JAVA_HOME} /opt/modules/jdk1.7.0_67 1 2
十二、运行MapReduce程序,验证
我们这里用hadoop自带的wordcount例子来在本地模式下测试跑mapreduce。
1、 准备mapreduce输入文件wc.input
[hadoop@bigdata-senior01 modules]$ cat /opt/data/wc.input hadoop mapreduce hive hbase spark storm sqoop hadoop hive spark hadoop 1 2 3 4 5
2、 运行hadoop自带的mapreduce Demo
[hadoop@bigdata-senior01 hadoopstandalone]$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar wordcount /opt/data/wc.input output2 1
这里可以看到job ID中有local字样,说明是运行在本地模式下的。
3、 查看输出文件
本地模式下,mapreduce的输出是输出到本地。
[hadoop@bigdata-senior01 hadoopstandalone]$ ll output2 total 4 -rw-r--r-- 1 hadoop hadoop 60 Jul 7 12:50 part-r-00000 -rw-r--r-- 1 hadoop hadoop 0 Jul 7 12:50 _SUCCESS 1 2 3 4
输出目录中有_SUCCESS文件说明JOB运行成功,part-r-00000是输出结果文件。
第三部分:Hadoop伪分布式模式安装
第六步、伪分布式Hadoop部署过程
十三、Hadoop所用的用户设置
1、 创建一个名字为hadoop的普通用户
[root@bigdata-senior01 ~]# useradd hadoop [root@bigdata-senior01 ~]# passwd hadoop 1 2
2、 给hadoop用户sudo权限
[root@bigdata-senior01 ~]# vim /etc/sudoers 1
设置权限,学习环境可以将hadoop用户的权限设置的大一些,但是生产环境一定要注意普通用户的权限限制。
root ALL=(ALL) ALL hadoop ALL=(root) NOPASSWD:ALL 1 2
注意:如果root用户无权修改sudoers文件,先手动为root用户添加写权限。
[root@bigdata-senior01 ~]# chmod u w /etc/sudoers 1
3、 切换到hadoop用户
[root@bigdata-senior01 ~]# su - hadoop [hadoop@bigdata-senior01 ~]$ 1 2
4、 创建存放hadoop文件的目录
[hadoop@bigdata-senior01 ~]$ sudo mkdir /opt/modules 1
5、 将hadoop文件夹的所有者指定为hadoop用户
如果存放hadoop的目录的所有者不是hadoop,之后hadoop运行中可能会有权限问题,那么就讲所有者改为hadoop。
[hadoop@bigdata-senior01 ~]# sudo chown -R hadoop:hadoop /opt/modules 1
十四、解压Hadoop目录文件
1、 复制hadoop-2.5.0.tar.gz到/opt/modules目录下。
2、 解压hadoop-2.5.0.tar.gz
[hadoop@bigdata-senior01 ~]# cd /opt/modules [hadoop@bigdata-senior01 hadoop]# tar -zxvf hadoop-2.5.0.tar.gz 1 2
十五、配置Hadoop
1、 配置Hadoop环境变量
[hadoop@bigdata-senior01 hadoop]# vim /etc/profile 1
追加配置:
export HADOOP_HOME="/opt/modules/hadoop-2.5.0" export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH 1 2
执行:source /etc/profile 使得配置生效
验证HADOOP_HOME参数:
[hadoop@bigdata-senior01 /]$ echo $HADOOP_HOME /opt/modules/hadoop-2.5.0 1 2
2、 配置 hadoop-env.sh、mapred-env.sh、Yarn-env.sh文件的JAVA_HOME参数
[hadoop@bigdata-senior01 ~]$ sudo vim ${HADOOP_HOME}/etc/hadoop/hadoop-env.sh 1 修改JAVA_HOME参数为: export JAVA_HOME="/opt/modules/jdk1.7.0_67" 1 2
3、 配置core-site.xml
[hadoop@bigdata-senior01 ~]{HADOOP_HOME}/etc/hadoop/core-site.xml
(1) fs.defaultFS参数配置的是HDFS的地址。
<property> <name>fs.defaultFS</name> <value>hdfs://bigdata-senior01.chybinmy.com:8020</value> </property> 1 2 3 4
(2) hadoop.tmp.dir配置的是Hadoop临时目录,比如HDFS的NameNode数据默认都存放这个目录下,查看*-default.xml等默认配置文件,就可以看到很多依赖${hadoop.tmp.dir}的配置。
默认的hadoop.tmp.dir是/tmp/hadoop-${user.name},此时有个问题就是NameNode会将HDFS的元数据存储在这个/tmp目录下,如果操作系统重启了,系统会清空/tmp目录下的东西,导致NameNode元数据丢失,是个非常严重的问题,所有我们应该修改这个路径。
- 创建临时目录:
[hadoop@bigdata-senior01 hadoop-2.5.0]$ sudo mkdir -p /opt/data/tmp 1
- 将临时目录的所有者修改为hadoop
[hadoop@bigdata-senior01 hadoop-2.5.0]$ sudo chown –R hadoop:hadoop /opt/data/tmp 1
- 修改hadoop.tmp.dir
<property> <name>hadoop.tmp.dir</name> <value>/opt/data/tmp</value> </property> 1 2 3 4
十六、配置、格式化、启动HDFS
1、 配置hdfs-site.xml