hadoop集群安装配置教程(配置hadoop分布式集群一台虚拟系统,二台实体系统可以吗)
本文目录
- 配置hadoop分布式集群一台虚拟系统,二台实体系统可以吗
- hadoop集群设置 多少个节点
- 问句门外汉的话,一台电脑能配置hadoop集群环境吗
- 4、Hadoop-HDFS部署步骤(1.X)
- 如何配置Hadoop集群
配置hadoop分布式集群一台虚拟系统,二台实体系统可以吗
可以
准备工作
1.安装虚拟机 VMware Workstation
2.在虚拟机上安装linux操作系统 这里在虚拟机上安装的linux操作系统为ubuntu10.04。其实用哪个linux系统都是可以的,比如用centos, redhat, fedora等均可,完全没有问题。
3.准备3个虚拟节点 如果已经完成第2步,那就已经准备好了第一个虚拟节点。准备第二个和第三个虚拟节点有两种方法: method1:分别安装两遍linux系统,太繁琐,放弃。 method2:在刚安装的第一个虚拟节点,将整个系统目录复制来形成第二个和第三个虚拟节点。 按照hadoop集群的基本要求,其中一个是master节点,用于运行hadoop程序中的namenode,secondorynamenode和jobtracker任务。另外两个节点为slave节点,其中一个用于冗余目的。slave节点用于运行hadoop程序中的datanode和tasktracker任务。所以模拟hadoop集群至少要有3个节点。
4.重命名主机名 因为前面复制粘贴产生的两个节点和第一个节点的主机名一样。 重命名主机名:Vim /etc/hostname 以下是我对三个结点的ubuntu系统主机分别命名为:master, node1, node2
安装
1.配置hosts文件 (1)hosts文件 用于确定每个节点的IP地址,方便后续中master节点能快速查到并访问各个节点。三个虚拟节点上均需要配置此文件。 (2)查看和修改ip地址 **查看**ip地址使用ipconfig命令:可以知道是192.168.1.100 **更改**ip地址使用sudo ipconfig eth1: (3)hosts文件地址 hosts文件路径为;/etc/hosts,这里hosts文件配置如下:
2.建立hadoop运行账号 为hadoop集群专门设置一个用户组和用户。上述3个虚机结点均需要进行以下步骤来完成hadoop运行帐号的建立: step1:新建hadoop组:sudo groupadd hadoop step2:增加一个zhm用户,属于上面的hadoop组,且具有admin权限:sudo useradd -s /bin/bash -d /home/zhm -m zhm -g hadoop -G admin step3:设置zhm用户的登录密码:sudo passwd zhm step4:切换到zhm用户中:sudo zhm
3.配置ssh免密码连入 (1)可靠性验证 hadoop集群的各个节点之间需要进行数据访问,因此被访问的节点对于访问该节点的用户节点必须进行可靠性验证。hadoop采取是ssh的方法,通过秘钥验证及数据加密进行远程安全登录操作。 (2)ssh ssh通过RSA算法来产生公钥和秘钥,在数据传输过程中对数据进行加密来保障数据的可靠与安全。公钥部分为公共,网络任意节点均可以访问。私钥部分用于对数据加密。 (3)免密码连入 (注意下面输入下面这些命令时,一定要看清节点名和所在目录等前提条件) 如果hadoop对每一个节点的访问都进行验证,将大大降低效率,所以可以配置SSH免密连入。 step1:每个节点分别产生公钥和密钥(这里的命令没看懂)。 产生目录在用户主目录下的.ssh目录中,id_dsa为公钥,id_dsa.pub为私钥。 cd .ssh/ 到达此目录下 ls 列出该目录下所有文件 step2:将公钥文件复制成authorized_keys文件,这个步骤是必须的。 cat id_dsa.pub 》》 authorized_keys step3 : 将step1~step2在另外两个节点重复完成。 step4:单机回环ssh免密码登录测试 即在单机节点上用ssh登录,检测是否成功。成功后注销退出。 注意标红圈的指示,有以上信息表示操作成功,单点回环SSH登录及注销成功:ssh localhost yes 查看登录成功信息 exitstep5:将step4在另外两个节点重复完成。 **step6:**master节点通过ssh免密登录两个slave节点 为了实现这个功能,两个slave结点的公钥文件中必须要包含主结点的公钥信息,这样master就可以顺利安全地访问这两个slave结点。 如下过程显示了node1结点通过scp命令远程登录master结点,并复制master的公钥文件到当前的目录下,这一过程需要密码验证。接着,将master结点的公钥文件追加至authorized_keys文件中 scp zhm@master:~/ .ssh/id_dsa.pub ./master_dsa.pub (注意,前面是node1哦!ps这个命令没看懂) cat master_dsa.pub 》》 authorized_keys step7 : 将step6在另一个slave节点中重复完成。 **step8:**master通过ssh远程免密码连接slave测试 ssh node1 yes(首次连接需要) exit 再执行一遍ssh node1,如果没有yes出现,就表示成功了。 step9 : 将step8在另一个slave节点中重复完成。 **step10 : **master自身进行ssh免密登录测试
4.下载并安装hadoop安装包 目前我使用的版本为hadoop-0.20.2,因为《hadoop权威指南》这本书也是针对这个版本介绍的。 解压后hadoop软件目录在/home/zhm/hadoop下
5.配置namenode,修改site文件 (1)准备工作:安装jdk 下载的版本:jdk1.7.0_09 解压位置:/opt/jdk1.7.0_09 step1:在profile文件(路径:/etc/profile)中添加如下代码: step2:执行如下代码:step3:将step1~step2对另外两个节点重复完成。 (2)修改core-site.xml、hdfs-site.xml、mapred-site.xml这三个文件 site文件是hadoop的配置文件,存放在/hadoop/conf下。 配置如下(因为并没有实际操作,所以不知道他修改了哪些地方,待研究???): core-site.xml hdfs-site.xml mapred-site.xml
6.配置hadoop-env.sh文件
hadoop集群设置 多少个节点
1.运行环境 三台装有centOS 6.3 的电脑 OpenJDK 1.6 2下载hadoop,加压到你要放置的目录,最好是解压到/opt或者/usr/local目录下 3 创建hadoop群组和hadoop用户 groupadd hadoop useradd hadoop -g hadoop 更改hadoop 用户的密码 在命令行输入:passwd 按提示输入密码 每台电脑上都要进行此步操作,且每个电脑上的hadoop用户的密码都要一样 4 配置免密钥ssh 若为安装ssh应该安装,笔者这里不再赘述,网上安装ssh的教程很多 以本人机器为例: 192.168.1.112 master 192.168.1.110 slave1 192.168.1.111 slave2 首先在slave2机器上的Terminal输入命令 ssh-keygen -t dsa -P ’’ -f ~/.ssh 再输入命令 cat id_dsa.pub 》》 authorized_keys(两个文件都应存放在.ssh目录下) 这步完了后,有很重要的一点需要注意下,你应该检查下你的.ssh文件夹的权限是否为700,authorized_keys的权限是否为600,如不是,则更改权限,否则将会出现permission denied错误 接着运行命令 scp ~/.ssh/authorized_keys slave1:/home/hadoop/.ssh 下一一步是重复在slave2机器上的操作,生成密钥 然后再 cat id_dsa.pub 》》 authorized_keys scp ~/.ssh/authorized_keys master:/home/hadoop/.ssh 同样注意查看.ssh和authorized_keys的权限 在 matser以同样的方法生成密钥 然后执行cat id_dsa.pub 》》 authorized_keys 接着分发authorized_keys scp ~/.ssh/authorized_keys slave1:/home/hadoop/.ssh scp ~/.ssh/authorized_keys slave2:/home/hadoop/.ssh 4.配置hadoop相应的配置文件.这里笔者也不多说,网上很多。 这里要注意的地方是,你存放datanode 数据的地方不能是mount后的磁盘,因为存放data的文件夹权限必须是755 5 . 启动集群
问句门外汉的话,一台电脑能配置hadoop集群环境吗
可以,在电脑上安装虚拟机,虚拟出3个节点,就可以搭建一个完全分布式的Hadoop集群了。虚拟机建议选VirtualBox,安装完比较小(相比于VMWare )。关于虚拟机的安装请百度教程。其中一个虚拟机Ubuntu或其他linux安装完成后,可以通过复制功能安装其他两个,其中包括JDK的安装配置,Hadoop的安装(其实就是解压,环境变量配置即profile的修改,etc配置文件的修改,包括core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml)。复制完后再分配虚拟机的IP,SSH无密码验证配置等。上述细节请百度教程,太多了。
4、Hadoop-HDFS部署步骤(1.X)
· 依赖软件ssh、jdk · 环境的配置 Java_Home 免密钥 · 时间同步 · hosts、hostname · /opt/sxt/ · 配置文件新修改 Java_Home · 角色在哪里启动 部署参考步骤(请点击此处) (1)设置ssh免密钥 ssh-keygen -t dsa -P ’’ -f ~/.ssh/id_dsa cat ~/.ssh/id_dsa.pub 》》 ~/.ssh/authorized_keys 此时可检验是否设置成功,尝试免密登录本机,如下 (2)安装jdk 首先利用xftp将安装包导入,再解压安装 解压后,java所在目录位置如下 /usr/java 配置环境变量,打开 vi /etc/profile 追加下面两行 保存退出后,是设置系统配置,linux下使用source /etc/profile保存配置后,新的环境变量只能在一个终端里面有效。 (3)hadoop部署 利用xftp将hadoop-2.6.5.tar.gz包上传,解压安装 新建目录存放hadoop 配置hadoop环境变量,增加如下两行 进入如下目录修改hadoop-env.sh等配置文件,首先修改hadoop-env.sh文件,改后如下 其次、修改mapred-env.sh,/usr/java/jdk1.8.0_261-amd64 修改yarn-env.sh 其次修改etc/hadoop下的core-site.xml和hdfs-site.xml,使主节点位置可知 ``` 《configuration》 《property》 《name》fs.defaultFS《/name》 《value》hdfs://node01:9000《/value》 《/property》 《property》 《name》hadoop.tmp.dir《/name》 《value》/var/sxt/hadoop/local《/value》 《/property》 《/configuration》 ``` ``` 《configuration》 《property》 《name》dfs.replication《/name》 《value》1《/value》 《/property》 《property》 ***隐藏网址*** 《value》node01:50090《/value》 《/property》 《/configuration》 ``` 配置slaves文件,使DataNode可知,修改如下,如以后还有namenode,可添加 随后格式化 hdfs namenode -format 显示successfully则配置成功 启动,如报错,在查看下方日志文件排错 访问node01:50070 如下所示,成功! 计划:node01 : NameNode node02 : SecondaryNode DataNode node03 node04 : DataNode(1)安装jdk,配置环境变量,设置ssh免密钥(将node01d1ssh的id_dsa.pub写到其他三个节点) 此时查看node02中.ssh下目录 或者直接将node01的authorized_keys追加到node02的.ssh下,如下所示,此时node01可以免密登录node02 之后node03和node04依次执行图3-1和图3-2的命令。校准四个系统时间 修改node01的core-site.xml 进入node01的sxt目录将hadoop-2.6.5拷贝到node02(03、04都要执行相同步骤)的同目录下(node02下的opt/sxt) 经过以上步骤配置完成,再从node01进行格式化 hdfs namenode -format
如何配置Hadoop集群
配置Hadoop集群,详细教程和步骤,你可以参考一下。链接如下:***隐藏网址***
本文相关文章:
虚拟机配置java环境(在vm虚拟机里配置的java环境变量,总是无效)
2024年10月20日 20:15
python编辑器vscode(vscode配置文件的关系)
2024年10月17日 21:20
mybatis设置日志级别(怎么配置mybatis使sql语句不打印出来)
2024年10月14日 06:35
易语言教程取所有配置节名和配置项名(易语言配置项怎么保存和读取多条配置项名称)
2024年10月6日 23:35
持续集成与持续部署实践 pdf(如何在 linux 上配置持续集成服务)
2024年9月29日 02:55
datasource health check failed(java中运行时出现下面的错误是什么原因呢其中有配置spring)
2024年9月26日 04:16
phpstorm配置xdebug(如何在xampp环境下配置phpstrom xdebug)
2024年9月10日 02:30
oracle11g 数据库创建失败(oracle 11g_r2 创建数据库时 Enterprise Manager 配置失败)
2024年9月6日 19:50
centos7网卡配置(centos 7虚拟机怎么配置网卡eno 16)
2024年8月31日 12:35
xml常用标签(web.xml文件主要配置有哪些,都有什么含义)
2024年8月26日 11:20
feignclient(Feign Client超时时间配置以及单独给某接口设置超时时间方法记录)
2024年8月20日 09:55
hibernate二级缓存有什么用(如果不配置hibernate的二级缓存的话,是不是就体现不出hibernate的优越性)
2024年8月16日 14:55
vscode配置python(mac下VScode怎么配置编译Python)
2024年8月11日 06:07
java获取项目中的文件(java文件怎么获取项目下的配置文件)
2024年8月9日 18:30
centos java环境配置(如何在阿里云Centos7.0上配置java web环境)
2024年8月5日 22:10
更多文章:
对于那种拿了设计师平面方案的客户,凭一张平面图真的能把房子装修好吗?做平面设计图需要什么东西
2024年6月28日 05:58
java运行时下载(要配置java的运行环境,下载jre时出现这个问题,怎么解决)
2024年7月14日 16:18
python执行流程描述(python 怎么执行exe程序)
2024年5月18日 16:12
linux服务打开命令(linux7.7启用xserver命令)
2024年6月29日 09:28
16位时间戳数字转日期(timestamp 16位数字的时间戳 该怎么转换成具体的年月日时间呢)
2024年7月23日 19:10
微软银光是什么,有什么用为什么我每次打开都是一个设置的窗口到底该怎么用呢?我的电脑里有微软银光这个程序,能删除吗
2024年10月5日 09:45
世界500强企业中国有多少家(2021年颁布的世界500强中,中国企业有哪些)
2024年8月9日 09:46
matlab subplot函数(subplot(2,2,1)是什么意思)
2024年7月23日 05:53
typescript react(react native 可以使用typescript开发吗)
2024年6月29日 14:24
交互式shell是什么意思(交互式shell和非交互式shell的区别)
2024年6月29日 04:54
linux查看usb设备命令(怎么查看linux usb设备驱动)
2024年7月24日 03:15