uu快3公式_uu快3最新版_概率

CDH集群部署最佳实践

时间:2019-12-28 22:54:31 出处:uu快3公式_uu快3最新版_概率

blkid /dev/sdb | awk -F '"' '{printf "UUID=%s /opt %s defaults 0 2n",$2,$4}' >> /etc/fstab

cat /etc/fstab | grep opt

操作系统安装初始,就让 无法ping通内控 服务,则检查 /etc/sysconfig/network-scripts/ifcfg-ens33 文件,确认 ONBOOT 的值就让 为no也能修改为yes(Centos7.5虚拟机安装初始默认为no),就让 网络无法连通。

也能从以下十几次 维度进行评估:

第三累积将完正描述集群手动安装过程,与自动安装达成的效果一致,如已通过自动脚本完成CM服务安装可直接前往第四累积CDH部署。

spark-submit \

--conf spark.dynamicAllocation.enabled=false \

--name $name \

--master yarn \

--deploy-mode $deploy \

--queue root.prd \

--driver-memory $memDriv \

--num-executors $numExec \

--executor-memory $memExec \

--executor-cores $coreExec \

--class $class \

--jars /home/dw_prd/jars/mysql-connector-java-5.1.35.jar \

--conf spark.executor.extraClassPath=/opt/cloudera/parcels/CDH/lib/hbase/lib/* \

--conf spark.driver.extraClassPath=/opt/cloudera/parcels/CDH/lib/hbase/lib/* $jar $params

设置mysql账号密码

等等。

手动检查各个主机上的网络设置,就让 有问题则修改配置:

kill -9 pid

也能有root权限的用户(root就让 sudo权限)设置免密登录。

进入mysql并创建数据库:

关闭防火墙:

使用自动化脚本工具进行安装操作:

hbase org.apache.hadoop.hbase.PerformanceEvaluation --nomapred --rows=5000000 randomRead 10

19/04/11 09:13:46 INFO hbase.PerformanceEvaluation: [RandomReadTest] Min: 73645ms Max: 74517ms Avg: 741500ms

fdisk -l

查看selinux情况表:

ansible all -m shell -a "yum localinstall cloudera-manager-daemons-6.1.0-769885.el7.x86_64.rpm cloudera-manager-agent-6.1.0-769885.el7.x86_64.rpm cloudera-manager-server-6.1.0-769885.el7.x86_64.rpm"

指由两个统一的大集群提供所有大数据服务,所有组件集中安装下 同两个集群中,有部署简单、运维方便、易于使用等优点。

ansible使用配置参考 Ansible官网。

hadoop jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/hadoop-mapreduce-client-jobclient-tests.jar TestDFSIO -D test.build.data=/tmp/benchmark -write -nrFiles 50000 -fileSize 5000

firewall

下载mysql安装包。

数据现状

本次过程不启用auto-ssl。

/opt/cloudera/cm/schema/scm_prepare_database.sh -h cdh2-3 mysql scm scm

且集群环境较为复杂化,有较多对线上业务造成影响的风险。

使用iperf测试主机之间的网络传输效率。

Java安装

todo:

也能开放的端口可参考 官网说明,就让 没人确保开放所有所需端口,则也能关闭防火墙。

Scala安装

Hive、Hue、Impala、Sentry等服务/元数据服务也能部署在同一主机

创建MySQL数据目录(非默认盘):

fi

params=""

if [ $# -gt 8 ]

then

sudo -u hdfs hadoop balancer -threshold 10 -policy datanode

Zookeeper尽量使用十个 节点,且条件允许下最好在不同的物理主机上

脚本操作说明见:CDH集群自动化部署工具 。

IPv6打开的情况表下怎么才能 才能 关闭:

你就让 对集群的架构模式、应用方向与业务场景了然于胸,并确保这人集群(就让 是集群组)也能提供稳定、高效、高性能的服务,为业务保驾护航。

专用型集群根据业务与应用场景也能划分如下:

ansible all -m copy -a "src=/tmp/cm/cloudera-manager.repo dest=/etc/yum.repos.d"

ansible all -m shell -a "yum clean all && yum makecache"

drop database scm;

drop database amon;

drop database rman;

drop database hue;

drop database metastore;

drop database sentry;

drop database nav;

drop database navms;

drop database oozie;

ansible all -a "rm -Rf /var/lib/cloudera /var/log/cloudera /var/run/cloudera /etc/cloudera /tmp/.scm_prepare_node.lock"

yarn application -kill $1

工作负载

设置集群机器主机名,并加入其他人hosts文件中:

hadoop jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/hadoop-mapreduce-client-jobclient-tests.jar TestDFSIO -D test.build.data=/tmp/benchmark -clean

umount /dev/sdb1

mapreduce.output.fileoutputformat.compress=已启用

mapreduce.output.fileoutputformat.compress.type=BLOCK

mapreduce.output.fileoutputformat.compress.codec=org.apache.hadoop.io.compress.SnappyCodec

mapreduce.map.output.compress.codec=org.apache.hadoop.io.compress.SnappyCodec

mapreduce.map.output.compress=已启用

zlib.compress.level=DEFAULT_COMPRESSION

性能需求

cat /etc/cloudera-scm-server/db.properties

name=$1

deploy=$2

memDriv=$3

numExec=$4

coreExec=$5

memExec=$6

class=$6

jar=$7

安装python所需依赖包:

合理的集群规划应该做到以下几点:

专用型集群指根据不同的需求与功能职责对集群进行划分,由多个职责不同、硬件隔离的集群组成集群组环境提供服务。

JDK下载地址:Cloudera Archive CM, 根据对应的cm版本选折 下载。

未来数据量预估

For MySQL 5.6 and 5.7, you must install the MySQL-shared-compat or MySQL-shared package. This is required for the Cloudera Manager Agent package installation.

创建免密root权限用户

安装完毕后配置修改 /etc/ansible/hosts 对也能管理的主机进行配置,默认配置也能修改编辑 /etc/ansible/ansible.cfg

本位示例主机列表:

num.partitions=8

mapreduce.output.fileoutputformat.compresstruemapreduce.output.fileoutputformat.compress.codecorg.apache.hadoop.io.compress.SnappyCodecio.compression.codecsorg.apache.hadoop.io.compress.DefaultCodec,org.apache.hadoop.io.compress.GzipCodec,org.apache.hadoop.io.compress.BZip2Codec,org.apache.hadoop.io.compress.DeflateCodec,org.apache.hadoop.io.compress.SnappyCodec,org.apache.hadoop.io.compress.Lz4Codec

附:NTP内网服务器搭建

默认国外的yum源下载效率缓慢,替换为国内阿里云的yum源。

tail -f /var/log/cloudera-scm-server/cloudera-scm-server.log

spark.driver.extraJavaOptions=-Dfile.encoding=UTF-8

spark.executor.extraJavaOptions=-Dfile.encoding=UTF-8

spark.hadoop.mapred.output.compress=true

spark.hadoop.mapred.output.compression.codec=org.apache.hadoop.io.compress.SnappyCodec

spark.hadoop.mapred.output.compression.type=BLOCK

注意事项:

fi

hbase org.apache.hadoop.hbase.PerformanceEvaluation --nomapred --rows=5000000 --presplit=5000 sequentialWrite 10

19/04/11 09:08:19 INFO hbase.PerformanceEvaluation: [SequentialWriteTest] Min: 14083ms Max: 14549ms Avg: 14270ms

等候cloudera-scm-server应用应用多多线程 起来后,在浏览器输入 ip:71500 进入CM管理界面部署CDH组件。

spark.pyspark.python

Centos7.5默认开启IPv6,CM组件明确说明不支持系统的IPv6功能,IPv6开启情况表下就让 会出現不可预料的错误,也能提前关闭。

fuser -mv /mnt/

ansible all -a "yum -y remove cloudera-manager-*"

ansible all -a "umount /var/run/cloudera-scm-agent/process"

Centos7自带python2.7,Centos6自带python2.6也能升级。

修改mysql配置文件内容

配置内网NTP-Server(管理节点)。

硬件规划决定集群将使用十几次 硬件资源,以及哪此配置的硬件资源。

随机读

fdisk -l

mkdir /mnt/ukey

子集群各司其职,根据自身业务最大化利用硬件资源,互相独立互不影响。部署较为复杂化,运维难度增加。

mysql5.7以上强制密码策略不满足也能通过以下土辦法 修改:

hadoop fs -mkdir /ec_xor

hdfs ec -getPolicy -path /ec_xor

hdfs ec -enablePolicy -policy XOR-2-1-1024k

hdfs ec -setPolicy -path /ec_xor -policy XOR-2-1-1024k

hdfs ec -getPolicy -path /ec_xor

hdfs ec -setPolicy -path /ec_xor -policy RS-10-4-1024k

hdfs ec -enablePolicy -policy RS-6-3-1024k

hdfs ec -setPolicy -path /ec_xor -policy RS-6-3-1024k

ll

vi ec_test.txt

hadoop fs -put ec_test.txt /ec_xor

hdfs ec -setPolicy -path /ec_xor_s -policy XOR-2-1-1024k

hdfs ec -setPolicy -path /ec_xor_m -policy XOR-2-1-1024k

hdfs ec -setPolicy -path /ec_xor_l -policy XOR-2-1-1024k

ll

hadoop fs -put mysql-connector-java-8.0.12-1.el7.noarch.rpm /ec_xor

hadoop fs -put mysql-connector-java-8.0.12-1.el7.noarch.rpm /ec_xor_s

hadoop fs -put mysql-connector-java-8.0.12-1.el7.noarch.rpm /ec_xor_m

hadoop fs -put mysql-connector-java-8.0.12-1.el7.noarch.rpm /ec_xor_l

hadoop fs -put Downloads.zip /ec_xor_s

hadoop fs -put /ec_xor_s

hadoop fs -put Downloads.zip /ec_xor_l

hdfs fsck /ec_xor_s -files -blocks -locations

rz -E

hadoop fs -rmr /ec_xor_s/

hadoop fs -mkdir /ec_xor_s/

hdfs ec -setPolicy -path /ec_xor_s -policy XOR-2-1-1024k

hadoop fs -ls /ec_xor_m/D

hadoop fs -ls /ec_xor_m/

hadoop fs -rm -r /ec_xor_m/Downloads.zip

hadoop fs -rm -r /ec_xor_l/mysql-connector-java-8.0.12-1.el7.noarch.rpm

ll

hadoop fs -put MTracer.zip /ec_xor_s

hdfs fsck /ec_xor_s -files -blocks -locations

hdfs fsck /ec_xor_m -files -blocks -locations

hdfs fsck /ec_xor_l -files -blocks -locations

hdfs ec -getPolicy -path /tmp

hdfs ec -getPolicy -path /

hdfs ec -getPolicy -path /ec_xor

hadoop fs -ls /

hadoop fs -ls /user

hdfs ec -setPolicy -path /user/zhangsan

hdfs ec -getPolicy -path /user/zhangsan

hdfs ec -getPolicy -path /user/yarn

hdfs ec -getPolicy -path /user/zhangsan -policy XOR-2-1-1024k

hdfs ec -setPolicy -path /user/zhangsan -policy XOR-2-1-102

hdfs ec -getPolicy -path /user/yarn

hdfs ec -getPolicy -path /user/zhangsan

hadoop fs -ls /user/zhangsan

hadoop fs -ls /ec_xor_l

hadoop fs -du -h /ec_xor_l

使用fio工具对io进行各个场景的读写性能测试。

安装操作系统时选折 了中文语言,使用时发现累积中文会有乱码的情况表,防止方案如下:

集群主节点与子节点独立部署(HDFS/HBase/Yarn),且其他人子节点部署在相同主机上

pyspark \

--master yarn \

--queue root.moxing \

--driver-memory 1G \

--executor-memory 4G \

--executor-cores 1 \

--num-executors 10 \

--conf spark.dynamicAllocation.enabled=false

示例集群主要应用应用多多线程 分布如下:

配置环境变量

就让 你正准备从0开始了了搭建一套CDH集群应用于生产环境,没人此时也能做的事情应该是 结合当前的数据、业务、硬件、节点、服务等对集群做合理的规划,而全是马上动手去安装软件。

umount /dev/sdb1

| 数量 | CPU | 内存 | 硬盘 |

| --- | --- | --- | --- |

| 8 | 10 | 64G | 3.3T |

没人使用专门的数据库服务器,就让 每个服务的数据库应该分散在不同的节点上。

HBase提供实时读写服务的生产环境下建议将HBase集群独立部署为数据服务集群,参考:HBase最佳实践 - 「集群部署」小节。

修改为关闭情况表:

mkdir -p /opt/cloudera/parcel-repo

mv /tmp/cm/CDH-6.1.0-1.cdh6.1.0.p0.770702-el7.parcel /opt/cloudera/parcel-repo

mv /tmp/cm/manifest.json /opt/cloudera/parcel-repo

在各个主机上操作:

在大型集群中Activity Monitor 与 Service Monitor 使用的数据库应该分配不同的磁盘卷来进行读写。

进行节点角色划分时尽就让 遵守以下原则:

mapreduce.map.output.compresstruemapred.map.output.compress.codecorg.apache.hadoop.io.compress.SnappyCodec

就让 服务器硬盘已插入还未挂载则也能先载入硬盘:

顺序读

ansible all -a "systemctl start cloudera-scm-agent"

hadoop.http.staticuser.useryarn

hadoop jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/hadoop-mapreduce-client-jobclient-tests.jar TestDFSIO -D test.build.data=/tmp/benchmark -read -nrFiles 50000 -fileSize 5000

hbase org.apache.hadoop.hbase.PerformanceEvaluation --nomapred --rows=5000000 sequentialRead 10

19/04/11 09:12:07 INFO hbase.PerformanceEvaluation: [SequentialReadTest] Min: 500383ms Max: 52429ms Avg: 51691ms

以下操作均为Centos7.5操作系统上进行。

就让 集群节点超过50000个,将mysql的max_allowed_packet值设置为16M。

在超过500个节点的集群中,暂且将所有服务的数据库装下 两个节点中,就让 该节点的数据库压力会很大。最好能为每个服务配置不同所处不同节点上的数据库。

修改pip源

安装mysql驱动

host示例配置如下:

io.compression.codecs=org.apache.hadoop.io.compress.DefaultCodec,org.apache.hadoop.io.compress.GzipCodec,org.apache.hadoop.io.compress.BZip2Codec,org.apache.hadoop.io.compress.DeflateCodec,org.apache.hadoop.io.compress.SnappyCodec,org.apache.hadoop.io.compress.Lz4Codec

mount -t ntfs-3g /dev/sdb1 /mnt/ukey

安装ansible批量管理主机:

ntp.conf配置文件内容如下:

hue_safety_value.ini

[impala]

server_host=

server_port=

iptables

PYSPARK_PYTHON=/usr/bin/python3.6

sudo -u hdfs hbase pe sequentialWrite 1

sudo -u hdfs hbase pe sequentialRead 1

sudo -u hdfs hbase pe randomWrite 1

sudo -u hdfs hbase pe randomRead 1

if [ $# -lt 7 ]

then

if [ $# -lt 1 ]

then

备份文件logfile文件

查看IPv6启用情况表也能通过以下几种土辦法 :

systemctl start cloudera-scm-server

随机写

fi

yarn.nodemanager.resource.memory-mb:每台主机能也能被Yarn使用的内存大小

yarn.app.mapreduce.am.resource.cpu-vcores:每台主机能也能被Yarn使用的CPU核心数

yarn.scheduler.minimum-allocation-mb:Container最小申请的内存大小

yarn.scheduler.maximum-allocation-mb:Container最大可申请的内存大小

顺序写

安装python3.6

上传并安装

局域网内控 安全情况表下最好关闭防火墙,就让 CM管理组件和CDH组件有极少量的端口进行通讯,也能配置什么都防火墙策略。

安装脚本就让 执行 配置SSH免密登录、安装软件、操作系统优化、Java等开发环境初始化、MySQL安装、CM服务安装、操作系统性能测试等过程。

fi

卸载已有mariadb数据库。

启动mysql服务

beeline --hiveconf mapreduce.job.queuename=xy_yarn_pool.production -u 'jdbc:hive2://172.20.15.12:500000/xy_app_hive' -n xy_app_hive -p dj@hy#fdabc9 -f $1 --hivevar fo_tab=credit_mining.fo_payment_encrypt --hivevar fi_tab=credit_mining.fi_gw_express_order_idcard1_encrypt --hivevar yanka_tab=xy_ods.t_serve_business_order_real_time_encrypt --hivevar laundering_4_1_tab=xy_app_hive.member_user_newest_status_d_incr --hivevar laundering_4_2_tab=xy_app_spark.prd_member_lending_data_4_d_incr_v2 --hivevar laundering_5_1_tab=xy_app_hive.member_user_newest_status_5_d_incr --hivevar laundering_5_2_tab=xy_app_spark.prd_member_lending_data_5_d_incr_v2

cd /opt/cloudera/parcel-repo && sha1sum CDH-6.1.0-1.cdh6.1.0.p0.770702-el7.parcel | awk '{ print $1 }' > CDH-6.1.0-1.cdh6.1.0.p0.770702-el7.parcel.sha

服务器硬件情况表如下:

安装后续也能用到的系统软件,以备就让服务器无外网无法下载的情况表。

就让 就让 混合型集群集群承载了所有功能,职能繁多,网络效率、磁盘IO等为集群共享,会因大型离线任务占用极少量网络或磁盘IO峰值,对线上业务会造成短暂延迟。

hbase org.apache.hadoop.hbase.PerformanceEvaluation --nomapred --rows=5000000 --presplit=5000 randomWrite 10

19/04/11 09:09:59 INFO hbase.PerformanceEvaluation: [RandomWriteTest] Min: 20766ms Max: 21968ms Avg: 21383ms

并有能力也能提供 集群建设目标

spark-shell \

--master yarn \

--deploy-mode client \

--queue root.moxing \

--driver-memory 1G \

--executor-memory 5G \

--num-executors 10 \

--executor-cores 1 \

--conf spark.port.maxRetries=50000 \

--conf spark.yarn.executor.memoryOverhead=5120 \

--conf spark.dynamicAllocation.enabled=false \

--conf spark.hbase.host=cdh2-1,cdh2-2,cdh2-3,cdh2-4,cdh2-5 \

--conf spark.hbase.config=/etc/hbase/conf/hbase-site.xml \

--conf spark.executor.extraClassPath=/opt/cloudera/parcels/CDH/lib/hbase/lib/* \

--conf spark.driver.extraClassPath=/opt/cloudera/parcels/CDH/lib/hbase/lib/*

yarn logs -applicationId $1 | grep '^ batb|Exception' --color

mkfs.xfs /dev/sdb

mount /dev/sdb /opt

umount /dev/sdb

混合随机读写

以上步骤完成就让才是动手进行安装与部署。

下载地址:Scala

count 'TestTable', {INTERVAL => 5000000, CACHE => 500000}

lsblk -d -o name,rota

从 这里 下载rpm离线安装包,所需文件及软件列表如下(以6.1版本为例):

从登录主机上一键复制到有些主机:

硬件选折

硬件资源现状

if [ $# -lt 1 ]

then

热门

热门标签