原文地址 blog.csdn.net
StreamSets(3.22.x) 安装部署
简介:
Control Hub: StreamSets Control Hub 是所有数据流管道的中心控制点。Control Hub 允许团队大规模构建和执行大量复杂的数据流。
Data Collector: StreamSets Data Collector 是一种轻量级、功能强大的设计和执行引擎,可以实时传输数据。使用 Data Collector 路由和处理数据流中的数据
Transformer: StreamSets Transformer 是一个执行引擎,它在开源集群计算框架 Apache Spark 上运行数据处理管道。由于 Transformer 管道在部署在集群上的 Spark 上运行,因此管道可以以批处理或流模式对整个数据集执行需要大量处理的转换
1.1 源码
地址:
https://github.com/streamsets
下的datacollector-oss
1.2 官方详细文档
地址:
https://docs.streamsets.com/
DOC(3.22.2) 文档地址:
https://docs.streamsets.com/portal/#datacollector/3.22.x/help/index.html
1.3 资源
- SDC:
https://archives.streamsets.com/datacollector/3.22.2/tarball/activation/streamsets-datacollector-all-3.22.2.tgz
- OpenJdk8:
https://corretto.aws/downloads/latest/amazon-corretto-8-x64-linux-jdk.tar.gz
1.4 安装要求
在满足以下最低要求的机器上安装 Data Collector。要以集群执行模式运行管道,集群中的每个节点都必须满足最低要求。
组件 最低要求 操作系统 Mac OS X
Amazon Linux 2
CentOS 6.x or 7.x
Oracle Linux 6.x or 7.x
Red Hat Enterprise Linux 6.x or 7.x
Ubuntu 14.04 LTS - 20.04 LTS核数 2 内存 1 GB 磁盘空间 6 GB 注意: StreamSets 不建议使用 NFS 或 NAS 来存储 Data Collector 文件。 File descriptors 32768 Java Oracle Java 8 or OpenJDK 8 Browser Chrome
Firefox
Safari注意:
推荐使用 1.8.0_161 以上版本. 如果使用 java8 版本低于
1.8.0_161
. 需要在 Data Collector 机器上配置 JDK 以使用 Java Cryptography Extension (JCE) Unlimited Strength Jurisdiction Policy. 要将 JDK 配置为使用无限制加密,请将 JDK 安装中包含crypto.policy
的java.security
文件中的 Java Security 属性 设置 为unlimited
. 有关java.security
更多信息,请参阅文件中的注释. 配置无限制加密后,重新启动 Data Collector设置 ulimit: redhat 官方教程:
https://access.redhat.com/solutions/61334
临时修改: ulimit -HSn 32768
永久修改: 在
/etc/security/limits.conf
文件末尾添加如下内容, 退出并从终端重新登录以使更改生效。* soft nofile 32768 * hard nofile 32768
题外介绍:
/etc/security/limits.conf
:# vi /etc/security/limits.conf #<domain> <type> <item> <value> * - core <value> * - data <value> * - priority <value> * - fsize <value> * soft sigpending <value> eg:57344 * hard sigpending <value> eg:57444 * - memlock <value> * - nofile <value> eg:1024 * - msgqueue <value> eg:819200 * - locks <value> * soft core <value> * hard nofile <value> @<group> hard nproc <value> <user> soft nproc <value> %<group> hard nproc <value> <user> hard nproc <value> @<group> - maxlogins <value> <user> hard cpu <value> <user> soft cpu <value> <user> hard locks <value>
<domain>
可:
- 用户名
- 组名,带
@group
语法- 通配符
*
,用于默认条目- 通配符
%
,也可以与%group
语法一起使用,用于maxlogin
限制
<type>
可以有两个值:
soft
用于强制执行软限制hard
强制执行硬限制
<item>
可以是以下之一:
core
- 限制核心文件大小 (KB)data
- 最大数据大小 (KB)fsize
- 最大文件大小 (KB)memlock
- 最大锁定内存地址空间 (KB)nofile
- 最大打开文件数rss
- 最大驻留集大小 (KB)stack
- 最大堆栈大小 (KB)cpu
- 最大 CPU 时间 (MIN)nproc
- 最大进程数(见下面的注释)as
- 地址空间限制 (KB)maxlogins
- 此用户的最大登录次数maxsyslogins
- 系统上的最大登录次数priority
- 运行用户进程的优先级locks
- 用户可以持有的最大文件锁数sigpending
- 最大挂起信号数msgqueue
- POSIX 消息队列使用的最大内存(字节)nice
- 允许提高的最大优先级值:[-20, 19]rtprio
- 最大实时优先级为了提高性能,我们可以安全地将超级用户 root 的进程限制设置为无限制。编辑
.bashrc
文件并添加以下行:# vi /root/.bashrc ulimit -u unlimited
1.5 身份认证
- 配置身份验证属性。编辑文件
etc/sdc.properties
内容
http.authentication.login.module=file
http.authentication=basic
# none|basic|digest|form|aster验证方式对应配置的文件:
etc/basic-realm.properties etc/digest-realm.properties etc/form-realm.properties
- 配置 Data Collector 用户、组和角色。
用户可以在登录 Data Collector 后更改其密码。或修改上面的配置文件
etc/xxx-realm.properties
验证方式为
basic
情况下默认用户名:admin
, 默认密码:admin
注意:
虽然是免费的, 但是当前版本, 第一次登录需要, 使用 StreamSets 官网注册账号登录一次授权, 授权后可以一直使用, 没有过期时间:
Activation enabled, activation is valid and it does not expire
跳过授权:
方法一:
https://www.aliyundrive.com/s/nRaoygBBhvE
下载这 2 个文件放到data
目录下方法二: 删除
container-lib/streamsets-activation-no-trial-3.6.0.jar
这个文件方法三: 修改源码
container-common/src/main/java/com/streamsets/datacollector/activation/ActivationLoader.java
的getActivation
方法, 打包替换掉container-lib/streamsets-datacollector-container-common-3.22.2.jar
public Activation getActivation() { final Activation activation; // 将这2行注释 // ServiceLoader<Activation> serviceLoader = ServiceLoader.load(Activation.class); // List<Activation> list = ImmutableList.copyOf(serviceLoader.iterator()); // 将list置为empty List<Activation> list = Collections.emptyList(); ... 其他代码 }
-
如果您有企业帐户,则通常使用 Control Hub 身份验证来访问 Data Collector。
-
如果您没有企业帐户,则默认使用 StreamSets 帐户下载并登录到 Data Collector。通过 StreamSets 帐户身份验证,您的用户帐户被授予 Admin 角色。
1.6 启动
- 解压:
tar zxf streamsets-datacollector-all-3.22.2.tgz
- 进入解压目录:
streamsets-datacollector-all
- 前台启动
bin/streamsets dc
, 或后台nohup bin/streamsets dc >/dev/null 2>&1 &
- 浏览器输入
http://{host}:18630/
访问