0、技术选型

news2026/5/17 3:05:08

技术选型参考：

系统数据流程图

框架发行版本选型

1）如何选择Apache/CDH/HDP版本？

（1）Apache：运维麻烦，组件间兼容性需要自己调研。（一般大厂使用，技术实力雄厚，有专业的运维人员）（建议使用）

（2）CDH：国内使用最多的版本，但CM不开源，今年开始收费，一个节点1万美金/年。

（3）HDP：开源，可以进行二次开发，但是没有CDH稳定，国内使用较少

2）云服务选择

（1）阿里云的EMR、MaxCompute、DataWorks

（2）亚马逊云EMR

（3）腾讯云EMR

（4）华为云EMR

具体版本型号

Apache框架版本

注意事项：框架选型尽量不要选择最新的框架，选择最新框架半年前左右的稳定版。

服务器选型：

服务器选择物理机还是云主机？

1）物理机：

以128G内存，20核物理CPU，40线程，8THDD和2TSSD硬盘，戴尔品牌单台报价4W出头。一般物理机寿命5年左右。

需要有专业的运维人员，平均一个月1万。电费也是不少的开销。

2）云主机

云主机：以阿里云为例，差不多相同配置，每年5W。

很多运维工作都由阿里云完成，运维相对较轻松

3）企业选择

金融有钱公司和阿里没有直接冲突的公司选择阿里云

中小公司、为了融资上市，选择阿里云，拉倒融资后买物理机。

有长期打算，资金比较足，选择物理机。

集群规模

1）如何确认集群规模？（假设：每台服务器8T磁盘，128G内存）

（1）每天日活跃用户100万，每人一天平均100条：100万*100条=1亿条

（2）每条日志1K左右，每天1亿条：100000000 / 1024 / 1024 = 约100G

（3）半年内不扩容服务器来算：100G*180天=约18T

（4）保存3副本：18T*3=54T

（5）预留20%~30%Buf=54T/0.7=77T

（6）算到这：约8T*10台服务器

2）如果考虑数仓分层？数据采用压缩？需要重新再计算

集群资源规划设计

在企业中通常会搭建一套生产集群和一套测试集群。生产集群运行生产任务，测试集群用于上线前代码编写和测试。

1）生产集群

（1）消耗内存的分开

（2）数据传输数据比较紧密的放在一起（Kafka 、Zookeeper）

（3）客户端尽量放在一到两台服务器上，方便外部访问

（4）有依赖关系的尽量放到同一台服务器（例如：Hive和mysql）

2）测试集群服务器规划