生产 ClickHouse 集群的 7 个基本技巧
ClickHouse是速度最快、资源效率最高的 OLAP 数据库,可以在几毫秒内查询数十亿行数据,并受到数千家公司信赖进行实时分析。
以下七个技巧可帮助您启动生产 ClickHouse 集群并避免最常见的错误。
技巧 1:使用多个副本
在测试 ClickHouse 时,很自然地只部署一个主机的配置,因为您可能不想使用额外的资源或承担不必要的开支。
在开发或测试环境中这样做并没有什么问题,但如果您希望在生产中只使用一台主机,那么这可能会付出代价。如果发生故障并且您只有一个副本和一台主机,那么您就有丢失所有数据的风险。
对于生产负载,您应该使用多台主机并在它们之间复制数据。这不仅可以确保当主机发生故障时数据仍然安全,还可以让您在多台主机上平衡用户负载,从而使资源密集型查询更快。
技巧 2:不要吝惜 RAM
ClickHouse 速度很快,但其速度取决于可用资源,尤其是RAM。在开发或测试环境中使用最少的 RAM 运行 ClickHouse 集群时,您可以看到出色的性能,但当负载增加时,情况可能会发生变化。
在同时进行大量读写操作的生产环境中,内存不足的问题会更加明显。如果您的 ClickHouse 集群没有足够的内存,它就会变慢,执行复杂查询所需的时间也会更长。
除此之外,当 ClickHouse 执行资源密集型操作时,它可能会与操作系统本身竞争 RAM,最终导致 OOM、停机和数据丢失。
ClickHouse 的开发人员建议使用至少 16 GB 的 RAM 来确保集群稳定。您可以选择较少的内存,但只有在您知道负载不会很高时才这样做。
技巧 3:选择表引擎时要三思
ClickHouse 支持多种具有不同特性的表引擎,但 MergeTree 引擎可能是最理想的选择。专用表是为特定用途量身定制的,但其局限性乍一看可能并不明显。日志系列引擎似乎非常适合日志,但它们不支持复制,并且数据库大小有限。
MergeTree 系列中的表引擎是默认选择,它们提供 ClickHouse 所著称的核心数据功能。除非您确切知道为什么需要不同的表引擎,否则请使用 MergeTree 系列中的引擎,它将涵盖您的大多数用例。
技巧 4:主键不要超过三列
ClickHouse 中的主键与传统数据库中的主键用途不同。它们不确保唯一性,而是定义如何存储和检索数据。
如果将所有列都用作主键,您可能会受益于更快的查询。然而,ClickHouse 的性能不仅取决于读取数据,还取决于写入数据。当主键包含许多列时,写入数据时整个集群的速度都会变慢。
ClickHouse 中主键的最佳大小是两列或三列,因此您可以更快地运行查询,而不会减慢数据插入速度。选择列时,请考虑将要发出的请求,并选择经常在过滤器中选择的列。
技巧 5:避免使用小插件
当您在 ClickHouse 中插入数据时,它首先会将包含该数据的部分保存到磁盘。然后,它会对这些数据进行排序、合并,并在后台将其插入到数据库中的正确位置。如果您经常插入小块数据,ClickHouse 会为每个小块插入创建一个部分。这会减慢整个集群的速度,您可能会收到“部分过多”错误。
为了高效地插入数据,请大块地添加数据,并避免每秒发送多条插入语句。ClickHouse 可以快速插入大量数据 – 每秒 10 万行也可以 – 但应该是一次批量插入,而不是多次较小的插入。
如果您的数据量很小,请考虑使用外部系统(如 Managed Kafka)来批量处理数据。ClickHouse 与 Kafka 集成良好,可以高效地使用 Kafka 中的数据。
建议 6:思考如何消除重复数据
ClickHouse 中的主键不确保数据的唯一性。与其他数据库不同,如果您在 ClickHouse 中插入重复数据,它将按原样添加。
因此,最好的选择是在插入数据之前确保数据是唯一的。例如,您可以在流处理应用程序(如 Apache Kafka)中执行此操作。如果不可能,则在运行查询时有办法处理它。一种选择是使用仅选择重复行的最后一个版本。您还可以使用argMaxReplacingMergeTree按设计删除重复条目的引擎。最后,您可以运行以合并数据部分,但这是一个资源要求很高的操作,并且您应该只在您知道它不会影响集群性能时运行它。OPTIMIZE TABLE ... FINAL
技巧 7:不要为每一列创建索引
就像主键一样,您可能希望使用多个索引来提高性能。当您使用与索引匹配的过滤器查询数据时可能会出现这种情况,但总体而言,它不会帮助您加快查询速度。
与此同时,你肯定会体验到这种策略的缺点。多个索引会显著减慢数据插入速度,因为 ClickHouse 需要将数据写入正确的位置,然后更新索引。
当您想要在生产集群中创建索引时,请选择与主键相关的列。
原文链接:https://dzone.com/articles/7-essential-tips-for-a-production-clickhouse
热门API
- 1. AI文本生成
- 2. AI图片生成_文生图
- 3. AI图片生成_图生图
- 4. AI图像编辑
- 5. AI视频生成_文生视频
- 6. AI视频生成_图生视频
- 7. AI语音合成_文生语音
- 8. AI文本生成(中国)
最新文章
- Axios 干净调用完全指南:拦截器 + 独立客户端,让前端代码优雅起飞
- 2025大学生暑假兼职新风口:从送外卖到做AI副业,你还在靠体力赚零花钱吗?
- GraphQL API | 在Hasura DDN上引入TypeScript函数
- 通过 Python 集成 英语名言 API 打造每日激励小工具,轻松获取每日名言
- 来自 openFDA、DailyMed、RxNorm、GoodRx、DrugBank、First Databank 等的药物和药物数据 API
- API 集成最佳实践全景手册:从选型到落地,一条链路降本 30%
- API设计:从基础到最佳实践
- 实战 | Python 实现 AI 语音合成技术
- Snyk Learn 全新 API 安全学习路径:掌握 OWASP API 前十风险与防护策略
- Document Picture-in-Picture API 实战指南:在浏览器中实现浮动聊天窗口
- 什么是变更数据捕获?
- AI 推理(Reasoning AI):构建智能决策新时代的引擎