开云·kaiyun体育(中国)官方网站-登录入口

公司新闻

elasticsearch存储数据（elasticsearch 存储量）

时间：2024-09-23

Elasticsearch性能优化

1、性能优化并非易事，没有万能的解决方案。关键在于理解Elasticsearch底层机制，特别是其对filesystem cache的依赖。写入Elasticsearch的数据最终会存储在磁盘文件中，操作系统会自动将数据缓存到filesystem cache，搜索时如果内存足够大，能容纳所有索引数据文件，搜索几乎可以全在内存中进行，性能显著提升。

2、可以从三方面进行优化：JVM性能调优、ES性能调优、控制数据来源可以从三方面进行优化：JVM 性能调优、ES 性能调优、控制数据来源第一步是 JVM 调优。因为ES 是依赖于 JVM 运行，没有合理的设置 JVM 参数，将浪费资源，甚至导致 ES 很容易 OOM 而崩溃。

3、最近一年使用 Elasticsearch 完成亿级别日志搜索平台「ELK」，亿级别的分布式跟踪系统。在设计这些系统的过程中，底层都是采用 Elasticsearch 来做数据的存储，并且数据量都超过亿级别，甚至达到百亿级别。

4、filesystem cache被用来执行更多的IO操作，如果我们能给filesystem cache更多的内存资源，那么es的写入性能会好很多。使用自动生成的id 如果我们要手动给es document设置一个id，那么es需要每次都去确认一下那个id是否存在，这个过程是比较耗费时间的。

5、随着Lucene的持续优化，IndexSorting最终被集成至Elasticsearch。理解IndexSorting IndexSorting是一种预排序技术，数据在存储时按照特定方式预先排序，这一设置不可更改。在Elasticsearch的底层是Lucene，Lucene通过Segment进行查询，因此IndexSorting对数据的预排序也是在每个Segment内部有序的。

elasticsearch系统

ELK组合（Elasticsearch、Logstash、Kibana）是一种常用的企业级日志管理系统，由轻量级的日志收集工具Filebeat、分布式搜索引擎Elasticsearch、数据处理和分析的Logstash以及可视化界面Kibana组成。

对于es cpu这个概念，我们首先需要理解es代表的是elasticsearch，它是一种流行的开源搜索和分析引擎。而cpu则代表中央处理器，是计算机中最重要的组件之一。因此，es cpu指的是elasticsearch系统中的cpu，它的主要任务就是处理请求并发出响应。在elasticsearch系统中，cpu的使用率是非常重要的。

elasticsearch系统是什么？Elasticsearch是位于ElasticStack核心的分布式搜索和分析引擎。Logstash和Beats有助于收集、聚合和丰富您的数据并将其存储在Elasticsearch中。Kibana使您能够以交互方式探索、可视化和分享对数据的见解，并管理。Elasticsearch是索引、搜索和分析魔法发生的地方。

ElastricSearch第二弹之分片原理

总之，分片原理是 ES 实现高效数据处理和高可用性的关键。合理配置分片数量和副本数量，结合 ES 的路由算法和并发写策略，能够实现大规模数据的高效管理和快速访问。

Elasticsearch的核心组件——分片（Shard），是数据管理和搜索的关键。它们通过水平分割数据并分布在多个节点上，实现了数据的负载均衡和性能提升。以下是关于分片的几个关键概念：首先，主分片（Primary Shard）是索引的核心存储部分，每个索引可以有多个，它们承载着索引数据的主体。

复制分片只是主分片的一个副本，它可以防止硬件故障导致的数据丢失，同时可以提供读请求，比如搜索或者从别的 shard 取回文档。每个主分片都有一个或多个副本分片，当主分片异常时，副本可以提供数据的查询等操作。

elasticSearch天然具有分布式的特征，实现水平扩容时通过分片预分配。在创建索引时，选择合适的分片数。随着数据量的增加，可以动态的增加节点数，elasticSearch将会自动将分片分配到新增的节点上，当重新分配完成时，每个分片将会有接近至少两倍于之前的运算速度。

ES的data节点异常关闭，会导致副本出现unassigned shard，致使索引状态变为yellow，甚至是red。结果中，unassigned_shards对应的数字就是当前集群中异常分片的数量。

在这里有必要了解一下from/size的原理：因为es是基于分片的，假设有5个分片，from=100，size=10。则会根据排序规则从5个分片中各取回100条数据数据，然后汇总成500条数据后选择最后面的10条数据。做过测试，越往后的分页，执行的效率越低。总体上会随着from的增加，消耗时间也会增加。

[翻译]ElasticSearch官方文档

1、前段时间在做ElasticSearch数据分析相关的工作，一直想翻译ES的官方文档，相当于ES的入门文档吧。Elasticsearch是一个高度可扩展的开源全文搜索和分析引擎。它允许用户快速，实时地存储，搜索和分析大量数据。ES通常用作为具有复杂的搜索功能和要求的应用程序提供的底层引擎/技术。

2、本文是elasticsearch官方文档logstash的翻译，你也可查看原文注：Logstash意思是日志存储，下文中对本词使用英文。

3、这是 elasticsearch 官网的解释，表示只要是 ISO datetime parser 可以正常解析的都是 strict_date_optional_time 。

4、通过与Elasticsearch进行合作，我很快意识到，官方文档看起来更像是所谓文档的挤压。我不得不在Google上四处搜寻，并且大量使用stackowerflow，所以我决定编译这篇文章中的所有信息。在本文中，我将主要撰写有关查询/搜索Elasticsearch集群的文章。

elasticsearch存储数据（elasticsearch 存储量）

回怼篇:我10亿级ES数据迁到MongoDB节省90%成本!

智能产品业务数据之前存储在Elasticsearch（Es）中，磁盘占用约30T，总数据量25亿，业务存在严重性能及成本问题，当前部分数据已迁移至MongoDB，迁移后成本实现十倍级节省，业务抖动问题解决。迁移原因与对比业务已将数百亿级数据从Es迁移至MongoDB，原因在于业务选型错误导致的性能及成本问题。

业务迁移上云涉及到的业务数据种类繁多，主要类型包括：数据库：关系型数据库 MySQL 、PG、Oracle等对象存储：标准S3接口对象存储迁移中间件数据：ES、mongoDB、redis等文件存储：文档、图片等非结构化数据大数据：HBASE、HDFS files等。

从在线数据角度看，1000 万个容器构成了超过 10 万个微服务，这些微服务在线上运行期间会产生大量数据。在 2020 年，字节跳动的在线数据量级达到 EB 级；到 2021 年 5 月份，字节跳动数据库团队已支撑超过 10 EB 的存储规模。

有几个基于持久化存储的、兼容 Redis 协议的系统可以当作数据库使用，比如 SSDB、ARDB、Pika 等。但是据我所知，这些项目现在都不支持集群，没办法动态扩容。

有人使用MongoDB进行日志收集，是非常不明智的，只有几千万条还可以，如果半个月生产10亿条日志呢？日志文件需要保存一个月甚至更长，那么集群和硬盘维护就非常重要。使用便利性也很重要，例如分词检索，在客服回溯玩家日志，分析游戏 BUG 的时候非常有用。下文的 ES 也是该组件的简称。

首页

关于我们

产品中心

新闻资讯

联系我们

用创新的技术，为客户提供高效、绿色的驱动解决方案和服务

以科技和创新为客户创造更大的价值

公司新闻

elasticsearch存储数据（elasticsearch 存储量）

时间：2024-09-23

Elasticsearch性能优化

elasticsearch系统

ElastricSearch第二弹之分片原理

[翻译]ElasticSearch官方文档

回怼篇:我10亿级ES数据迁到MongoDB节省90%成本!