Spark与Elasticsearch的整合
JerryHouse | elasticsearch, 数据分析 | 2017-10-09
Spark为大数据处理和大规模机器学习提供了很好的计算框架和丰富的编程接口,elasticsearch-spark是官方提供的elasticsearch插件,支持从elasticsearch中读取海量数据导入到spark和通过spark将海量数据导入到elasticsearch。
1.导入
<pre>object ReloadTask {
val logger: Logger = LoggerFactory.getLogger("ReloadTask")
de... [阅读全文]
elasticsearch索引速度优化
JerryHouse | elasticsearch | 2017-03-21
前一篇文章讲了elasticsearch排序插件,本文为elasticsearch官方的索引新能优化指南的翻译。
如果搜索的索引任务比较繁重(例如索引基础结构日志),我们可能会愿意牺牲一些elasticsearch的搜索性能以实现更快的索引速度。在这些情况下,搜索的量比较小,并且等待几秒钟才出搜索结果也是可以忍耐的,而不需要以毫秒级别返回搜索结果,可以做出一些权衡... [阅读全文]
elasticsearch中的field data(正排索引)
JerryHouse | elasticsearch, 搜索 | 2016-01-04
之前的文章有讲到elasticsearch filter和query的区别,其中filter就要用到field data这种数据结构。Elasticsearch cluster中的内存多半都被消耗在了field data(也就是我们常说的正排索引)上,field data主要用于:
按照字段排序(sort)
按照字段进行聚合(Aggregations)
过滤器,例如地理位置过滤
script排序中使用到某些字段
倒排索引的结构如下,这... [阅读全文]