随着网络技术的不断进步,数据量不断膨胀,各行各业也越来越注重数据的存储与处理。在这样的背景下,检索服务器成为一种必备的应用技术。其中,ES(Elasticsearch)检索服务器就是受到越来越多人关注的一种技术。
本文将从以下几个方面,对ES检索服务器进行详细解析,包括其定义、优势、使用场景、实际应用案例等。
一、定义
ES检索服务器,是一种分布式开源搜索引擎。ES基于Lucene搜索库构建,支持全文搜索、结构化搜索等多种搜索方式。同时,ES还支持实时搜索、分布式搜索以及数据分片等特性。此外,ES还集成了Kibana可视化工具和Logstash日志收集工具,构成了一个全功能的日志收集、检索和可视化分析平台。
二、优势
1.高效性强:ES内部采用了Shard实现数据分布式存储,可以有效提高搜索效率。
2.可扩展性好:ES支持Horizontal Scaling,即可以通过增加节点来提供更大规模的搜索服务。
3.功能多样化:ES支持全文搜索、结构化搜索、地理信息搜索等多种搜索方式,并且ES还支持Text Analyse、 Query DSL等多种高级功能。
4.易于管理:ES内部结构清晰,路径简单,易于管理。
5.实时性高:ES支持实时搜索,并且支持近乎实时的文档更新。
三、使用场景
1.网站搜索:ES可以作为网站的核心搜索引擎,能够提供高性能和准确的搜索服务。
2.日志分析:ES可以对日志进行收集、处理和分析,快速地检查日志内容和指标变化。
3.数据搜索分析:ES可以对数据进行全文搜索、结构化搜索、地理信息搜索等操作,快速找到数据的相关信息。
4.实时在线分析:ES可以实时地对用户行为、交易信息等数据进行分析和处理,提供更加精准、及时的业务决策支持。
四、实际应用案例
1.东方航空:ES+Kibana完成航班数据分析和可视化展示,帮助航空公司迅速发现运营问题和改进空缺。
2.美团点评:ES应用在美团点评的多个业务场景中,支持全面的搜索服务和大数据分析服务。
3.美国国家地球物理数据中心:ES被应用在监控和提取海洋和极地地理数据的平台中,真实地重塑了科学家对海洋和极地环境的认知和了解。
综上所述,ES检索服务器作为一种全功能的日志收集、检索和可视化分析平台,具有较高的搜索效率、扩展性、功能多样化、易于管理和实时性高等优势。在网站搜索、数据搜索分析、实时在线分析等多个场景下,ES都可以发挥出强大的作用,并且在多个实际应用案例中得到了充分证明。
相关问题拓展阅读:
- ES检索优化实践篇
ES检索优化实践篇
我们搭建了一个涵盖全国企业信息的企业库,涵盖4000w的工商注册企业以及8000w的个体工商信息。用户使用此库的主要场景是检索与用户业务相关的企业,以寻找销售机会。
怎样帮用户更好地查找到心仪的企业?
首先,本着寻找销售机会的目标,分析用户检索的常见场景:
对产品而言,特定企业查询,是企业库检索的面子工程,有心里预期的检索结果过差,会造成极差的之一印象;同类企业查询,是我们项目的目标,悔御竖能够查找符合用户需求的一类企业,才能更好地为用户提供价值
惭愧而言,现状距离上述两种目标都相差甚远
当前企业库支持公司名称、法人、地址和经营范围四个内容的检索,但是基于ES现有的评分结果,综合排序效果很差。结合用户使用场景,我们拟订以下优化方案:
1. 补充检索内容
巧妇难为无米炊,缺少数据的情况下查询效果一定差。补充企业产品、品牌词等内容,满足用户查找线索的常用场景。
2. 补充检索词库
ES检索提供通用词库,但是我们场景下需要识别的企业信息与通用词有一定差异,只有词库够强大,分词能力才能更强。
3. 调整检索评分
检索评分直接影响检索排序,而排序是给用户的之一观感。
在实操过程中,我们是3,1,2的顺序来进行的优化,以下也将按实操过程来给大家展示优化效果。
在检索评分上,我们做了两方面的调整:
一拆李方面,针对不同检索内容项,设置不同权重,将公司名称设置更高权重,法人其次,地碧大址和经营范围权重更低。权重调整的效果如下:
调整前
调整后
检索词【开店】,调整前,所有检索内容权重相同,由于法人姓名长度较短,检索词若命中法人姓名,得分较高,因此大部分命中法人的信息会排在前面。在调整后,我们增加了公司名称的权重,减少了由于法人字段过短造成的高分影响,排在前位的较多是公司名称命中的数据。
上述检索虽调整了检索范围的权重,但是从检索效果来看并不理想。主要原因在于公司名称中个体工商一般名称较短,命中检索词的时候会获得更高的评分,导致排序靠前的数据大部分为个体工商户。
我们又做了第二步调整,增加「企业」类型的检索评分(_score*2),同时增加注册资本大于100w的公司得分(_score*2)。效果如下:
经过两轮调整,目前的检索效果基本符合预期。
优化2:补充检索内容
在销售机会查找的业务场景下,用户经常使用产品词、品牌词等进行搜索。为此,我们首先引入了商标数据,补充检索内容。
引入数据量400w+
引入前效果:
引入后:
优化3:补充检索词库
为了让ES更加准确的识别用户输入的信息,我们拟订从公司名称中拆解出一些分词,补充到检索词库中。
针对公司名称的拆词,使用现有策略模型,公司名称拆词的效果如下:
拟订将【K】【B】类输入到ES词库中。
效果,未完待续。。。。
(1) 入库分词和检索词使用不同粒度:入库分词存储时,公司名称、法人、地址采用细粒度分词,主营业务采用粗粒度分词。检索时采用粗粒度分词。
避免拆词过细,减少了match的总条数
(1) ES检索词库补充
关于es检索服务器的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。