深入探究ES Fuzzy

一、什么是ES Fuzzy

ES Fuzzy是Elasticsearch中实现模糊搜索的一种技术,它可以处理用户输入中潜在的拼写错误或者单词变形,从而提高搜索结果的准确率。

与传统的全文搜索不同,ES Fuzzy可以考虑到单词之间的相似度以及单词本身的模糊匹配,将不同的查询和文档之间建立关联,提高搜索的效果。

ES Fuzzy的核心思想是使用编辑距离算法来计算查询中的单词与文档中的单词之间的相似度。编辑距离是指将查询单词通过添加、删除、替换等操作转换为文档中的单词所需的最小步数。通过设置一个合理的阈值,可以使得查询单词和文档单词之间的编辑距离小于该阈值的文档被返回。

二、ES Fuzzy的特性

1、支持多种模糊匹配方式

ES Fuzzy支持多种模糊匹配方式,例如:

  GET /_search
  {
      "query": {
          "fuzzy": {
              "company_name": {
                  "value": "toglloom",
                  "fuzziness": "AUTO"
              }
          }
      }
  }

其中,fuzziness参数可以设置为AUTO、1、2等,表示不同的模糊匹配方式。

2、支持指定编辑距离

编辑距离是指从一个单词变成另一个单词所需的最小操作数。在ES Fuzzy中,可以通过fuzziness参数来指定所需的编辑距离。

  GET /_search
  {
      "query": {
          "fuzzy": {
              "age": {
                  "value": "2",
                  "fuzziness": 1
              }
          }
      }
  }

上面的查询请求会返回年龄等于2、或者编辑距离为1的文档。

3、支持前缀匹配和后缀匹配

ES Fuzzy可以进行前缀匹配和后缀匹配,指定prefix_length可以控制前缀匹配的长度,而suffix_length可以控制后缀匹配的长度。

  GET /_search
  {
      "query": {
          "fuzzy": {
              "company_name": {
                  "value": "googl",
                  "fuzziness": 1,
                  "prefix_length": 3,
                  "max_expansions": 20
              }
          }
      }
  }

三、ES Fuzzy的应用场景

ES Fuzzy可以应用于很多搜索场景中,例如:

1、搜索引擎中的拼写纠错。

拼写纠错一直是搜索引擎中的重要问题。ES Fuzzy可以很好地解决这个问题,从而提高相关搜索结果的准确率。

2、搜索商品名称或者描述。

商品名称或者描述中常常会出现拼写错误,使用ES Fuzzy可以将这些错误考虑在内,从而提高商品搜索结果的准确率。

3、搜索人名或者地名。

人名和地名常常会因为语言和拼写规则的差异而出现拼写错误,ES Fuzzy可以将这些错误考虑在内,从而提高搜索结果的准确率。

四、ES Fuzzy示例代码

  GET /index/type/_search
  {
    "query": {
      "fuzzy": {
        "name": {
          "value": "jems",
          "fuzziness": "AUTO"
        }
      }
    }
  }

上面的示例中,我们使用ES Fuzzy来搜索name字段等于jems的文档,其中fuzziness参数设置为AUTO,即自动匹配模糊匹配程度。

原创文章,作者:YRMW,如若转载,请注明出处:https://www.506064.com/n/134725.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
YRMWYRMW
上一篇 2024-10-04 00:07
下一篇 2024-10-04 00:07

相关推荐

  • Spark集成ES开发

    本文将介绍如何使用Spark集成ES进行数据开发和分析。 一、系统概述 Spark是一个基于内存的分布式计算系统,可以快速地处理大量数据。而ES(ElasticSearch)则是一…

    编程 2025-04-28
  • Helm部署ES CrashLoopBackOff

    如果你在使用Helm部署ES时遇到CrashLoopBackOff问题,那么本文将对这一问题进行详细解答。我们将从以下方面进行阐述: 一、问题分析与定位 在使用Helm部署ES时,…

    编程 2025-04-27
  • 深入解析Vue3 defineExpose

    Vue 3在开发过程中引入了新的API `defineExpose`。在以前的版本中,我们经常使用 `$attrs` 和` $listeners` 实现父组件与子组件之间的通信,但…

    编程 2025-04-25
  • 深入理解byte转int

    一、字节与比特 在讨论byte转int之前,我们需要了解字节和比特的概念。字节是计算机存储单位的一种,通常表示8个比特(bit),即1字节=8比特。比特是计算机中最小的数据单位,是…

    编程 2025-04-25
  • 深入理解Flutter StreamBuilder

    一、什么是Flutter StreamBuilder? Flutter StreamBuilder是Flutter框架中的一个内置小部件,它可以监测数据流(Stream)中数据的变…

    编程 2025-04-25
  • 深入探讨OpenCV版本

    OpenCV是一个用于计算机视觉应用程序的开源库。它是由英特尔公司创建的,现已由Willow Garage管理。OpenCV旨在提供一个易于使用的计算机视觉和机器学习基础架构,以实…

    编程 2025-04-25
  • 深入了解scala-maven-plugin

    一、简介 Scala-maven-plugin 是一个创造和管理 Scala 项目的maven插件,它可以自动生成基本项目结构、依赖配置、Scala文件等。使用它可以使我们专注于代…

    编程 2025-04-25
  • 深入了解LaTeX的脚注(latexfootnote)

    一、基本介绍 LaTeX作为一种排版软件,具有各种各样的功能,其中脚注(footnote)是一个十分重要的功能之一。在LaTeX中,脚注是用命令latexfootnote来实现的。…

    编程 2025-04-25
  • 深入了解Python包

    一、包的概念 Python中一个程序就是一个模块,而一个模块可以引入另一个模块,这样就形成了包。包就是有多个模块组成的一个大模块,也可以看做是一个文件夹。包可以有效地组织代码和数据…

    编程 2025-04-25
  • 深入理解Python字符串r

    一、r字符串的基本概念 r字符串(raw字符串)是指在Python中,以字母r为前缀的字符串。r字符串中的反斜杠(\)不会被转义,而是被当作普通字符处理,这使得r字符串可以非常方便…

    编程 2025-04-25

发表回复

登录后才能评论