为什么搜索的未来是向量?

原创 精选
开发 前端
尽管样本数据集中没有“这个字段应该使用什么数据类型?”的确切单词,但向量搜索识别出查询的上下文和语义与“Your text string goes here.”相似。

出品 | 51CTO技术栈(微信号:blog51cto)

如果用户在一个网站上遭遇糟糕的体验,近90%的用户将不会再次访问该网站。请花点时间理解这一惊人的统计数据。传统的网站可靠性工程师主要关注“五个9”,即确保网站99.999%的时间都能正常运行和访问。然而,这只是确保用户获得良好体验的一部分。

还有什么其他因素会导致用户点击离开网站并且永远不再回来呢?无法找到他们正在寻找的内容。

搜索某物却无法快速有效地找到它,可能是用户最失望的体验之一。你希望创建一个这种情况很少发生的网站。然而,用户使这变得非常困难。很多时候,他们不知道自己确切在寻找什么。他们心中有一个模糊的需求图像,但缺乏精确的描述词,他们的搜索最终只能用像“用于拧紧螺丝的工具”这样的关键词来提交。如果由人类来回答这个搜索请求,他会返回一套螺丝刀索引。那你的基于关键词的搜索会返回什么呢?

  • 关于拧紧技巧的文章。
  • 关于不同类型螺丝的博客文章。
  • 与螺丝刀无关的工具。
  • 这种例子每天都会发生,而且一天要发生无数次。

面对这个困境,我们需要一种新的资源来改善用户体验,即使在用户自身缺乏清晰性时也能提供清晰性。向量搜索提供了传统关键词搜索无法单独实现的可能性。

1.向量搜索的工作原理

向量搜索利用先进的机器学习模型将文本数据转化为高维向量,捕捉单词和短语之间的语义关系。与依赖精确匹配的传统基于关键词的搜索不同,向量搜索理解查询背后的上下文和含义,从而能够检索出更相关的结果。通过将查询和文档映射到相同的向量空间,它测量它们的相似度,即使用户的输入不精确或模糊,也能实现精确和直观的搜索体验。这种方法大大提高了搜索结果的准确性和相关性,使其成为现代信息检索系统的强大工具。

换句话说,当用户在由向量搜索支持的搜索功能中搜索“用于拧紧螺丝的工具”时,系统不仅查找包含这些确切单词的文档。相反,它解释查询背后的含义,并识别包含“螺丝刀”及相关术语的相关文档。

2.搜索的未来是向量

通过理解上下文和语义,向量搜索能够提供与用户意图高度相关的结果,即使查询中没有精确的关键词。这种能力使向量搜索成为改善用户体验的宝贵工具,通过提供精确和准确的搜索结果来响应不精确或描述性的查询。

这里有一个简单的向量搜索的例子。

大家都知道,将数据转化为向量涉及嵌入过程,其中文本数据被转换为高维空间中的数值表示。在这个上下文中,向量是一个数学实体,通过将单词和短语表示为多维空间中的点来捕捉它们的语义含义。通过将单词嵌入到向量中,模型可以根据它们在大型数据集中的上下文和用法来测量不同术语之间的相似性。这种转换允许更细致和上下文感知的搜索功能,为信息检索和人工智能的进步铺平了道路。

为了提供一个相对简单的示例,假设搜索功能所基于的数据集仅是一个字符串,由“Your text string goes here.”组成。这个字符串将被转换为字符串中单词的数值表示的向量。嵌入将包括如下值:

-0.006929283495992422

-0.005336422007530928

-4.547132266452536e-05

-0.024047505110502243

这些向量表示单词的语义含义,并允许搜索功能根据上下文而不是仅基于精确的关键词匹配来理解和检索相关信息。

当用户在这个简化的数据集上搜索类似“这个字段应该使用什么数据类型?”的短语时,搜索引擎会将查询转换为向量表示。然后,它将这个查询向量与数据集的向量进行比较。

尽管样本数据集中没有“这个字段应该使用什么数据类型?”的确切单词,但向量搜索识别出查询的上下文和语义与“Your text string goes here.”相似。

因此,搜索引擎可以根据向量的相似性返回最相关的结果。这有效地将不确定和不清晰的用户查询转化为更具确定性和清晰度的结果。

参考链接:https://thenewstack.io/the-future-of-search-is-vector/

责任编辑:武晓燕 来源: 51CTO技术栈
相关推荐

2023-11-20 22:26:51

Go开发

2020-07-03 14:05:26

Serverless云服务商

2021-11-29 18:27:12

Web Wasmjs

2013-05-17 09:40:11

2023-09-26 10:33:20

数据中心游戏行业

2023-05-04 07:44:13

编程界小语言Java

2022-05-13 09:49:05

区块链互联网模型

2023-03-21 10:16:36

2023-04-09 16:27:23

工业物联网制造业

2020-10-26 15:15:53

物联网数据技术

2017-12-27 14:41:57

融合云计算服务器

2023-10-18 13:33:50

工业物联网

2022-10-13 14:14:58

物联网工业物联网

2022-10-18 16:23:10

物联网工业物联网制造业

2021-09-30 10:50:11

云计算公有云微软

2023-09-25 15:24:30

数据中心

2020-02-12 21:46:05

物联网BIMIOT

2017-12-13 12:44:07

人工智能技术AI

2022-11-09 14:58:29

智能建筑绿色建筑BIM

2019-08-27 16:48:07

云原生云计算微服务
点赞
收藏

51CTO技术栈公众号