近几个月来,生成式人工智能凭借其创造独特的文本、声音和图像的能力引起了人们的极大兴趣。但生成式人工智能的力量并不局限于创造新的数据。
生成式人工智能的底层技术(例如Transformer和扩散模型)可以为许多其他应用提供动力,其中包括信息的搜索和发现。特别是,生成式人工智能可以彻底改变图像搜索,使人们能够以以前不可能的方式浏览视觉信息。
以下是人们需要知道的关于生成式人工智能如何重新定义图像搜索体验的内容。
图像和文本嵌入
传统的图像搜索依赖于图像附带的文本描述、标记和其他元数据,这将用户的搜索选项限制为已经明确附加到图像中的信息。上传图像的人必须认真考虑输入的搜索查询类型,以确保他们的图像被他人发现。而在搜索图像时,查询信息的用户必须尝试想象图像上传者可能在图像中添加了什么样的描述。
俗话说,“一图胜千言”。对于图像的描述来说,可以编写的内容是有限的。当然,根据人们查看图像的方式,可以采用很多方式进行描述。而人们有时根据图中的物体进行搜索,有时根据风格、光线、位置等特征搜索图像。不幸的是,图像很少伴随着如此丰富的信息。很多人上传的许多图像几乎没有附带任何信息,这使得它们很难在搜索中被发现。
这就是人工智能图像搜索发挥重要作用的地方。人工智能图像搜索有不同的方法,不同的公司有自己的专有技术。然而,有些技术是这些公司所共有的。
人工智能图像搜索以及许多其他深度学习系统的核心是嵌入,嵌入是不同数据类型的数值表示。例如,512×512分辨率的图像包含大约26万个像素(或特征)。嵌入模型试图通过对数百万张图像进行训练来学习视觉数据的低维表示。图像嵌入可以有许多有用的应用,包括压缩图像、生成新图像或比较不同图像的视觉属性。
同样的机制适用于文本等其他形式。文本嵌入模型是文本摘录内容的低维表示。文本嵌入有许多应用,包括用于大型语言模型(LLM)的相似性搜索和检索增强。