多模态搜索

定义: 指搜索引擎能够理解和处理多种类型的信息（文本、图片、视频、音频），并将其融合在搜索结果中。

多模态搜索意味着搜索的边界正在被打破。用户不再仅仅通过输入文字来搜索，他们可以用手机摄像头拍摄一张图片进行搜索（如Google Lens），或者未来可能用一段语音来提问。搜索引擎也同样在进化，它不仅能读懂文章，还能“看懂”图片的内容，“听懂”视频的讲解。

因为SGE本身就是一个多模态的输出。它生成的AI快照经常会主动嵌入图片和视频来丰富答案。如果你的网站能够提供这些高质量的多模态素材，并且这些素材与文本内容高度相关，那么你的内容（包括图片和视频）被SGE选中并展示的几率就会大大增加。

下图展示了"多模态搜索"与其他核心概念的直接关联，点击节点即可跳转。