文本嵌入 (TE) 是不同大小文本的低维向量表示,对于许多自然语言处理 (NLP) 任务非常重要。与TF-IDF等高维稀疏表示不同,密集TE能够解决词汇不匹配问题,提高文本检索和匹配效率。预训练的语言模型,如 BERT 和 GPT,在各种 NLP 任务中取得了巨大的成功。然而,由于掩码语言建模目标创建的各向异性嵌入空间,从这些模型中获得高质量的句子嵌入具有挑战性。
TE 通常在一个特定任务的少量数据集上进行测试,这并不能显示它们在其他任务中的效果如何。目前尚不清楚最先进的语义文本相似性(STS)嵌入是否可以解决聚类或重新排序等任务,这使得跟踪进度具有挑战性。为了解决这个问题,引入了海量文本嵌入基准 (MTEB),它涵盖了 8 个嵌入任务、58 个数据集和 112 种语言。通过在 MTEB 上测试 33 个模型,迄今为止,已经为 TE 开发了最全面的基准测试,其中没有一种 TE 方法最适合所有任务。这意味着在所有任务中都能以最先进的水平执行的通用 TE 方法仍然没有被发现。
阿里巴巴的研究人员发布了一种新的嵌入模型,称为gte-Qwen1.5-7B-instruct,这是他们早期的gte-Qwen1.5-7B-instruct模型。主要变化是新模型基于Qwen2-7B而不是Qwen1.5-7B,突出了Qwen2-7B的改进。表现大幅提升,总分从67.34分提高到70.24分,MTEB排行榜上的检索nDCG@10从57.91分提高到60.25分。该模型包含 7B 参数,对于嵌入模型来说非常大,它支持的最大序列长度为 32k(最大输入标记)。此外,它还集成了 Sentence Transformers,使其与 LangChain、LlamaIndex、Haystack 等工具兼容。
gte-Qwen2-7B-instruct 是通用文本嵌入 (gte) 模型系列中的最新模型。截至 2024 年 6 月 21 日,它在海量文本嵌入基准 (MTEB) 的英文和中文评估中均排名第二。gte-Qwen2-7B-instruct 模型是基于 Qwen2-7B LLM 模型训练的,该模型存在于 Qwen 团队最近发布的 Qwen2 系列模型中。这个新模型使用与早期 gte-Qwen1.5-7B-instruct 模型相同的训练数据和策略,但使用更新的 Qwen2-7B 基础模型。鉴于 Qwen2 系列型号与 Qwen1.5 系列相比有所改进,嵌入型号的性能有望得到一致的改进。
gte-Qwen2-7B-instruct 模型使用几个重要功能:
结合双向注意机制可以增强其对上下文的理解能力。
指令调优是一种重要的技术,仅应用于查询端以提高效率。
综合训练是一个过程,在这个过程中,模型在来自不同领域和情况的大型多语言文本集合上进行训练。它使用弱监督和监督数据,使其可用于多种语言和各种任务。
此外,gte系列模型还发布了两种类型的模型,基于BERT架构的仅编码器模型和基于LLM架构的仅解码模型。
总之,阿里巴巴研究人员发布了 gte-Qwen2-7B-instruct 模型,继承了之前的 gte-Qwen1.5-7B-instruct 模型。基于Qwen2-7B的新模型显示出更高的性能,具有更高的总分和更好的检索指标。它支持多达 32k 的输入代币,并与 Sentence Transformer 集成,使其可用于各种工具,例如 LangChain、LlamaIndex、Haystack 等。此外,截至 2024 年 6 月 16 日,该模型在 MTEB 的英文和中文均排名第一。它使用双向注意力来更好地理解上下文和指令调整以提高效率。最后,gte 系列包括仅编码器(基于 BERT)和仅解码(基于 LLM)的模型。