Meta AI团队联合多家科研机构推出了一款全新的推荐系统模型LIGER(LeveragIng dense retrieval for GEnerative Retrieval),将密集检索与生成检索的优势融合,显著提升了生成式推荐系统的性能。这一突破为推荐系统领域带来了新的可能性,尤其在处理冷启动项目和大规模数据集时表现尤为出色。
背景:推荐系统的核心挑战
推荐系统的核心任务是通过分析用户行为,为其推荐相关的内容、产品或服务。然而,在这个过程中,传统方法面临诸多挑战。密集检索技术是目前应用较为广泛的方法,它通过序列建模计算项目与用户的表示关系。尽管其精度较高,但需要为每个项目生成嵌入,导致计算资源与存储需求激增,尤其在数据规模不断扩大的情况下,其可扩展性受到极大限制。
相比之下,生成检索方法通过生成模型预测项目索引,从而减少存储需求。然而,这种方法在处理冷启动项目(即用户交互数据极少的新项目)时,性能表现明显不足。因此,如何在效率与精度之间取得平衡,成为推荐系统领域的重要课题。
LIGER的技术创新
LIGER的设计理念在于结合两种主流技术的优点。该模型的创新点在于其混合推理架构:先通过生成检索生成候选集和项目的语义表示,再利用密集检索进行精炼,确保推荐结果既精准又高效。
在技术细节上,LIGER引入了双向Transformer编码器和生成解码器。密集检索部分通过整合项目文本表示、语义ID和位置嵌入,优化了项目与用户之间的匹配度。生成部分则通过波束搜索预测用户可能感兴趣的项目ID,从而构建候选集。两种方法的结合使得LIGER既减少了计算与存储开销,又保持了推荐的高质量。
性能评估:超越现有模型
LIGER在多个基准数据集上的表现令人瞩目,包括Amazon Beauty、Sports、Toys和Steam等。在冷启动项目上的测试结果尤为突出。例如,在Amazon Beauty数据集中,LIGER的Recall@10得分达到0.1008.而现有先进模型TIGER仅为0.0.在Steam数据集中,LIGER的Recall@10得分为0.0147.同样远超TIGER。
此外,随着生成检索方法提供的候选数量增加,LIGER与密集检索的性能差距逐渐缩小,展现了其良好的适应性和灵活性。