数字漫谈㉙ 数字经济背景下的多媒体推荐

2025-05-17
图片

对话人物


图片

本期人物:杜晓宇

南京理工大学计算机科学与技术学院副教授,主要从事推荐系统、人工智能、机器学习、多媒体计算相关研究。


本期主持人:沈凌依阳

江苏省数字经济学会青年工作委员会秘书长,从事数字经济领域相关政策研究。



Q1:沈凌依阳


作为普通用户,我们每天都会接触短视频、电商等平台的推荐内容。这些看似神奇的推荐,背后的核心原理是什么?它是如何判断“用户可能喜欢什么”的?


A1:杜晓宇


——推荐系统的本质是基于数据统计的概率预测工具。

就好像天气预报根据历史数据和模型计算未来的天气,推荐系统通过观察用户与物品间的交互行为(如点击、购买、评分),获得协同信息,从而预测 “用户可能对什么感兴趣”。协同信息有两种最直觉的理解:用户会偏好与他交互过的物品相关的物品;用户会偏好与他行为相似的用户交互过的东西。

——因此,推荐系统核心原理就是通过用户和物品协同信息的相似性实现推荐,通常分为三步。

第一步数据建模将用户行为和物品转化为数学表达例如,用户 A 的浏览记录、电影 B 的类别标签,都被编码成数值描述,我们可以把它们理解为空间中的一个个点。

第二步相似性计算:在空间中,那些相似的物品或者用户就会离得更近,比如同为鞋子的商品就可能聚集在一起,通过算法计算用户之间或物品之间的相似性。比如,喜欢《星际穿越》的用户,可能也喜欢《盗梦空间》,因为它们的“科幻”“悬疑”“诺兰导演”等标签相同,使得它们的点相互之间接近。

第三步概率排序:系统会预测用户对所有物品的偏好概率,然后按概率高低推荐,最终形成一个推荐列表

——根据以上的流程可以发现,推荐系统的判断逻辑主要依赖两类信息:用户行为数据和物品内容特征。

用户行为数据:包括你点赞、评分、评论等显性行为,以及用户观看和浏览的历史记录等隐性行为。所以,如果你反复观看美食视频,系统会认为 “这位用户可能爱吃”,你评论某个商品,系统就能从中推理你对该商品的喜爱程度。

物品内容特征:包含物品的标签(如“旅行”“宠物”)、价格、类别、甚至画面中的颜色、背景音乐等。系统会将你的行为与内容特征匹配,找到相似规律。现在的推荐系统往往会结合上述提到的多种行为和特征,综合推理用户的喜好,进而做出推荐。


Q2:沈凌依阳


提到用户使用数据,就又要提到那个争议很大的问题了,从技术人员的角度来看,您认为使用用户的数据分析并进行精准投送,有没有侵犯用户的隐私?数据应该属于谁呢?


A2:杜晓宇


——这个问题不能单纯地一概而论,不能笼统地说推荐系统侵犯了用户隐私,也不能粗暴地将 “数据” 这个庞大概念简单地归属厂商或个人。

首先,遵守法律是底线,绝不能触碰红线。国内外已有相关法律框架,包括欧洲的GDPR(General Data Protection Regulation,通用数据保护条例)和国内的《中华人民共和国个人信息保护法》和《互联网信息服务算法推荐管理规定》,它们对个人信息的保护与合法利用进行了系统性规定,既保障用户权益,又允许数据在合规范围内发挥价值。

——对于隐私侵犯的争议,核心在于“技术本身是中性的,其影响取决于使用者的意图与能力”。

技术可以造福社会,但必须建立在法律约束、伦理自觉和技术保障的基础上。推荐系统应当在合规、透明、可控的前提下,既提升用户体验,又尊重用户权益。作为从业人员,我们在处理用户数据时,必须遵循以下原则:

(1)充分性:已处理的个人数据是否足以实现你声明的目的?

(2)相关性:信息与该目的有明确的联系吗?

(3)必要性:你是否拥有比实现该目的所需的更多信息?

——公平与效率难以兼得,但隐私保护与数据利用并非对立关系,而是需要动态平衡。

在客观层面,推荐系统的发展始终伴随着隐私保护的研究。当前,业界已涌现多种技术手段来平衡个性化推荐与隐私安全,例如:差分隐私,在数据中注入噪声,确保无法回溯到具体个人;联邦学习,模型训练无需集中用户数据,直接在本地设备完成学习;数据脱敏,去除或加密可识别个人身份的信息。


Q3:沈凌依阳


您在多媒体推荐领域的研究中提出了“不变表示学习”(Invariant Representation Learning),这项技术听起来非常深奥。能否举个简单的例子,跟我们通俗地科普一下,这项技术具体是解决了推荐系统中的什么问题?它在数字经济背景下有何实际价值?


A3:杜晓宇


图片

受虚假关联影响的多模态推荐结果

AI时代广泛使用数据驱动模型,也就是不明确定义推理规则,而让模型自动的去数据中发现规律。这非常容易产生一些与我们认知不符的规律,我们称其为虚假关联。假设你在电商平台买了两条裙子,它们恰好由同一位模特展示。虚假关联会发现你购买的裙子都关联了 “同一模特” 这个特征,系统误以为你喜欢 “模特” 本身,而非裙子款式。结果后续推荐更多该“模特展示的商品”(比如鞋子、包包),而非你真正喜欢的裙子风格。因为描述的并非我们的真实认知,虚假关联在大部分时候是无效的,反而会影响到真正决策。所以需要一种方法去除掉虚假关联,获得在各场景下都能够正常推理的“不变表示”,以真正描述用户偏好,不被虚假关联误导。

图片

不变表示学习框架

不变表示本质上是教AI“抓住重点”,让其学会跨场景“不变”的本质特征。通过将原本的协同信息分离形成可变与不变部分,根据可变部分划分多种场景,再强迫不变部分保持稳定预测,从而引导出能够稳定推理的不变特征。

这一技术对数字经济中精准的服务用户至关重要。实现提升用户体验,降低无效推荐,增强推荐的可解释性,更精准匹配用户真实需求,降低平台成本,提升用户转化率,是打破数据偏见、实现精准推荐的关键。


Q4:沈凌依阳


很多中小商家在进行新品推广时,往往很头疼一个问题——用户数据不足时,推荐系统容易“失灵”。您对此有没有过研究?能否举例说说,您提出的解决方法是如何帮助中小商家新品牌触达潜在客户的?


A4:杜晓宇


——此问题涉及到推荐系统的核心挑战之一——冷启动推荐。

新上架商品即被称作“冷启动商品”,是缺乏历史行为数据的商品,系统无法获得其协同特征。在对商品排序过程中,让没有协同特征的冷启动商品与普通商品做比较,缺乏特征的冷启动商品评分基本垫底,无法获得有效的推荐。如果忽略所有商品的协同特征,只使用商品的内容特征进行推理,反而会影响到非冷启动商品的推荐,这将影响整体的推荐效果。

图片

传统特征空间中冷热表示不可比

——因此,我们在训练过程中,设计了冷热双通道特征训练机制,通过反事实机制,构造冷启动表示,约束模型学习对比冷启动与非冷启动商品特征的方法。

图片

通过反事实特征学习可比的冷热表示

总结来说,该冷启动多媒体推荐方法通过模拟冷启动场景和和对比学习强化内容作用,缩小训练与测试的差距,避免新品被系统 “忽视”。在该机制下,商家只需确保商品相关的多模态特征完整,例如图片/视频清晰、标签准确,技术端会自动完成特征匹配。这种方案特别适合中小商家在直播带货场景等视觉化平台推广新品,新品能凭借新品的图像等信息而非销量数据获得精准推荐。


Q5:沈凌依阳


在数字经济蓬勃发展的当下,学科交叉融合的趋势愈发显著。我们关注到,您的团队的研究不仅深耕专业领域,更积极拓展跨学科边界,如开展基座模型与多媒体推荐系统的创新性结合研究。能否请您分享一下,在数字经济这一复杂且充满活力的研究背景下,开展此类跨学科研究时所沉淀的宝贵经验与方法论?


A5:杜晓宇


——我认为,目前最为重要的经验,一为传承,二为革新。

AIGC(人工智能生成内容)快速发展的时代,用户对推荐系统提出了更高的要求,不仅仅是推荐现有的内容,还需要根据用户需求生成相关内容。未来的推荐系统将是结合生成模型的信息推荐,能够更精准地挖掘用户的潜在兴趣,为用户提供个性化、多样化且富有创意的内容体验,从而更好地满足用户在信息获取、娱乐消费、知识学习等多方面的需求,推动推荐系统向更智能、更高效的方向发展。

虽然基座模型的能力非常强大,但它仍需要大量传统方式的支持。最典型的就是RAG(基于检索增强的生成)方法,它是应对幻觉问题的重要手段。其中运用到信息检索获取相关数据,可以充分发挥传统检索方式的特点进行优化。因而,研究传统领域中的各类算法在新时代中的传承,发挥它们在新环境下的作用,是重要的研究方向。

此外,现有的任务对传统任务提出了新的要求。同样以RAG为例,现有的检索更注重召回内容的全面性,需要尽可能多地获取与用户需求相关的各种信息,以便为后续的生成提供更丰富的素材。这与传统检索对内容语义的一致性的理解不同。因此,需要革新检索策略和算法,以适应这种从精确匹配到全面召回的转变,从而更好地满足用户在复杂多变的信息需求场景下的要求。


Q6:沈凌依阳


当前,生成式AI可批量生产虚假视频、文案,您认为,这对推荐系统是机遇还是挑战?未来,推荐系统应如何集成内容真实性验证技术?在构建可信的数字经济生态方面,您有哪些准备吗?


A6:杜晓宇


——推荐系统将与生成式AI结合,更好的为用户服务,但重要的是,将生成式AI的风险控制在可接受的范围内。

生成式AI的发展为人们的生活、娱乐和工作提供了极大的便利,不少用户和平台通过生成式AI快速构建富有想象力的的视频、文案,拓展了传统融媒体的边界,为用户提供了更丰富的体验。但是,在现在信息快速流转的时代,生成式AI也有可能引发重要社会安全事件,在内容安全方面提出了新的挑战

——我们曾利用真实与虚假视频的伪影噪声差异这一点来做检测,提出了一种基于伪影噪声的深度伪造检测方法。

图像的背后,隐含了一套指纹特征(也叫作伪影噪声),这些特征是图像整体通过相机录入和各类优化算法之后留在下来的,具有整体的一致性。于是,我们设计提取伪造图像与真实图像之间的伪影噪声差异作为关键特征,并利用该特征训练分类模型,实现高泛化性的虚假视频检测,为生成内容的应用提供预警保障

图片

基于伪影噪声的深度伪造检测方法

生成模型与虚假视频检测构成数字时代持续升级的“攻防博弈”,生成式AI不断突破伪造精度极限,迫使检测系统向多模态联合分析演进(如生物信号验证、物理环境建模),而检测技术的迭代又反向推动生成模型模拟更细微的物理规律(如毛细血管微循环),二者在对抗中形成共生生态:生成模型为检测提供训练样本,检测算法则被转化为生成模型的优化指标,这种螺旋式竞争正如密码学中加密与解密的相互成就,最终将重塑数字内容的可信边界。


图片

图片源于杜晓宇副教授所涉科研项目

编辑:陈敏

审核:沈凌依阳、巩璞玥


分享