江苏省数字经济学会

搜索

数字漫谈㊽她说：数字经济与计算机视觉

2026-02-14

对话人物

本期人物：童莹

江苏省数字经济学会专家会员，南京工程学院通信与人工智能学院党委书记、三级教授，主要从事人工智能、计算机视觉等领域研究。

本期主持人：巩璞玥

江苏省数字经济学会科普工作委员会秘书长、清华大学万科公共卫生与健康学院博士后、利物浦大学博士，主要从事医疗和康养环境、智慧建筑控制系统领域研究。

Q1：巩璞玥

如今我们经常能在互联网上看到计算机视觉，可否请您跟我们科普一下，什么是计算机视觉？这与我们的日常生活如何相关呢？

A1：童莹

——计算机视觉旨在让计算机能够“看懂”图像和视频中的内容，模拟人类视觉系统的功能，实现对客观世界的感知、识别和理解。

计算机视觉是人工智能领域的一个重要分支，这一概念，最早可以追溯至20世纪60年代，其技术起源于图像处理与模式识别这两个传统专业领域。早期的图像处理领域，主要聚焦于像素的基本操作与处理，像我们熟知的Photoshop软件，人们借助它对图片中的人物目标进行肤色调整、瑕疵去除等修正操作，便是典型的图像处理应用。而模式识别简单来讲则是对目标进行特征提取和识别，也就是让计算机从目标数据（图像、视频等）里找规律（特征），据此把目标准确识别出来。

在计算机视觉相关技术的发展历程中，专业术语的演变映射了该领域的不断演进。早期，“图像处理”与“模式识别”是该领域频繁提及的专业名词；人们不再满足于仅对图像进行简单处理，而是期望计算机能够模拟人眼的功能，具备自动识别目标、精准分辨特征以及进行智能判断检测等高级能力。

在这样的需求推动下，“计算机视觉”应运而生，成为人工智能领域的重要分支。它整合了图像处理与模式识别的核心思想，并进一步拓展深化，不断发展出机器学习、深度学习、大模型等前沿技术，为计算机视觉带来了更强的特征学习能力与模型泛化能力。这些技术并非孤立存在，而是相互促进、共同推动计算机视觉从“处理图像、识别目标”迈向“理解场景、看懂世界”。

——计算机视觉与我们的日常生活紧密交织，息息相关，其应用场景广泛且深入，涵盖人脸识别、自动驾驶以及各类图像处理工具等诸多领域。

实际上，人工智能的蓬勃兴起，在很大程度上正是发轫于计算机视觉领域。以我自身为例，我最初投身的研究方向便是人脸识别。如今，人脸识别技术已深度融入我们的生活：无论是小区的门禁系统，通过刷脸来确认住户身份；还是购物时刷脸支付，轻松完成交易；亦或是火车站的检票系统，利用人脸识别快速验证乘客身份，提升出行效率。这些便捷应用背后，无一不依托于计算机视觉技术的强大支撑。

除人脸识别外，自动驾驶也是计算机视觉的应用领域。像某新能源汽车的FSD系统，它能够实现自动驾驶，整个过程也是依赖计算机视觉技术来完成的。该系统通过摄像头等设备实时捕捉周围环境的图像信息，利用计算机视觉算法对这些海量信息进行分析和处理，从而让车辆能够精准识别道路、交通标志、其他车辆和行人等关键信息，为我们带来安全、智能、便捷的出行体验。

再看看我们日常使用的P图软件，其中所运用的一些技术同样属于计算机视觉的范畴。如老照片修复，它自动识别图像中的人物、服饰、背景等元素，并根据用户的需求进行智能调整与优化，填补缺失区域，修复模糊细节，还原色彩纹理，让每一张照片呈现出期望的效果。可以说，计算机视觉技术正以润物细无声的方式，改变着我们的生活，让生活变得更加便捷、智能与美好。

Q2：巩璞玥

在您发表的论文中，有多篇涉及非约束人脸图像的处理和识别，可以跟我们介绍一下什么是“非约束”吗？与传统人脸识别方法相比，“非约束”有哪些突破？这些技术对于行业来说有什么推动意义呢？

A2：童莹

——“非约束”就是不受人为设计条件限制，用真实环境采集的数据进行识别。

在人脸识别技术的发展进程中，“约束”与“非约束”是两个关键概念，也标志了技术进步的两个关键阶段。“有约束条件”指的是在实验室环境（受控环境）下，人脸图像的采集往往依赖被试者在人为设计的条件下配合拍摄。为了模拟复杂情况、提升算法的鲁棒性，研究人员会人为设置一些变量，例如要求被试者转动头部、做出不同表情，或在不同光照条件下拍摄，有时还会佩戴眼镜、围巾、帽子等物品以制造遮挡干扰。

然而，实际生活中采集人脸图像，往往面临的是“非约束环境”，其中包含各种自然的、不可控的干扰因素。比如，复杂多变的光照（如背光、强光或昏暗环境）、不同角度的姿态变化、丰富的面部表情、遮挡（如眼镜、口罩、头发遮挡）、以及图像分辨率低、运动模糊等问题。这些干扰大大增加了人脸识别的难度。2010年前，传统手工特征提取方法在处理非约束人脸图像识别时存在诸多局限。

——从学术和专业角度分析，促使人脸识别技术从“约束”向“非约束”的突破得益于深度学习的发展，解决了传统手工特征提取的局限性。

开展非约束人脸识别研究更契合产业应用需求，不过，当时的手工特征提取方法存在技术瓶颈。这种方法是基于人为经验设计的，通常按照研究者对人脸结构的理解，将人脸划分为若干关键区域，分别提取每个区域的局部纹理、边缘等特征，最后将这些特征组合成完整的人脸描述向量。这种手工特征提取方式在非约束环境下暴露出严重不足，难以应对复杂多变的真实场景。

随着神经网络、人工智能技术的发展，深度学习为解决这些问题带来了转机。相比传统手工特征提取方法，深度学习能够从海量数据中自动学习到更加抽象且具备判别力的特征，从而显著提升系统在复杂环境下的识别能力。以非典时期为例，当时人脸识别技术还不能识别戴口罩的人，但大家坐动车为保护自己都戴口罩且不愿摘下，这直接影响了身份验证的效率与准确性。在这一背景驱动下，非约束人脸识别技术发挥了巨大推进作用。如今坐动车刷脸基本不用摘口罩，即便人脸三分之二被口罩覆盖，仅露出眼睛部分也能识别，这就是非约束人脸识别技术创新优势所在。

——非约束识别技术不仅是一项技术创新，更代表了一个重要的产业方向。随着深度学习技术和人工智能技术的演进，非约束识别应用越来越普及，目前已实现产业化应用，显著降低了使用门槛。

随着深度学习技术的持续演进，非约束识别逐步克服了传统方法对环境、光照、角度、遮挡等条件的依赖，显著提升了在真实复杂场景中的识别能力。从最初依赖实验室受控数据的阶段，到如今能够在真实自然环境中准确识别，技术实现从手工特征提取转向数据驱动的端到端学习。在这一进程中，李飞飞团队推出的ImageNet等大规模真实数据集，推动了学术界向产业界的深度融合，加快了非约束识别技术的应用落地。

2010年前，人脸门禁系统尚不普及，车辆出入识别技术也不成熟，如遇到强光照影响、角度不正、有遮挡等问题都不好识别。系统识别通常需要人或车辆以特定的姿态、角度配合设备运行，整体用户体验不够，且识别的准确率也不高。而如今，随着非约束识别技术的不断发展，这一局面已得到根本性改变，不再需要用户刻意配合系统，即使车牌被污渍遮挡、角度不正，系统依然能够高效准确地完成识别任务。同样地，即便人脸存在遮挡、表情变化等因素，系统也具备良好的识别能力。非约束识别技术不仅提升了系统的实用性和智能化水平，也极大增强了用户体验，标志着人工智能技术在现实生活中的深度融合与广泛落地。

Q3：巩璞玥

我们了解到，您牵头了“基于超声影像的乳腺肿瘤智能检测与诊断关键技术研究”项目，是什么契机促使您去研究这个课题？您期望这项研究产生哪些实际意义？

A3：童莹

——该课题源于实际应用需求，多方面契机促使我了解到亚洲女性致密性乳房的特点导致钼靶检测误判率高，超声检查更适合作为早筛手段，经多方考量确认可行性后立项。

此课题的开展契机源于多方面。我最初从事人脸识别相关技术研究，属于计算机视觉领域，而乳腺肿瘤检测研究也是基于图像或视频数据进行乳腺肿瘤特征提取与识别，也属于计算机视觉领域，我认为在技术层面是可以迁移的。另一方面，据我了解，乳腺癌是女性群体中发病率较高的恶性肿瘤之一，医院通常采用钼靶、CT、核磁等手段进行早筛和诊断。其中，国际上普遍采用钼靶作为首选方法。然而，亚洲女性大多为致密性乳房，其乳腺分布相较于欧美女性更为密集。这种生理特征导致乳腺组织在钼靶图像上可能与病变重叠，容易出现大量漏诊或误诊。

基于这一背景，我开始思考“超声检查在亚洲女性乳腺肿瘤早筛检测中的可行性”，进而提出了该研究课题。在研究过程中，通过与医学领域超声专家、乳腺专家的交流以及相关研究课题的调研，我进一步确认了这一思考的可行性，该项目于2022年立项为省重大面上项目，至今已开展三年，期间我收获颇丰。

——项目目标是通过AI辅助超声科医生，缩短高年资医生的培养周期，缓解医疗资源压力，提高检测识别的准确性。

在医院影像科，包含CT检查、核磁共振检查和超声检查等多个板块。通过与医生交流得知，超声科医生的培养周期较长。以CT、核磁等检查为例，虽然这些检查也具有较高的技术含量，但在采集片子进行诊断和判断时，数据呈现固定模式。例如肺部结节，人体肺部结构相对固定，结节的有无及形态基本不会发生较大变化。医生判断真、假结节时，主要依据医学知识和经验，观察结节与周围血管的连接程度以及形态等。不过，这些检查采集的数据和图片是在静态环境下获取的，只要给予医生足够时间，就能够较为准确地做出判断。

而超声检查则不同，超声医生在进行检查时，需手持超声探头在患者身体患处移动，实时观察和检查。这对医生的经验要求极高，原因主要有两点：一是检查时间有限，医疗资源难以支持长时间为单个患者检查；二是在检查过程中，检查角度、力度以及组织形态变化等因素，都需要医生具备丰富的临床经验。据统计，培养一名高年资、有经验的超声科医生大约需要五到十年。

在当前医疗资源有限且紧张的情况下，年轻医生进入医院工作后，需要辅助手段来开展检查检测工作，这正是我们研发系统的优势所在。该系统通过大量数据对机器进行训练和学习，当患者前来检查时，模型会先给出初步建议，如乳腺肿瘤的分级（三级、四级、五级等）。医生在此基础上，结合自身经验进行判断，这样既能缓解年轻医生的压力，又能提高检测识别的准确性。

她说

Q4：巩璞玥

您认为，未来计算机视觉的发展趋势是什么？女性角色是否可能会为推动研究带来一些独特的视角？

A4：童莹

——计算机视觉未来趋势将从信息空间建模转向物理空间建模（世界模型），解决三维环境中的高度判断等问题。

从当前人脸识别技术的成熟程度来看，人工智能发展至2025年将完成信息空间建模，此后会转向物理空间建模与应用，这便是计算机视觉未来的一大发展趋势。在物理空间建模与应用中，目前计算机视觉技术仍存在局限，以机器人和自动驾驶车为例，尽管可以识别前方障碍物，但面对如楼梯、台阶、斜坡等高度差异显著的地形时，仍缺乏灵活应对能力，动作表现僵硬甚至失效。这是因为现有技术仍以二维图像数据为主，缺乏对三维立体信息的全面理解。机器在执行复杂物理空间动作时，难以准确建模。

未来计算机视觉若要实现机器在物理空间自如行走，需解决三维数据处理的问题，这面临诸多挑战。增加一维数据会带来数据量、存储空间、算力的挑战，同时数据冗余增加，但数据本质特征未变，二维和三维数据存在差异。而且，每增加一维数据，在真实世界数据采集方面，对硬件配合、软硬件协同以及数据处理和存储都提出了新的技术突破需求。目前，虽然已有用点云、双目相机等技术进行探索，但如何既快速又准确地完成数据处理，仍是需要深入探讨的方向。

——技术的发展过程往往充满调整挑战，从诸多方面来看，女性凭借其独特的情怀、细腻的思维、人文的视角以及从社会和生活角度的思考方式，或可助力研究取得新突破。

在一些特定且关乎社会福祉的研究领域，女性往往能展现出独特的情怀与关注点。以乳腺肿瘤研究为例，由于女性自身对这一健康问题有着更切身的体会，在推动相关技术发展时，她们不仅仅着眼于单纯的技术突破，更怀揣着让技术普惠不同地域、不同层次女性的期望，期望借助技术推动社会在健康领域的进步，这种从社会关怀出发的视角，可能会引导计算机视觉技术在医疗健康相关应用的研究方向更加贴合实际需求，更注重技术落地后的社会效益。

从社会和生活的角度出发，女性或许能为计算机视觉发展带来更柔和、全面的视角，使其发展更为完善。比如，在图像识别领域，最初大家可能更多关注技术本身的准确性和效率，但随着发展，女性研究者或许会引导技术注重美学追求，使其在满足功能需求的同时，更好地融入人们的生活，提升人们的生活品质。

在技术层面，女性能够跳出传统技术研究的思维框架，关注到那些容易被忽视却对整体发展至关重要的基础环节。以李飞飞为例，在人工智能发展历程中，男性研究人员大多聚焦于技术本身的突破与推进。像杰弗里·辛顿（Jeffrey Hinton）从20世纪80年代起就投身于神经网络研究，面对BP网络出现的瓶颈，他坚持不懈，最终在2006年提出深度学习，解决了神经网络的瓶颈问题，推动了人工智能的发展；马斯克作为技术狂人，在人工智能相关技术领域不断探索创新；黄仁勋专注于GPU研发，为人工智能发展提供强大的硬件支持，他们的视角主要集中在技术层面的突破与创新。而李飞飞则有着不同的关注点，她敏锐地察觉到数据在大模型发展中的关键驱动力，花费大量时间和精力进行数据采集工作，发布了具有里程碑意义的ImageNet 数据集，这如同在人工智能数据领域投下了一颗重磅炸弹，随后各种各样大规模的数据集纷纷涌现。可以想象，如果没有李飞飞从数据角度的深入挖掘与推动，人工智能大模型的发展或许会缺少关键的“燃料”。

李飞飞不仅在技术数据层面有所建树，还积极推动AI人伦、AI人文相关的工作，从人文关怀的角度审视人工智能的发展，为技术赋予了更多的人文温度，为人工智能发展带来了更全面的思考维度。

Q5：巩璞玥

对于希望在计算机视觉或数字经济领域发展的学生或从业者，您有哪些建议或诀窍可以分享吗？

A5：童莹

——科研应聚焦产业需求，而非单点技术。

首先，加入一个高水平的团队十分关键。高水平团队能够引领个人在学术研究上拥有更高的眼界和层次，帮助快速了解国际国内该领域的动态发展情况，为后续研究奠定坚实基础。

其次，无论从事何种工作或研究，最终目的都应聚焦于服务社会。在研究过程中，要时刻思考技术如何辅助社会、推动经济社会发展。以高校青年博士为例，他们在学校阶段的研究课题往往较窄，多源于导师项目的某个点，且多进行理论性研究，对技术发展的宏观层面缺乏概念，也不太会思考技术能否落地、存在哪些瓶颈等问题。因此，不能闭门造车，要走出校园，深入了解行业现状。比如计算机视觉领域的从业者，需关注企业技术发展到何种程度、技术能否应用以及应用过程中存在哪些瓶颈等。

对于科研从业者而言，技术的落地和成果转化是让科研道路顺畅且持续发展的重要方向。当下，产学研合作模式不断升级，从以往学校老师与企业针对企业技术需求对接，发展到如今双高协同政策推进，政府、企业、高校及社会力量共同参与成果转化。以发明专利为例，麻省理工一年发明专利授权仅小几百件，而我国高校授权发明专利保有量都超过千件，但能实现成果转化的却很少。很多工科专利并非缺乏技术，而是找不到产业落地场景，仅停留在点上，未形成能为企业赋能的线或面。相反，医药领域专利因针对具体病症进行药物研发，一个专利成果转化价值极高。这充分说明，工科技术要实现成果转化，必须落到产业端，解决根本性问题，才能产生良好价值。当看到自己的技术在市场上得到推广，对科研从业者的信心也是极大的鼓舞。

江苏省数字经济学会

数字漫谈㊽ 她说：数字经济与计算机视觉

数字漫谈㊽她说：数字经济与计算机视觉