• 2026年第2期文章目次
    全 选
    显示方式: |
    • 创刊40周年专刊序言

      2026(2):287-287. DOI: 10.16337/j.1004-9037.2026.02.001

      摘要 (0) HTML (0) PDF 2.60 K (0) 评论 (0) 收藏

      摘要:

      • 0+1
      • 1+1
      • 2+1
      • 3+1
    • 面向6G空天地一体化网络的光电融合传输技术与发展趋势

      2026(2):288-302. DOI: 10.16337/j.1004-9037.2026.02.002

      摘要 (1) HTML (0) PDF 54.15 K (0) 评论 (0) 收藏

      摘要:面向第六代移动通信(Sixth generation of communication system, 6G)网络全域立体覆盖与海量连接的需求,构建空天地一体化的高效传输体系已成为重要发展方向。然而,单一射频(Radio frequency, RF)或自由空间光(Free-space optical, FSO)通信技术均存在固有局限,难以独立满足未来网络对超高速率、超高可靠与广域动态接入的综合要求。在此背景下,融合RF与FSO通信的互补优势构建智能协同的空天地一体化光电融合传输网络成为突破现有技术瓶颈的关键路径。本文系统综述了该领域的国内外研究进展,针对空天地一体化网络特征构建了基于光电融合的认知软件定义网络体系架构,重点阐述了适用于空天地异构环境的RF信道与FSO信道建模方法,深入剖析了高动态链路精准对准、异构资源智能分配、极端环境鲁棒传输等核心挑战。进而,围绕光电融合波束跟踪、自适应光电切换、光电并行协同传输及场景化链路选择等关键技术进行了详细论述。最后,展望了智能算法深度赋能、跨域抗扰动传输增强以及效能综合优化等未来发展趋势。研究表明,光电融合技术能够有效提升空天地一体化网络的综合性能,但其走向规模化应用仍需在跨层协同机制、动态资源管控及系统级效能评估等方面持续深化研究。

      • 0+1
      • 1+1
      • 2+1
      • 3+1
      • 4+1
      • 5+1
      • 6+1
      • 7+1
      • 8+1
      • 9+1
      • 10+1
      • 11+1
      • 12+1
      • 13+1
      • 14+1
    • 以人为中心的可信视觉智能

      2026(2):303-331. DOI: 10.16337/j.1004-9037.2026.02.003

      摘要 (1) HTML (0) PDF 134.26 K (0) 评论 (0) 收藏

      摘要:本文围绕以人为中心的可信视觉智能,系统总结其应用现状、关键技术与发展趋势。随着计算机视觉从感知走向高自主决策与物理执行,视觉智能系统在隐私、公平、鲁棒、透明与安全等方面的风险日益突出,当系统输出可能影响人的安全与权益时,单纯追求性能已难以满足可信需求。为此,本文从计算机视觉视角梳理可信视觉智能的内涵与演进,强调人作为数据主体、认知参与者与最终控制者的多重角色,并提出以信息空间、认知空间与物理空间为主线的统一框架,构建“关注于人—服务于人—受控于人”的递进体系。围绕数据分析、模型设计与系统应用3个层面,本文总结公平与隐私约束下以人为对象的视觉数据分析方法,稳健且负责任的模型设计策略,以及以透明与安全为核心的人机协同控制机制,并结合图像增强、视频分析、机器人操作与三维视觉感知等场景进行分析。最后讨论了鲁棒评估、跨场景泛化、协同治理与可持续部署等挑战与研究方向,为真实世界可信视觉智能系统提供了路线图。

      • 0+1
      • 1+1
      • 2+1
      • 3+1
      • 4+1
      • 5+1
      • 6+1
      • 7+1
      • 8+1
      • 9+1
      • 10+1
      • 11+1
      • 12+1
    • 具身智能数据采集与处理综述

      2026(2):332-346. DOI: 10.16337/j.1004-9037.2026.02.004

      摘要 (0) HTML (0) PDF 66.45 K (0) 评论 (0) 收藏

      摘要:近年来,视觉-语言-动作(Vision-language-action,VLA)模型在具身智能领域受到广泛关注。随着模型规模不断扩大,其在复杂任务中的泛化能力持续提升,而模型性能的提升在很大程度上依赖于高质量、大规模训练数据。然而,与自然语言处理和计算机视觉领域可以直接利用互联网海量数据不同,具身智能数据通常涉及真实机器人与环境之间的物理交互,数据采集成本高、获取过程复杂。如何高效获取、处理并组织这些数据,已成为制约具身智能发展的关键问题。针对上述问题,本文对具身智能领域的数据采集与处理方法进行了系统梳理。首先,从数据来源与采集方式角度总结了当前主流的数据获取范式,并分析了不同范式在数据质量、规模潜力和采集成本等方面的特点与局限。其次,进一步总结了具身智能数据的标准化处理流程,重点分析了动作表示对齐、多模态时序同步、语言语义标准化以及数据质量控制等关键技术环节。最后,讨论了具身智能数据生态的发展趋势,指出目前遇到的困难以及未来可能的发展路径。本文的总结与分析可为具身智能领域数据集构建以及大规模机器人学习研究发展提供帮助。

      • 0+1
      • 1+1
      • 2+1
      • 3+1
      • 4+1
      • 5+1
    • 语音深度伪造溯源技术研究现状及展望

      2026(2):347-370. DOI: 10.16337/j.1004-9037.2026.02.005

      摘要 (0) HTML (0) PDF 90.98 K (0) 评论 (0) 收藏

      摘要:随着生成式人工智能技术的快速发展,语音深度伪造技术日益精进,其生成的语音在听感上已难辨真假,给信息安全、司法取证和社会互信带来严峻挑战。传统的语音伪造检测重点在于解决语音“真/假”的二元分类问题。然而,在复杂的安全对抗与取证场景中,仅判定语音的真或假已无法满足追根溯源、厘清责任的需求。本文聚焦“语音伪造溯源”这一前沿课题,系统综述了国内外当前的研究进展。首先,构建了一个层级化的语音伪造溯源任务体系,明确界定了伪造方法溯源、源说话人溯源和模型逆向这3个子任务的内涵。然后,从生成模型的基本原理、语音信号的声学特性等角度,阐述了各子任务可行的核心机理;区分体系架构、训练策略等不同维度,系统地梳理了各子任务的研究现状、主流方法及技术演进路径。最后,总结了当前研究面临的开放世界溯源、复杂信道条件下溯源等关键挑战,展望了面向语音深度伪造反制的主动溯源等未来的发展方向,旨在为构建更完善的语音安全防御体系提供参考。

      • 0+1
      • 1+1
      • 2+1
      • 3+1
      • 4+1
      • 5+1
      • 6+1
      • 7+1
      • 8+1
      • 9+1
      • 10+1
      • 11+1
      • 12+1
      • 13+1
      • 14+1
    • 基于深度学习的声源定位与跟踪综述

      2026(2):371-396. DOI: 10.16337/j.1004-9037.2026.02.006

      摘要 (0) HTML (0) PDF 72.48 K (1) 评论 (0) 收藏

      摘要:声源定位与跟踪是机器听觉获取空间信息的重要途径之一。随着多麦克风设备与语音交互、会议系统和声学监测等应用的发展,在复杂声场条件下对声源方向与位置进行稳定估计的需求持续增加。基于此,本文对基于深度学习的声源定位与跟踪相关技术进行了系统综述。现有综述多聚焦于声源定位,而对基于深度学习的声源跟踪研究缺乏系统梳理。针对这一不足,本文将声源定位与跟踪纳入统一框架进行综合分析。首先,概述了声源定位与跟踪的基本问题定义与传统方法框架。然后,从输入表征、模型结构与学习目标三个角度,介绍了深度学习方法在特征设计、网络建模以及训练策略方面的主要路线。接着,总结了常用数据集、实验设置与评价指标,并讨论不同条件下结果对比的注意事项。最后,对声源定位与跟踪技术进行总结,并对未来可能的研究方向进行展望。

      • 0+1
      • 1+1
      • 2+1
      • 3+1
      • 4+1
      • 5+1
      • 6+1
      • 7+1
      • 8+1
      • 9+1
    • 基于预训练模型的目标音频处理研究进展

      2026(2):397-415. DOI: 10.16337/j.1004-9037.2026.02.007

      摘要 (0) HTML (0) PDF 85.49 K (0) 评论 (0) 收藏

      摘要:目标音频处理旨在根据用户提供的线索从混合信号中恢复或识别特定目标声源,是人机交互、智慧办公及多媒体取证等领域的关键技术。本文对近年来作者团队基于预训练模型的目标音频处理研究进展进行了概述。首先,回顾了目标说话人语音识别、语音提取、目标音频提取及音源分离等方向的研究现状,介绍了Whisper、对比学习语言音频预训练(Contrastive language-audio pretraining, CLAP)等预训练模型及参数高效微调技术。针对目标音频提取和目标说话人识别任务综述了作者团队研究的基于对比学习的多模态查询目标音频提取方法、无需配对数据的语言查询目标音频提取方法、基于多任务学习的目标说话人语音提取方法,以及基于提示微调的目标说话人语音识别方法等。这些方法分别在多模态泛化、标注数据依赖、语义保持与参数效率等方面取得了显著进展。最后,对推理效率提升、多模态深度融合、开放域泛化及通用目标音频处理大模型的构建等未来研究方向进行了展望。

      • 0+1
      • 1+1
      • 2+1
      • 3+1
      • 4+1
      • 5+1
      • 6+1
      • 7+1
      • 8+1
      • 9+1
      • 10+1
      • 11+1
      • 12+1
      • 13+1
      • 14+1
      • 15+1
    • 医学影像-病理-基因融合的智能分析和诊疗应用

      2026(2):416-438. DOI: 10.16337/j.1004-9037.2026.02.008

      摘要 (0) HTML (0) PDF 104.32 K (0) 评论 (0) 收藏

      摘要:影像、病理与基因组学分别提供肿瘤的空间形态表型、组织学结构与分子机制信息。单一模态往往受限于尺度割裂、取样偏倚与跨中心域偏移,难以支撑临床决策。针对肿瘤精准诊疗的临床需求,影像-病理-基因融合的核心目标并非简单叠加特征或替代检测,而是实现空间证据、组织学证据与机制证据的同域对齐与一致性校验。本文围绕融合方法学与临床应用两条主线展开综述:在方法学部分,系统讨论多模态融合的临床优势,归纳关键融合范式,强调影像-病理-基因融合在临床诊疗应用中的必要性;在应用部分,以多模态融合补全证据链为核心,总结其在鉴别诊断、分子分型、手术规划、疗效分层与系统化输出中的独特优势,突出融合如何将预测结果转化为可验证、可执行的临床决策。最后,讨论空间组学与多区域采样、纵向演化建模、多模态基础模型与多中心协作验证等关键发展趋势,并提出面向临床转化的建议要点与临床效用评价体系,为下一代肿瘤多模态智能诊疗系统的构建与落地提供建议路线图。

      • 0+1
      • 1+1
      • 2+1
      • 3+1
      • 4+1
      • 5+1
      • 6+1
      • 7+1
      • 8+1
    • 基础模型驱动的脑机接口编解码新范式

      2026(2):439-460. DOI: 10.16337/j.1004-9037.2026.02.009

      摘要 (0) HTML (0) PDF 131.21 K (1) 评论 (0) 收藏

      摘要:脑机接口(Brain-computer interface, BCI)通过建立大脑外部刺激与脑内神经活动之间的映射关系为理解大脑信息处理机制并实现人机智能交互提供了有效手段。近年来,基础模型在各项计算机视觉任务中取得了突破性进展,这也推动了BCI从依赖任务的专用模型迈向通用智能的新范式。本文首次综述了基础模型在BCI神经编码与解码中的最新研究进展,重点梳理了在自然刺激编解码、多模态脑表征学习及泛化性研究等方面的主要工作和研究脉络,分析了当前研究在样本规模、数据异质性、多模态融合及模型可解释性等方面所面临的挑战,最后展望了通用BCI的未来研究方向。本文旨在为构建面向复杂认知场景下的通用BCI模型提供系统性参考与研究启示。

      • 0+1
      • 1+1
      • 2+1
      • 3+1
      • 4+1
      • 5+1
      • 6+1
      • 7+1
      • 8+1
      • 9+1
    • 数据的概率建模综述:从传统到现代

      2026(2):461-488. DOI: 10.16337/j.1004-9037.2026.02.010

      摘要 (0) HTML (0) PDF 82.41 K (1) 评论 (0) 收藏

      摘要:人工智能技术发展日新月异,各类模型、算法及其应用领域受到较大关注。数据的概率建模是人工智能和机器学习的核心问题,但是其关注度普遍较低。这一方面是由于概率建模理论抽象,另一方面是相关综述较少。然而人工智能领域的原创性突破大多都与数据概率建模有关,因此本文以数据的概率建模为主线,对机器学习中从传统到现代的主流方法进行综述,从高斯混合模型、期望最大化(Expectation-maximization,EM)算法和变分推理等传统方法到变分自编码器、生成对抗网、分数匹配、扩散模型、归一化流和流匹配等现代方法都统一到数据的概率建模框架下。这些方法虽然提出的时间跨度很大,解决的问题有所不同,但它们都可以解释为最大似然估计或分数匹配框架,区别在于对数据及模型的假设不同。因此,本文构建了一种对从传统机器学习到最新生成模型的统一理解方式,将概率建模方法分为基于最大似然估计的方法、基于分数匹配的方法和基于流的方法,揭示了它们之间的内在联系,为人工智能生成方法的进一步发展提供了理论基础方面的解读。

      • 0+1
      • 1+1
      • 2+1
      • 3+1
      • 4+1
      • 5+1
    • 基于计算光学系统的信息处理方法研究进展

      2026(2):489-514. DOI: 10.16337/j.1004-9037.2026.02.011

      摘要 (0) HTML (0) PDF 70.95 K (0) 评论 (0) 收藏

      摘要:像差是制约光学系统成像性能的关键因素,而计算光学像差校正技术通过融合光学物理建模与信息处理算法,实现对成像退化的精准补偿。本文围绕计算光学像差校正技术,首先阐述了基于Zernike多项式的波前像差表征方法及像差主导的光场退化模型,并介绍了维纳滤波、Richardson-Lucy迭代等经典复原算法。在此基础上,从主动调节、光学编码和纯计算复原3个维度,分析了自适应光学、波前编码、相位恢复与盲解卷积等主流技术的原理与应用。最后,重点解释了深度学习驱动的像差校正方法,包括数据驱动、物理模型嵌入及无监督学习架构,并讨论了其在生物医学显微成像、无透镜成像和天文遥感等领域的典型应用。

      • 0+1
      • 1+1
      • 2+1
      • 3+1
      • 4+1
      • 5+1
      • 6+1
      • 7+1
      • 8+1
      • 9+1
      • 10+1
      • 11+1
      • 12+1
      • 13+1
      • 14+1
      • 15+1
      • 16+1
      • 17+1
      • 18+1
      • 19+1
      • 20+1
      • 21+1
    • 深度学习驱动的视频编码:方法、进展与展望

      2026(2):515-542. DOI: 10.16337/j.1004-9037.2026.02.012

      摘要 (0) HTML (0) PDF 94.83 K (0) 评论 (0) 收藏

      摘要:随着视频数据量的爆炸式增长,有限的网络带宽和高计算资源需求对视频传输与存储提出了严峻挑战。在此背景下,持续开发高效的视频编码方法以保障在资源受限条件下提供高质量视频服务具有至关重要的理论意义与应用价值。然而,传统混合视频编码框架已逐渐遭遇瓶颈,编码性能的进一步提升越来越困难。近年来,深度学习凭借其强大的非线性拟合与表征能力,为视频编码领域的优化带来了契机。本文对基于深度学习驱动的视频编码技术进行了系统而详细的分析。首先,简要介绍传统编码框架下的视频编码技术,并进一步探讨结合深度学习在帧内/帧间预测等关键模块中的优化;然后,重点讨论了基于深度学习的端到端视频编码框架的发展历程及关键技术路线,并对其性能进行对比分析;最后,进一步介绍深度学习在视频编码领域的重要研究成果,剖析现有技术所面临的挑战和局限性,并对未来视频编码技术的发展趋势进行了展望。

      • 0+1
      • 1+1
      • 2+1
      • 3+1
      • 4+1
      • 5+1
      • 6+1
      • 7+1
      • 8+1
      • 9+1
      • 10+1
      • 11+1
      • 12+1
      • 13+1
    • 三维人脸生成技术综述

      2026(2):543-565. DOI: 10.16337/j.1004-9037.2026.02.013

      摘要 (0) HTML (0) PDF 68.14 K (0) 评论 (0) 收藏

      摘要:近年来,计算机视觉与图形学的快速发展推动了三维人脸生成技术的突破,尤其在以数字化身构建领域,三维视觉技术在互联网快速普及,受到了学术界和工业界的广泛关注。该技术通过从显式或隐式的底层表征中重建几何结构与纹理细节来合成逼真的多视角人脸图像,并在娱乐与交互应用中取得显著成果,如通过文本描述修改面部特征的属性编辑,或生成说话视频的说话人脸技术。但早期基于线性参数化模型的技术存在生成的真实感和细节表现不佳的问题,随后兴起的隐式神经表示技术虽然大幅提升了视觉质量,却面临计算成本高昂、难以实时交互的难题,这给实际部署与应用均带来了极大限制。为了克服速度与质量之间的矛盾,众多学者对基于显式高斯基元的新型表征以及基于概率扩散的生成模型进行了深入研究,并从不同视角提出了一系列混合生成方法。此外,生成技术仍面临小样本泛化困难、头部物理建模不完整与动态一致性不足等挑战,使其在实现完全写实与实时交互的道路上仍有很长一段距离。目前,三维人脸生成与驱动技术的研究仍处在发展期。本综述对迄今为止的主要研究工作进行了科学系统的总结与归纳,并对现有技术的局限性做简要分析。最后,探讨了三维人脸生成与应用技术的潜在挑战与发展方向,旨在为领域内未来的研究工作提供借鉴。

      • 0+1
      • 1+1
      • 2+1
      • 3+1
      • 4+1
      • 5+1
      • 6+1
      • 7+1
      • 8+1
      • 9+1
      • 10+1
      • 11+1
      • 12+1
      • 13+1
      • 14+1
    • 基于深度学习的双时相光学遥感图像变化检测方法综述

      2026(2):566-591. DOI: 10.16337/j.1004-9037.2026.02.014

      摘要 (0) HTML (0) PDF 122.14 K (1) 评论 (0) 收藏

      摘要:双时相光学遥感图像变化检测任务是遥感领域的一个重要分支,旨在通过分析同一区域、不同时刻获取的遥感图像,刻画该区域的地表变化情况。随着遥感图像数据规模的持续增长以及深度学习技术的飞速发展,该领域正经历着快速迭代与演进。在此背景下,本文以时间轴为主线,系统性地梳理了近20年来基于深度学习的双时相光学遥感图像变化检测方法,对比分析了其在主流数据集上的性能与效率,并对相关公开数据集与评测指标进行总结。同时,对变化检测任务的整体处理流程进行拆分,详细介绍了各个环节的进展。最后,对该领域的未来研究方向进行了展望,希望为后续的相关研究提供参考。

      • 0+1
      • 1+1
      • 2+1
      • 3+1
      • 4+1
      • 5+1
      • 6+1
    • 复杂低空环境下无人机自主定位技术研究进展

      2026(2):592-619. DOI: 10.16337/j.1004-9037.2026.02.015

      摘要 (0) HTML (0) PDF 110.08 K (0) 评论 (0) 收藏

      摘要:复杂低空环境通常呈现出多源干扰叠加、感知条件剧烈变化与信息不完备并存等特征,对无人机自主定位的连续性、可靠性与可信性提出了严峻挑战。在此类环境下,全球卫星导航系统(Global navigation satellite system, GNSS)信号易受遮挡与干扰而失效,视觉感知面临弱纹理、强动态与光照突变等退化问题,惯性测量则不可避免地产生长期累积漂移,三者耦合作用显著削弱了定位系统的稳定性与鲁棒性。为此,本文系统梳理了低空典型退化环境类型,重点分析了多源混合干扰场景下视觉特征缺失、IMU误差发散与卫星定位性能退化等关键技术瓶颈。在此基础上,综述了无人机视觉导航定位技术的发展脉络,涵盖基于卫星/先验地图的视觉匹配定位方法以及视觉SLAM的最新研究进展;进一步总结了视觉-惯性系统融合建模与感知增强方法,阐明其在提升定位精度与稳健性方面的技术优势。随后,论述了多源融合导航框架及面向拒止环境的鲁棒融合策略,重点关注视觉、惯性、激光雷达以及卫星等多模态信息的协同建模、退化感知与完好性监测。最后,展望了数据驱动的多模态自适应导航方法以及轻量化、智能化的无人机高可信导航技术发展趋势。旨在为复杂低空环境下无人机高可靠自主定位技术的研究与工程应用提供系统参考。

      • 0+1
      • 1+1
      • 2+1
      • 3+1
      • 4+1
      • 5+1
      • 6+1
      • 7+1
      • 8+1
      • 9+1
      • 10+1
      • 11+1
      • 12+1
      • 13+1
      • 14+1
      • 15+1
      • 16+1
    • 视觉大模型生成内容风险与治理研究综述

      2026(2):620-640. DOI: 10.16337/j.1004-9037.2026.02.016

      摘要 (0) HTML (0) PDF 80.37 K (1) 评论 (0) 收藏

      摘要:随着扩散模型等深度生成技术的突破性进展,视觉大模型在图像生成质量与语义一致性上取得了显著飞跃,被广泛应用于艺术创作与工业设计等领域。然而,其强大的生成能力也引发了严峻的内容安全风险,恶意用户可诱导模型生成色情、暴力或侵权图像,对人工智能的安全治理提出了迫切需求。本文聚焦于视觉大模型面临的两大核心攻防任务进行了系统综述:(1)旨在诱导模型突破安全防线的越狱攻击;(2)旨在移除模型内部风险知识的概念擦除。首先,本文构建了越狱攻击的分类体系,从技术划分、扰动方式、查询类型及攻击者知识4个层面,揭示了攻击手段从特征空间对抗向语义空间推理演进的趋势。其次,针对风险治理,深入探讨了概念擦除技术,对比分析了模型微调、模型编辑与推理引导3类主流技术路线,阐述了不同方法在擦除有效性、计算效率以及通用生成能力保留之间的权衡关系。最后,梳理了该领域常用的基准数据集,并指出了当前研究在对抗鲁棒性以及多概念联合治理等方面面临的挑战与未来发展方向,旨在为构建安全可控的生成式视觉大系统提供理论参考与技术指引。

      • 0+1
      • 1+1
      • 2+1
      • 3+1
      • 4+1
      • 5+1
      • 6+1
      • 7+1
      • 8+1
      • 9+1
快速检索
检索项
检索词
卷期检索