CVPR 2026录取结果揭晓 腾讯混元超二十五篇论文入选

  【CNMO科技消息】据腾讯混元官方消息,近日,计算机视觉顶级学术会议CVPR 2026正式公布录取结果。本届大会共收到16092篇有效投稿,最终录用4090篇,接受率为25.42%。在激烈的竞争中,腾讯混元团队表现亮眼,共有超过25篇论文成功入选,研究范畴深度覆盖视频生成、图像编辑、3D资产创建及多模态交互等核心领域。

CVPR 2026录取结果揭晓 腾讯混元超二十五篇论文入选

  在视频生成与数字人领域,腾讯混元提出了多项突破性成果。SoliReward框架通过改进损失函数与数据策略,有效缓解了视频生成奖励模型中的“奖励黑客”与标注噪声问题,显著提升了物理规律一致性。UniAVGen与Harmony则聚焦音视频联合生成,前者以非对称跨模态交互机制实现了人像音视频的时空精准同步,后者通过跨任务协同范式解决了音画同步漂移痛点。针对实时交互需求,StreamAvatar模型成功将高质量扩散模型蒸馏为高效的流式架构,实现了低延迟的720P无限长数字人视频生成,而ActAvatar则通过时序感知机制,仅需50亿参数即可实现高精度的虚拟形象动作控制。

  图像编辑与理解方面,Meta-CoT提出元思维链编辑范式,通过三元组认知分解与元任务操作分解,兼顾了细粒度指令跟随与跨任务泛化能力。JarvisEvo构建了编辑器与评估器协同优化的自进化智能体,利用交错式多模态思维链打破纯文本推理的信息壁垒。此外,PromptEnhancer与TAG-MoE分别通过细粒度奖励优化提示重写及任务感知门控机制,大幅提升了文本到图像生成的语义对齐度与多任务处理能力。

  在3D生成与世界模型构建上,腾讯混元同样成果丰硕。LATTICE框架利用半结构化VoxSet表示法,弥合了3D与2D生成模型在质量与可扩展性上的差距;NaTex与PoseMaster分别实现了基于潜在颜色扩散的无缝纹理生成及原生3D骨架控制的姿态风格化。ArtLLM与X-Part进一步推动了关节式资产生成与高保真形状分解技术的发展。WorldStereo则通过几何记忆模块,成功桥接了可控视频生成与3D场景重建。

Published by

风君子

独自遨游何稽首 揭天掀地慰生平