神经网织者
在三维视觉和机器人领域,我们经常需要从杂乱的数据中寻找“最优解”,比如计算相机的位姿、配准两堆点云。传统做法通常依赖 Gauss-Newton 或 Levenberg-Marquardt 这种局部优化算法。但这些方法就像是在浓雾中下山,如果你出发点(初始化)选错了,极容易被困在半山腰的“局部最优”小水洼里,永远找不到真正的山谷。
为了解决这个问题,全局求解器(Global Solvers)应运而生。最近,来自西班牙萨拉戈萨大学、美国哈佛大学、西湖大学、湖南大学、武汉大学以及香港科技大学(广州)的研究者们联合发布了首篇系统性综述 ——《Advances in Global Solvers for 3D Vision》。这篇文章梳理了过去 20 年里三维视觉全局优化的进阶之路。
作者将这一研究领域命名为“Global Solvers”,意在强调通过全局优化算法解决三维视觉中固有的非凸性问题。与传统的“试错”方法不同,全局求解器追求的是一种“确定性”——要么给出真正的全局最优解,要么提供一个可量化的最优性证明,这对于安全至上的自动驾驶和医疗手术机器人至关重要。
论文地址: https://arxiv.org/abs/2602.14662
代码仓库: https://github.com/ericzzj1989/Awesome-Global-Solvers-for-3D-Vision
为什么我们需要全局求解器?
在理想世界里,传感器数据是完美的。但在现实中,遮挡、噪声和错误的匹配(离群点/Outliers)无处不在。这使得我们要优化的目标函数变得极其“崎岖”。
论文指出,三维视觉问题的非凸性主要源于两个方面:一是几何约束本身,比如旋转矩阵 必须满足正交且行列式为 1,这本身就是一个弯曲的流形;二是残差函数,比如透视投影过程中的非线性变换。全局求解器的核心价值,就在于它们能提供一种 可验证(Certifiable) 的保障——它们不再让你在局部最优里“盲人摸象”,而是通过严谨的数学手段,跨越非凸性的鸿沟。
论文提出的三维视觉全局求解器分类法。该领域围绕三大组件组织:全局求解器算法、对比分析以及涵盖10个基本视觉任务的应用场景。
为了统一讨论,作者首先定义了一套标准的数学语言,涵盖了从标量、向量到复杂的旋转群
和特殊欧式群(Special Euclidean Group,
)的符号规范。
论文中使用的符号汇总表。
三大范式:技术原理深度拆解
作者将全局求解器归纳为三大核心范式:分枝定界法(Branch-and-Bound, BnB)、凸松弛(Convex Relaxation, CR)以及渐进非凸法(Graduated Non-Convexity, GNC)。
1. 分枝定界法 (BnB):确定性的“地毯式搜索”
BnB 是一种“不撞南墙不回头”的硬核搜索框架。
Input(输入):初始搜索域
(如旋转角度
)、非凸目标函数、收敛容差
。
核心流程:
分枝(Branching):把搜索空间递归地切成更小的子块。
定界(Bounding):计算每一块区域内目标函数可能达到的下界(Lower Bound)。
剪枝(Pruning):如果某块区域的下界比当前已经找到的最好解(上界)还要差,那就直接扔掉这块区域。
Output(输出):
-全局最优解及其最优性证书。

BnB 的优点是绝对可靠,但缺点是计算量随维度呈指数级增长。它在处理低维问题(如旋转搜索)或作为混合框架的一部分时非常强大。
2. 凸松弛 (CR):高维空间的“降维打击”
凸松弛是目前理论界最推崇的方法。它不直接在崎岖的非凸面上搜索,而是通过“提升维度”把问题变简单。
Input(输入):非凸优化问题,如二次约束二次规划(Quadratically Constrained Quadratic Programs, QCQP)或多项式优化问题(Polynomial Optimization Problems, POP)。
核心流程:
Shor 松弛:把向量
提升为矩阵
,丢掉那个讨厌的“秩为 1”的非凸约束,从而变成一个凸的半正定规划(Semidefinite Programming, SDP)问题。
Moment-SOS 层次结构:利用多项式的平方和(Sum-of-Squares)性质,构建一系列越来越精细的凸包。
Output(输出):松弛问题的全局解。如果松弛是紧致的(Tight),则该解即为原问题的全局最优解。
3. 渐进非凸法 (GNC):丝滑的“路径追踪”
如果说前两种方法是“求真”,那么 GNC 就是“求快”。
Input(输入):原始非凸鲁棒损失函数(如 TLS 或 Geman-McClure)、初始化的凸代理函数。
核心流程:
同伦变形:通过一个控制参数
,构建从简单凸问题到复杂非凸问题的连续变换路径。
路径追踪:先解决凸问题,然后逐渐减小
,并用上一步的解作为下一步迭代重加权最小二乘(Iteratively Reweighted Least Squares, IRLS)的起点。
Output(输出):目标非凸问题的近全局解。
这种方法在处理含有大量离群点的鲁棒估计时表现惊人,是目前大规模视觉任务中 SOTA 性能的有力竞争者。
性能大 PK:谁才是真正的王者?
作者在论文中给出了一份极具参考价值的对比表。
BnB:最优性最强,但扩展性最差(通常测量数 )。
Shor 松弛:中规中矩,适合处理几百个点的问题,能提供最优性证书。
GNC:扩展性极佳(),速度极快,且能处理高达 30%-50% 的离群点,是工业级应用的首选。
任务实战:从位姿估计到大场景重建
这篇综述最实用的地方在于,它把这些抽象的算法应用到了 10 个具体的 3D 视觉任务中。
作者不仅给出了每个任务的数学模型(见下表),还整理了一个详尽的“索引地图”,告诉你在每个细分领域,哪些论文用了 BnB,哪些用了 SDP。
比如在绝对位姿估计(PnP)中,Schweighofer 和 Pinz 早在 2008 年就利用 Moment-SOS 实现了全局最优;而在现代 SLAM 的核心——位姿图优化(Pose Graph Optimization, PGO)中,著名的 SE-Sync 算法通过黎曼阶梯(Riemannian Staircase)技术,在保持全局最优性的同时,速度已经可以媲美传统的局部方法。在 3D 配准任务中,TEASER 算法则通过解耦旋转和位移,利用 SDP 实现了对极高比例离群点的鲁棒处理。
3D 视觉任务全局优化方法的全面索引。为研究者提供了清晰的文献查阅指南
未来挑战与社会影响
尽管全局求解器在理论上非常完美,但在大规模实时应用中仍面临挑战。论文提出了几个关键方向:
可扩展性:如何利用 GPU 并行化或分布式计算(如 DC2-PGO)来进一步加速 SDP 求解。
深度学习集成:利用神经网络提供高质量的“初值”或“离群点掩码”,再由全局求解器进行 可验证 的精修。
社会影响:在安全攸关的系统中,全局求解器提供的证书可以作为算法“尽职调查”的证据,提高系统的透明度和问责制。
写在最后
全局求解器正从纯粹的数学玩具演变为可靠感知的基石。虽然目前在实时性上仍有挑战,但它为我们提供了一种前所未有的“确定性”。
值得一提的是,作者在 GitHub 上建立了一个名为 "Awesome-Global-Solvers-for-3D-Vision" 的仓库。这不仅仅是一个论文列表,更是一套实战教程。他们使用 Python 的 SPOT(Sparse Polynomial Optimization Toolbox) 工具箱,手把手教你如何把一个非凸的视觉问题转化成凸松弛形式并求解。
来源:非具身不智能