20年技术长廊：三维视觉全局优化的终极版图，一文看尽BnB、凸松弛与GNC

03-01 22:52

神经网织者

在三维视觉和机器人领域，我们经常需要从杂乱的数据中寻找“最优解”，比如计算相机的位姿、配准两堆点云。传统做法通常依赖 Gauss-Newton 或 Levenberg-Marquardt 这种局部优化算法。但这些方法就像是在浓雾中下山，如果你出发点（初始化）选错了，极容易被困在半山腰的“局部最优”小水洼里，永远找不到真正的山谷。

为了解决这个问题，全局求解器（Global Solvers）应运而生。最近，来自西班牙萨拉戈萨大学、美国哈佛大学、西湖大学、湖南大学、武汉大学以及香港科技大学（广州）的研究者们联合发布了首篇系统性综述 ——《Advances in Global Solvers for 3D Vision》。这篇文章梳理了过去 20 年里三维视觉全局优化的进阶之路。

作者将这一研究领域命名为“Global Solvers”，意在强调通过全局优化算法解决三维视觉中固有的非凸性问题。与传统的“试错”方法不同，全局求解器追求的是一种“确定性”——要么给出真正的全局最优解，要么提供一个可量化的最优性证明，这对于安全至上的自动驾驶和医疗手术机器人至关重要。

论文地址: https://arxiv.org/abs/2602.14662
代码仓库: https://github.com/ericzzj1989/Awesome-Global-Solvers-for-3D-Vision
为什么我们需要全局求解器？
在理想世界里，传感器数据是完美的。但在现实中，遮挡、噪声和错误的匹配（离群点/Outliers）无处不在。这使得我们要优化的目标函数变得极其“崎岖”。

论文指出，三维视觉问题的非凸性主要源于两个方面：一是几何约束本身，比如旋转矩阵必须满足正交且行列式为 1，这本身就是一个弯曲的流形；二是残差函数，比如透视投影过程中的非线性变换。全局求解器的核心价值，就在于它们能提供一种可验证（Certifiable）的保障——它们不再让你在局部最优里“盲人摸象”，而是通过严谨的数学手段，跨越非凸性的鸿沟。
论文提出的三维视觉全局求解器分类法。该领域围绕三大组件组织：全局求解器算法、对比分析以及涵盖10个基本视觉任务的应用场景。

为了统一讨论，作者首先定义了一套标准的数学语言，涵盖了从标量、向量到复杂的旋转群和特殊欧式群（Special Euclidean Group,）的符号规范。

论文中使用的符号汇总表。
三大范式：技术原理深度拆解
作者将全局求解器归纳为三大核心范式：分枝定界法（Branch-and-Bound, BnB）、凸松弛（Convex Relaxation, CR）以及渐进非凸法（Graduated Non-Convexity, GNC）。

1. 分枝定界法 (BnB)：确定性的“地毯式搜索”
BnB 是一种“不撞南墙不回头”的硬核搜索框架。

Input（输入）：初始搜索域（如旋转角度）、非凸目标函数、收敛容差。
核心流程：
分枝（Branching）：把搜索空间递归地切成更小的子块。
定界（Bounding）：计算每一块区域内目标函数可能达到的下界（Lower Bound）。
剪枝（Pruning）：如果某块区域的下界比当前已经找到的最好解（上界）还要差，那就直接扔掉这块区域。
Output（输出）：-全局最优解及其最优性证书。

BnB 的优点是绝对可靠，但缺点是计算量随维度呈指数级增长。它在处理低维问题（如旋转搜索）或作为混合框架的一部分时非常强大。

2. 凸松弛 (CR)：高维空间的“降维打击”
凸松弛是目前理论界最推崇的方法。它不直接在崎岖的非凸面上搜索，而是通过“提升维度”把问题变简单。

Input（输入）：非凸优化问题，如二次约束二次规划（Quadratically Constrained Quadratic Programs, QCQP）或多项式优化问题（Polynomial Optimization Problems, POP）。
核心流程：
Shor 松弛：把向量提升为矩阵，丢掉那个讨厌的“秩为 1”的非凸约束，从而变成一个凸的半正定规划（Semidefinite Programming, SDP）问题。
Moment-SOS 层次结构：利用多项式的平方和（Sum-of-Squares）性质，构建一系列越来越精细的凸包。
Output（输出）：松弛问题的全局解。如果松弛是紧致的（Tight），则该解即为原问题的全局最优解。
3. 渐进非凸法 (GNC)：丝滑的“路径追踪”
如果说前两种方法是“求真”，那么 GNC 就是“求快”。

Input（输入）：原始非凸鲁棒损失函数（如 TLS 或 Geman-McClure）、初始化的凸代理函数。
核心流程：
同伦变形：通过一个控制参数，构建从简单凸问题到复杂非凸问题的连续变换路径。
路径追踪：先解决凸问题，然后逐渐减小，并用上一步的解作为下一步迭代重加权最小二乘（Iteratively Reweighted Least Squares, IRLS）的起点。
Output（输出）：目标非凸问题的近全局解。
这种方法在处理含有大量离群点的鲁棒估计时表现惊人，是目前大规模视觉任务中 SOTA 性能的有力竞争者。

性能大 PK：谁才是真正的王者？
作者在论文中给出了一份极具参考价值的对比表。

BnB：最优性最强，但扩展性最差（通常测量数）。
Shor 松弛：中规中矩，适合处理几百个点的问题，能提供最优性证书。
GNC：扩展性极佳（），速度极快，且能处理高达 30%-50% 的离群点，是工业级应用的首选。
任务实战：从位姿估计到大场景重建
这篇综述最实用的地方在于，它把这些抽象的算法应用到了 10 个具体的 3D 视觉任务中。

作者不仅给出了每个任务的数学模型（见下表），还整理了一个详尽的“索引地图”，告诉你在每个细分领域，哪些论文用了 BnB，哪些用了 SDP。

比如在绝对位姿估计（PnP）中，Schweighofer 和 Pinz 早在 2008 年就利用 Moment-SOS 实现了全局最优；而在现代 SLAM 的核心——位姿图优化（Pose Graph Optimization, PGO）中，著名的 SE-Sync 算法通过黎曼阶梯（Riemannian Staircase）技术，在保持全局最优性的同时，速度已经可以媲美传统的局部方法。在 3D 配准任务中，TEASER 算法则通过解耦旋转和位移，利用 SDP 实现了对极高比例离群点的鲁棒处理。

3D 视觉任务全局优化方法的全面索引。为研究者提供了清晰的文献查阅指南

未来挑战与社会影响
尽管全局求解器在理论上非常完美，但在大规模实时应用中仍面临挑战。论文提出了几个关键方向：

可扩展性：如何利用 GPU 并行化或分布式计算（如 DC2-PGO）来进一步加速 SDP 求解。
深度学习集成：利用神经网络提供高质量的“初值”或“离群点掩码”，再由全局求解器进行可验证的精修。
社会影响：在安全攸关的系统中，全局求解器提供的证书可以作为算法“尽职调查”的证据，提高系统的透明度和问责制。
写在最后
全局求解器正从纯粹的数学玩具演变为可靠感知的基石。虽然目前在实时性上仍有挑战，但它为我们提供了一种前所未有的“确定性”。

值得一提的是，作者在 GitHub 上建立了一个名为 "Awesome-Global-Solvers-for-3D-Vision" 的仓库。这不仅仅是一个论文列表，更是一套实战教程。他们使用 Python 的 SPOT（Sparse Polynomial Optimization Toolbox）工具箱，手把手教你如何把一个非凸的视觉问题转化成凸松弛形式并求解。

来源：非具身不智能