利用 AI 构建 SOTA 计算机视觉与空间智能系统

解决复杂视觉任务的架构设计难题：通过引入 2026 年最前沿的 YOLO26、SAM 3 和视觉语言模型（VLM），帮助开发者实现从实时目标检测到高精度 3D 重建的端到端视觉流水线。

为什么需要这个技能

计算机视觉领域迭代极快，传统的检测和分割方案在推理延迟、标注成本和泛化能力上存在瓶颈。例如，传统的 NMS（非极大值抑制）后处理增加了端到端延迟，而手动点击掩码则严重限制了自动化程度。

本技能将 AI 定位为高级视觉架构师，使其能够引导你使用 NMS-Free 架构（如 YOLO26）降低延迟，利用文本引导分割（SAM 3）消除手动标注，并结合 VLM 实现复杂的语义场景理解，从而构建出具备“空间智能”的工业级应用。

视觉任务解构：分析需求是倾向于“快速定位”（检测）、“精确轮廓”（分割）还是“语义理解”（VLM）。
混合 pipeline 设计：
- 采用 YOLO26 快速生成候选框（Candidate Proposal）。
- 衔接 SAM 3 根据候选框或文本提示进行精确掩码细化（Mask Refinement）。
- 使用 VLM（如 Qwen2-VL）对结果进行高层语义推理和结构化数据提取。
部署路径优化：弃用传统 DFL 导出，采用 YOLO26 的简化模块结构，直接导出为 NMS-Free 的 TensorRT 引擎，减少 CPU 后处理开销。
空间维度增强：集成单目深度图与几何单应性矩阵，将 2D 检测结果映射至 2.5D 或 3D 空间坐标系。

解压后将目录放入你的 AI 工具 skills 文件夹，重启工具后即可使用。具体路径参考内附的 USAGE.zh.md。

暂无推荐