在 Hugging Face Jobs 上训练与微调视觉模型

解决本地算力不足的问题：通过 Hugging Face Jobs 托管的云端 GPU，快速实现目标检测（如 D-FINE）、图像分类（如 ViT）和图像分割（SAM/SAM2）模型的微调，并自动将结果保存至 Hub。

为什么需要这个技能

在进行视觉模型微调时，本地 GPU 显存往往不足，且环境配置（如 CUDA 版本、依赖库）复杂。Hugging Face Jobs 提供了预配置的云端 GPU 环境，允许用户通过简单的脚本提交任务，无需管理底层基础设施。

本技能通过标准化的训练模板和数据集验证流程，将复杂的视觉训练任务简化为“验证数据集 $\to$ 选择硬件 $\to$ 提交任务”的标准化工作流，极大地降低了模型迭代的门槛。

适用场景

目标检测：在自定义数据集上微调 D-FINE、RT-DETR 或 DETR 模型。
图像分类：利用 timm 库微调 ResNet、MobileNet 或 DINOv3 等分类模型。
图像分割：针对特定领域微调 SAM 或 SAM2 模型（支持 BBox 或点提示）。
快速验证：在投入大规模训练前，使用云端 GPU 进行小样本快速原型验证。

核心工作流

1. 数据集验证（关键步骤）

在启动 GPU 任务前，必须运行 dataset_inspector.py 检查数据集格式，防止因格式不匹配导致昂贵的训练失败。

uv run scripts/dataset_inspector.py --dataset username/dataset-name --split train

2. 配置训练参数

根据任务类型选择对应的脚本模板（object_detection_training.py / image_classification_training.py / sam_segmentation_training.py），并通过命令行参数配置模型路径、学习率、Batch Size 等。

3. 提交云端任务

使用 hf_jobs MCP 工具或 Python API 提交任务。必须在 secrets 中传递 HF_TOKEN 以确保模型能自动推送至 Hub。

from huggingface_hub import HfApi, get_token
api = HfApi()
job_info = api.run_uv_job(
    script="scripts/object_detection_training.py",
    script_args=OD_SCRIPT_ARGS, # 包含模型名、数据集名等参数
    flavor="t4-small",          # 根据模型大小选择 GPU
    timeout=14400,               # 设置充足的超时时间（秒）
    secrets={"HF_TOKEN": get_token()},
)

4. 监控与结果回收

通过 Trackio 面板实时监控训练曲线，任务结束后直接从 Hugging Face Hub 下载微调后的权重。

下载和安装

下载 hugging-face-vision-trainer 中文版 Skill ZIP

解压后将目录放入你的 AI 工具 skills 文件夹，重启工具后即可使用。具体路径参考内附的 USAGE.zh.md。

你可能还需要

暂无推荐

在 Hugging Face Jobs 上训练与微调视觉模型 #

为什么需要这个技能 #

适用场景 #

核心工作流 #

1. 数据集验证（关键步骤） #

2. 配置训练参数 #

3. 提交云端任务 #

4. 监控与结果回收 #

下载和安装 #

你可能还需要 #