在 Hugging Face Jobs 上训练与微调视觉模型
解决本地算力不足的问题:通过 Hugging Face Jobs 托管的云端 GPU,快速实现目标检测(如 D-FINE)、图像分类(如 ViT)和图像分割(SAM/SAM2)模型的微调,并自动将结果保存至 Hub。
为什么需要这个技能
在进行视觉模型微调时,本地 GPU 显存往往不足,且环境配置(如 CUDA 版本、依赖库)复杂。Hugging Face Jobs 提供了预配置的云端 GPU 环境,允许用户通过简单的脚本提交任务,无需管理底层基础设施。
本技能通过标准化的训练模板和数据集验证流程,将复杂的视觉训练任务简化为“验证数据集
适用场景
- 目标检测:在自定义数据集上微调 D-FINE、RT-DETR 或 DETR 模型。
- 图像分类:利用
timm库微调 ResNet、MobileNet 或 DINOv3 等分类模型。 - 图像分割:针对特定领域微调 SAM 或 SAM2 模型(支持 BBox 或点提示)。
- 快速验证:在投入大规模训练前,使用云端 GPU 进行小样本快速原型验证。
核心工作流
1. 数据集验证(关键步骤)
在启动 GPU 任务前,必须运行 dataset_inspector.py 检查数据集格式,防止因格式不匹配导致昂贵的训练失败。
uv run scripts/dataset_inspector.py --dataset username/dataset-name --split train
2. 配置训练参数
根据任务类型选择对应的脚本模板(object_detection_training.py / image_classification_training.py / sam_segmentation_training.py),并通过命令行参数配置模型路径、学习率、Batch Size 等。
3. 提交云端任务
使用 hf_jobs MCP 工具或 Python API 提交任务。必须在 secrets 中传递 HF_TOKEN 以确保模型能自动推送至 Hub。
from huggingface_hub import HfApi, get_token
api = HfApi()
job_info = api.run_uv_job(
script="scripts/object_detection_training.py",
script_args=OD_SCRIPT_ARGS, # 包含模型名、数据集名等参数
flavor="t4-small", # 根据模型大小选择 GPU
timeout=14400, # 设置充足的超时时间(秒)
secrets={"HF_TOKEN": get_token()},
)
4. 监控与结果回收
通过 Trackio 面板实时监控训练曲线,任务结束后直接从 Hugging Face Hub 下载微调后的权重。
下载和安装
下载 hugging-face-vision-trainer 中文版 Skill ZIP
解压后将目录放入你的 AI 工具 skills 文件夹,重启工具后即可使用。具体路径参考内附的 USAGE.zh.md。
你可能还需要
暂无推荐