如何自动化管理 Hugging Face 模型卡的评估结果

解决模型发布中手动填写评估数据的繁琐问题:利用 AI 自动从 README 提取、从 Artificial Analysis 导入或通过 vLLM/lighteval 运行评估,并将结果标准化为 model-index 格式更新至模型卡。

为什么需要这个技能

在发布大模型时,将评估结果(Benchmarks)以结构化形式写入模型卡(Model Card)对于模型可见度和排行榜(Leaderboard)集成至关重要。然而,手动将 Markdown 表格转换为特定的 YAML 元数据格式不仅低效,而且极易出错。

本技能提供了一套完整的自动化工具链,能够直接解析 README 表格、调用 API 获取权威基准分,甚至在 GPU 环境下自动运行模型评估,确保模型卡的评估数据实时、准确且符合 Papers with Code 等规范。

适用场景

  • 快速同步数据:模型 README 中已有评估表格,需要将其转化为结构化元数据。
  • 导入权威分数:需要从 Artificial Analysis 等第三方平台直接同步基准测试结果。
  • 自动化评测:在本地或 HF Jobs 上使用 vLLM 或 lighteval 运行自定义模型评估并回写结果。
  • 批量维护:为多个模型版本快速创建更新评估结果的 Pull Request (PR)。

核心工作流

1. 提取与导入

  • README 提取:通过 inspect-tables 预览表格 使用 extract-readme 指定表格索引 预览 YAML 使用 --apply--create-pr 提交。
  • API 导入:配置 AA_API_KEY 运行 import-aa 指定模型 slug 自动生成模型索引。

2. 运行定制评估

  • vLLM 加速:利用 vLLM 后端运行 lightevalinspect-ai 框架,实现比标准 HF 方式快 5-10 倍的推理速度。
  • 硬件调度:通过 run_vllm_eval_job.py 根据模型大小(如 3B, 70B)自动选择合适的 GPU 实例(T4, A10G, A100)。

3. 安全提交机制

  • PR 检查:在执行 --create-pr 前,必须运行 get-prs 检查是否存在未合并的 PR,防止重复提交干扰维护者。

核心命令示例

# 步骤 1:检查已有 PR
uv run scripts/evaluation_manager.py get-prs --repo-id "username/model-name"

# 步骤 2:分析 README 中的表格结构
uv run scripts/evaluation_manager.py inspect-tables --repo-id "username/model-name"

# 步骤 3:提取特定表格并创建 PR
uv run scripts/evaluation_manager.py extract-readme \
  --repo-id "username/model-name" \
  --table 1 \
  --create-pr

# 步骤 4:使用 vLLM 运行 MMLU 评估
uv run scripts/lighteval_vllm_uv.py \
  --model meta-llama/Llama-3.2-1B \
  --tasks "leaderboard|mmlu|5"

下载和安装

下载 hugging-face-evaluation 中文版 Skill ZIP

解压后将目录放入你的 AI 工具 skills 文件夹,重启工具后即可使用。具体路径参考内附的 USAGE.zh.md

你可能还需要

暂无推荐