如何自动化管理 Hugging Face 模型卡的评估结果

解决模型发布中手动填写评估数据的繁琐问题：利用 AI 自动从 README 提取、从 Artificial Analysis 导入或通过 vLLM/lighteval 运行评估，并将结果标准化为 model-index 格式更新至模型卡。

为什么需要这个技能

在发布大模型时，将评估结果（Benchmarks）以结构化形式写入模型卡（Model Card）对于模型可见度和排行榜（Leaderboard）集成至关重要。然而，手动将 Markdown 表格转换为特定的 YAML 元数据格式不仅低效，而且极易出错。

本技能提供了一套完整的自动化工具链，能够直接解析 README 表格、调用 API 获取权威基准分，甚至在 GPU 环境下自动运行模型评估，确保模型卡的评估数据实时、准确且符合 Papers with Code 等规范。

适用场景

快速同步数据：模型 README 中已有评估表格，需要将其转化为结构化元数据。
导入权威分数：需要从 Artificial Analysis 等第三方平台直接同步基准测试结果。
自动化评测：在本地或 HF Jobs 上使用 vLLM 或 lighteval 运行自定义模型评估并回写结果。
批量维护：为多个模型版本快速创建更新评估结果的 Pull Request (PR)。

核心工作流

1. 提取与导入

README 提取：通过 inspect-tables 预览表格 $\to$ 使用 extract-readme 指定表格索引 $\to$ 预览 YAML $\to$ 使用 --apply 或 --create-pr 提交。
API 导入：配置 AA_API_KEY $\to$ 运行 import-aa 指定模型 slug $\to$ 自动生成模型索引。

2. 运行定制评估

vLLM 加速：利用 vLLM 后端运行 lighteval 或 inspect-ai 框架，实现比标准 HF 方式快 5-10 倍的推理速度。
硬件调度：通过 run_vllm_eval_job.py 根据模型大小（如 3B, 70B）自动选择合适的 GPU 实例（T4, A10G, A100）。

3. 安全提交机制

PR 检查：在执行 --create-pr 前，必须运行 get-prs 检查是否存在未合并的 PR，防止重复提交干扰维护者。

核心命令示例

# 步骤 1：检查已有 PR
uv run scripts/evaluation_manager.py get-prs --repo-id "username/model-name"

# 步骤 2：分析 README 中的表格结构
uv run scripts/evaluation_manager.py inspect-tables --repo-id "username/model-name"

# 步骤 3：提取特定表格并创建 PR
uv run scripts/evaluation_manager.py extract-readme \
  --repo-id "username/model-name" \
  --table 1 \
  --create-pr

# 步骤 4：使用 vLLM 运行 MMLU 评估
uv run scripts/lighteval_vllm_uv.py \
  --model meta-llama/Llama-3.2-1B \
  --tasks "leaderboard|mmlu|5"

下载和安装

下载 hugging-face-evaluation 中文版 Skill ZIP

解压后将目录放入你的 AI 工具 skills 文件夹，重启工具后即可使用。具体路径参考内附的 USAGE.zh.md。

你可能还需要

暂无推荐

如何自动化管理 Hugging Face 模型卡的评估结果 #

为什么需要这个技能 #

适用场景 #

核心工作流 #

1. 提取与导入 #

2. 运行定制评估 #

3. 安全提交机制 #

核心命令示例 #

下载和安装 #

你可能还需要 #