如何自动化管理 Hugging Face 模型卡的评估结果
解决模型发布中手动填写评估数据的繁琐问题:利用 AI 自动从 README 提取、从 Artificial Analysis 导入或通过 vLLM/lighteval 运行评估,并将结果标准化为 model-index 格式更新至模型卡。
为什么需要这个技能
在发布大模型时,将评估结果(Benchmarks)以结构化形式写入模型卡(Model Card)对于模型可见度和排行榜(Leaderboard)集成至关重要。然而,手动将 Markdown 表格转换为特定的 YAML 元数据格式不仅低效,而且极易出错。
本技能提供了一套完整的自动化工具链,能够直接解析 README 表格、调用 API 获取权威基准分,甚至在 GPU 环境下自动运行模型评估,确保模型卡的评估数据实时、准确且符合 Papers with Code 等规范。
适用场景
- 快速同步数据:模型 README 中已有评估表格,需要将其转化为结构化元数据。
- 导入权威分数:需要从 Artificial Analysis 等第三方平台直接同步基准测试结果。
- 自动化评测:在本地或 HF Jobs 上使用 vLLM 或 lighteval 运行自定义模型评估并回写结果。
- 批量维护:为多个模型版本快速创建更新评估结果的 Pull Request (PR)。
核心工作流
1. 提取与导入
- README 提取:通过
inspect-tables预览表格使用 extract-readme指定表格索引预览 YAML 使用 --apply或--create-pr提交。 - API 导入:配置
AA_API_KEY运行 import-aa指定模型 slug自动生成模型索引。
2. 运行定制评估
- vLLM 加速:利用 vLLM 后端运行
lighteval或inspect-ai框架,实现比标准 HF 方式快 5-10 倍的推理速度。 - 硬件调度:通过
run_vllm_eval_job.py根据模型大小(如 3B, 70B)自动选择合适的 GPU 实例(T4, A10G, A100)。
3. 安全提交机制
- PR 检查:在执行
--create-pr前,必须运行get-prs检查是否存在未合并的 PR,防止重复提交干扰维护者。
核心命令示例
# 步骤 1:检查已有 PR
uv run scripts/evaluation_manager.py get-prs --repo-id "username/model-name"
# 步骤 2:分析 README 中的表格结构
uv run scripts/evaluation_manager.py inspect-tables --repo-id "username/model-name"
# 步骤 3:提取特定表格并创建 PR
uv run scripts/evaluation_manager.py extract-readme \
--repo-id "username/model-name" \
--table 1 \
--create-pr
# 步骤 4:使用 vLLM 运行 MMLU 评估
uv run scripts/lighteval_vllm_uv.py \
--model meta-llama/Llama-3.2-1B \
--tasks "leaderboard|mmlu|5"
下载和安装
下载 hugging-face-evaluation 中文版 Skill ZIP
解压后将目录放入你的 AI 工具 skills 文件夹,重启工具后即可使用。具体路径参考内附的 USAGE.zh.md。
你可能还需要
暂无推荐