id="demo">

实时评估 · 10维度 · 秒出报告

评估你的
AI Agent

输入你的 Agent 场景，5秒生成全维度诊断报告。无需配置，立即可用。

立即开始评估查看接入方式

运行评估 ● API 正常

快速场景

Agent ID

任务输入

Agent 输出（选填，粘贴输出结果评估更精准）

评估报告

综合评分

—

各维度得分 / 100

✓ 优势维度

↑ 待优化维度

关键问题（按优先级）

进化路径

推荐工具

推荐工作流

维度详情分析

进化路径

你的Agent，距离上岗还有多远？

Tier 1

待优化

综合评分 < 65

单任务基本可用

工具调用偶有错误

需要人类监督

可作为辅助角色

Tier 2

良好

综合评分 65–79

任务完成率高

工具调用基本正确

工作流基本合规

可独立处理标准任务

Tier 3

优秀

综合评分 ≥ 80

全面超越基线

安全对齐、无幻觉

可自主处理复杂任务

直接上岗独立作战

适合场景

战略决策 / 复杂系统设计 / 创新研发

开发者接入

选一个场景，开始接入

不管你是什么背景，3行代码就能跑通第一次评估

5分钟接入

想快速试试

每日迭代

持续追踪进步

CI/CD

提交代码自动跑

Python SDK

3行代码接入

场景1 · 零门槛

刚听说这个平台，想先跑通一次

不需要写代码，不需要装任何东西——直接用 curl 就能完成第一次评估。整个过程不超过5分钟。

✓ 0行Python代码

✓ Linux / Mac / Windows 都能跑

✓ 立刻看到10维度评估结果

curl -X POST https://ai.agentplex.cn/api/v1/profile \
  -H "Content-Type: application/json" \
  -d '{
    "agent_id": "my_first_agent",
    "submission": {
      "task_input": "用户要求2周内上线推荐系统",
      "agent_output": "计划：1.数据准备3天 2.模型训练5天 3.部署上线4天"
    }
  }'

pip install agentforge

from agentforge import Agent
agent = Agent(agent_id="my_first_agent")
result = agent.evaluate_task("用户要求2周内上线推荐系统")
result.print_summary()

学术研究

方法论与国际标准接轨

基于 arXiv / NeurIPS / Anthropic / McKinsey / Scale AI 最新研究，评估体系与学术界同步

arXiv 2025评估框架

Agent Assessment Framework

arXiv:2512.12791 · Dec 2025

4大评估支柱 × 3层分析方法。AgentForge 安全层（幻觉率、安全对齐）直接对标此框架。覆盖认知偏差检测、工具调用安全等核心维度。

阅读原文 →

arXiv 2025系统审评

The Measurement Imbalance in Agentic AI Evaluation

ar5iv:2506.02064 · Jun 2025

系统性审评84篇论文（2023–2025）。83%的评估集中于技术指标，人类中心和安全维度严重缺失。AgentForge 对此做出直接回应。

阅读原文 →

Anthropic工程实践

Demystifying Evals for AI Agents

Anthropic Engineering · Jan 2026

"静态基准已死"——三层评分：Result Quality / Behavioral Quality / Economic Value。深度影响 Agent 的实际工作表现评估方式。

阅读原文 →

Scale AI评估基准

ResearchRubrics

arXiv:2511.07685 · Nov 2025

100+真实研究任务 × 9领域 × 2500+评分标准。覆盖 Factual Accuracy / Reasoning Clarity / Source Credibility。

阅读原文 →

NeurIPS 2025企业基准

TheAgentCompany

NeurIPS · arXiv:2412.14161

企业级Agent评估基准。模拟软件公司工作环境，测试跨应用协调、需求理解、代码审查等PM级任务。

阅读原文 →

McKinsey行业实践

Evaluations for the Agentic World

QuantumBlack · Jan 2026

McKinsey旗下QuantumBlack的Agent评估方法论。提出Trajectory Metrics和Tool Call Correctness。为 Error Recovery 维度提供重要参考基准。

阅读原文 →

常见问题

FAQ

评估标准是公开的吗？

是的。AgentForge的全部10个维度的评分标准、权重、阈值全部公开。任何人都可以通过 GET /api/v1/standard 查看完整Rubric。

接入需要改代码吗？

不需要。如果你的Agent支持HTTP调用，只需调用REST API上报数据即可。我们也提供Python SDK（pip install agentforge），一行代码完成埋点和上报。

评估结果会被用于训练模型吗？

不会。评估数据仅用于生成该次评估报告，不会用于模型训练、基准测试或任何其他用途。我们严格遵守数据隔离原则。

如何确定我的Agent属于哪个Tier？

Tier由综合评分决定：Tier 3（≥80分）优秀，可独立上岗；Tier 2（65-79分）良好，可作为辅助角色参与复杂任务；Tier 1（<65分）待优化，需要在特定维度重点训练。

免费版有次数限制吗？

免费版每月20次评估，足够完成2-3个Agent的基线评估和一次复评。付费版从¥499/月开始，解锁200次/月、AI Judge和团队协作功能。

支持私有部署吗？

支持。企业版（¥1999/月）包含完整私有化部署方案，支持在内网环境运行，数据完全隔离，适合金融、医疗等合规要求严格的行业。

评估你的
AI Agent

你的Agent，距离上岗还有多远？

为什么选择 AgentForge

选一个场景，开始接入

刚听说这个平台，想先跑通一次

每天评估一次，看分数涨了还是跌了

代码提交自动跑，分数低了自动告警

pip install，3行代码完成接入

方法论与国际标准接轨

FAQ

准备好评估你的AI Agent了？