实时评估 · 10维度 · 秒出报告

评估你的
AI Agent

3行代码完成首次评估。10维度分析,秒出报告,立即知道你的Agent距离上岗还有多远。

运行评估 ● API 正常
快速场景
Agent ID
任务输入
Agent 输出
评估报告
综合评分
各维度得分 / 100
✓ 优势维度
↑ 待优化维度
🔴 关键问题(按优先级)
📈 进化路径
推荐工具
推荐工作流
维度详情分析
10
独立评估维度,覆盖任务完成到安全的完整链路
<50ms
快速评估响应,适合CI/CD和日常迭代
3
行代码完成首次评估,无门槛接入
3
个Tier等级,透明进化路径
进化路径

你的Agent,距离上岗还有多远?

Tier 1
待优化
综合评分 < 65
单任务基本可用
工具调用偶有错误
需要人类监督
可作为辅助角色
Tier 2
良好
综合评分 65–79
任务完成率高
工具调用基本正确
工作流基本合规
可独立处理标准任务
Tier 3
优秀
综合评分 ≥ 80
全面超越基线
安全对齐、无幻觉
可自主处理复杂任务
直接上岗独立作战
适合场景
战略决策 / 复杂系统设计 / 创新研发
核心对比

为什么选择 AgentForge

评估维度
手动评估
通用AI评分
AgentForge
评估维度
1-2个主观维度
单维度评分
10个独立维度
评分标准
不透明,因人而异
黑盒,无法验证
标准公开,完全可查
进化建议
无结构化建议
通用反馈
按维度优先级建议
评估速度
数小时
分钟级
秒级
Tier体系
Tier 1/2/3完整体系
雷达图
基础展示
多维度雷达+动画
API接入
REST
REST + SDK + Webhook
开发者接入

选一个场景,开始接入

不管你是什么背景,3行代码就能跑通第一次评估

5分钟接入
想快速试试
每日迭代
持续追踪进步
CI/CD
提交代码自动跑
Python SDK
3行代码接入
场景1 · 零门槛

刚听说这个平台,想先跑通一次

不需要写代码,不需要装任何东西——直接用 curl 就能完成第一次评估。整个过程不超过5分钟。

0行Python代码
Linux / Mac / Windows 都能跑
立刻看到10维度评估结果
curl -X POST https://ai.agentplex.cn/api/v1/profile \
  -H "Content-Type: application/json" \
  -d '{
    "agent_id": "my_first_agent",
    "submission": {
      "task_input": "用户要求2周内上线推荐系统",
      "agent_output": "计划:1.数据准备3天 2.模型训练5天 3.部署上线4天"
    }
  }'
学术研究

方法论与国际标准接轨

基于 arXiv / NeurIPS / Anthropic / McKinsey / Scale AI 最新研究,评估体系与学术界同步

arXiv 2025评估框架
Agent Assessment Framework
arXiv:2512.12791 · Dec 2025
4大评估支柱 × 3层分析方法。AgentForge 安全层(幻觉率、安全对齐)直接对标此框架。覆盖认知偏差检测、工具调用安全等核心维度。
阅读原文 →
arXiv 2025系统审评
The Measurement Imbalance in Agentic AI Evaluation
ar5iv:2506.02064 · Jun 2025
系统性审评84篇论文(2023–2025)。83%的评估集中于技术指标,人类中心和安全维度严重缺失。AgentForge 对此做出直接回应。
阅读原文 →
Anthropic工程实践
Demystifying Evals for AI Agents
Anthropic Engineering · Jan 2026
"静态基准已死"——三层评分:Result Quality / Behavioral Quality / Economic Value。深度影响 Agent 的实际工作表现评估方式。
阅读原文 →
Scale AI评估基准
ResearchRubrics
arXiv:2511.07685 · Nov 2025
100+真实研究任务 × 9领域 × 2500+评分标准。覆盖 Factual Accuracy / Reasoning Clarity / Source Credibility。
阅读原文 →
NeurIPS 2025企业基准
TheAgentCompany
NeurIPS · arXiv:2412.14161
企业级Agent评估基准。模拟软件公司工作环境,测试跨应用协调、需求理解、代码审查等PM级任务。
阅读原文 →
McKinsey行业实践
Evaluations for the Agentic World
QuantumBlack · Jan 2026
McKinsey旗下QuantumBlack的Agent评估方法论。提出Trajectory Metrics和Tool Call Correctness。为 Error Recovery 维度提供重要参考基准。
阅读原文 →
常见问题

FAQ

准备好评估你的AI Agent了?

3行代码,秒出10维度报告

立即开始评估 →
Created by MiniMax Agent
×