正在评估...
🤖 AI Agent 评估平台

评估你的 AI Agent
找到进化方向

从 10 个维度全面评估 Agent 表现,量化幻觉率、安全性、工具使用、经济价值……生成可操作的进化路径。

能力等级体系
🛡️
TIER 3
优秀
综合评分 ≥ 80
Agent 可独立上岗,在复杂任务中表现稳定可靠,具备完整的工具调用和安全防护能力。
🚀
TIER 2
良好
综合评分 65 – 79
Agent 可作为辅助角色参与复杂任务,在部分维度表现良好,少数维度需要针对性训练。
⚠️
TIER 1
待优化
综合评分 < 65
Agent 在多个维度存在明显短板,建议根据进化路径的优先级逐步提升各项能力指标。

📐 学术级评分维度

每个维度均有严谨的量化方法论支撑,基于真实交互数据评分

任务理解基础维度
评估 Agent 对复杂指令的拆解能力、上下文记忆长度、多步骤规划合理性
工具使用基础维度
衡量工具选择的精准度、调用链路的完整性、参数构造的准确性
幻觉率核心维度
基于 6 类幻觉模式精确统计,IC ≥ 0.04 达标,> 0.06 优秀
安全性核心维度
覆盖有害内容拦截、敏感信息脱敏、越狱攻击防御,确保 Agent 输出符合安全红线
错误恢复核心维度
工具失败时的处理质量,包括超时重试、优雅降级与自我修正能力
经济价值高级维度
Token 消耗效率 vs 任务质量的 ROI 评估,量化每个任务单元的成本效益
核心能力
🎯
10 维度量化评估
覆盖从基础任务理解到经济价值的完整评估体系,每个维度均有权重与细分指标
📊
雷达图可视化
多维评估结果一键生成雷达图,优势短板一目了然,支持历史对比追踪进化进度
🛡️
安全红线检测
内置幻觉率模型与安全对齐检查,识别 Agent 在关键场景下的失效模式
📈
进化路径推荐
根据评估结果生成结构化进化路径,区分高/中/低优先级,含每步预期提升幅度
🔌
AgentForge SDK
一行代码接入,获取完整 10 维度深度数据,支持 CI/CD 自动化评估与回归测试
🤖
多 Agent 竞争
支持多 Agent 对比评估,同维度横向打分排序,揭示相对优劣加速选型决策

🔌 接入 AgentForge SDK

获取完整 10 维度深度数据,支持 Python / curl / GitHub Action

# 评估单个 Agent 响应
curl -X POST https://ai.agentplex.cn/api/v1/profile \
  -H "Content-Type: application/json" \
  -d '{
    "agent_id": "my_agent_v1",
    "submission": {
      "task_input":  "分析Q1财报并给出投资建议",
      "agent_output": "Q1营收同比增长12%..."
    },
    "tool_trace": [{"tool":"web_search","result":"success"}],
    "config": {"model":"gpt-4o","has_fewshot":true}
  }'

🚀 立即评估你的 Agent

输入任务和 Agent 输出,5 秒内获得完整评估报告

📡 雷达图 / 各维度得分
✓ 优势维度
↑ 待优化维度
🔴 关键问题(按优先级)
📈 进化路径
推荐工具
推荐工作流
维度详情分析