返回首页

"模型评估" 标签

5 个结果

标签搜索结果

AI与计算

LLAMATOR MCP 服务器

用于自动化LLM红队测试的MCP服务器,提供HTTP API和MCP工具两种接口

AI与计算

Launch the Nukes

一个基于Flask的Web应用,用于安全研究,通过模拟MCP工具来评估大型语言模型对恶意提示的响应。

AI与计算

Scorecard MCP 服务器

通过 Model Context Protocol (MCP),使 Claude 等 LLM 客户端能够安全访问 Scorecard 的模型评估工具。

AI与计算

Root Signals MCP Server

Root Signals MCP Server是一个基于MCP协议的服务端实现,旨在将Root Signals的评估器作为工具提供给AI助手,用于评估AI模型的输出质量。

开发者工具

Patronus MCP Server

Patronus MCP Server为LLM应用提供标准化的评估和实验后端服务,支持远程评估器、批量评估和自定义评估流程。