返回首页

"多模态" 标签

12 个结果

标签搜索结果

AI与计算

DocsRay

基于RAG和多模态AI的PDF问答系统,提供MCP服务器接口,支持与Claude Desktop等客户端集成。

AI与计算

Gemini MCP Router

基于Gemini API构建的MCP服务器,提供聊天、搜索、RAG等多种工具,通过路由实现智能上下文服务。

AI与计算

MiniMax MCP Server (JS)

MiniMax MCP Server (JS) 是一个基于 JavaScript/TypeScript 开发的 MCP 服务器实现,提供文本转语音、图像生成、视频生成和声音克隆等工具,用于扩展 LLM 应用的功能。

AI与计算

MCPollinations MCP服务器

MCPollinations MCP服务器是一个基于Model Context Protocol的应用后端,它利用Pollinations APIs 为AI助手提供图像、文本和音频生成能力。

AI与计算

OpenRouter多模态MCP服务器

基于OpenRouter.ai的MCP多模态服务器,提供文本聊天和图像分析能力,支持多种模型选择和优化。

AI与计算

OpenRouter 多模态 MCP 服务器

为 Claude 和 Cursor 等 MCP 客户端提供 OpenRouter 多模态能力的 MCP 服务器,支持文本和图像输入。

开发者工具

Tyler Agent框架

Tyler是一个用于构建AI代理的Python框架,它兼容MCP协议,支持多模态输入、工具集成和上下文管理,旨在简化生产级AI应用的开发。

AI与计算

Mistral AI

该项目是一个基于 Model Context Protocol (MCP) 的服务器示例,它提供工具以便 LLM 客户端调用 Mistral AI 的聊天模型,支持文本和图像输入。

网页与API

ScreenshotOne

ScreenshotOne MCP Server是一个基于Model Context Protocol的服务器,提供网页截图工具,允许LLM客户端调用以获取指定URL的网页截图。

网页与API

Gemini Search

Gemini Search MCP Server是一个基于Model Context Protocol的服务器,它利用Gemini API和Google搜索为AI助手提供最新的信息检索和文件分析工具,支持文本搜索以及图片、PDF等多模态文件分析。

AI与计算

Read Images

一个MCP服务器,通过OpenRouter API和视觉模型(如Claude 3.5),提供图像分析工具,允许LLM客户端分析图像内容。

AI与计算

TEN Agent

TEN Agent是一个开源的实时会话式AI Agent框架,支持多模态输入,可扩展并易于在本地环境部署 Playground。