"多模态" 标签

12 个结果

标签搜索结果

AI与计算

DocsRay

基于RAG和多模态AI的PDF问答系统，提供MCP服务器接口，支持与Claude Desktop等客户端集成。

PDF问答文档理解 RAG系统多模态

AI与计算

Gemini MCP Router

基于Gemini API构建的MCP服务器，提供聊天、搜索、RAG等多种工具，通过路由实现智能上下文服务。

工具路由多模态上下文服务 Gemini API

AI与计算

MiniMax MCP Server (JS)

MiniMax MCP Server (JS) 是一个基于 JavaScript/TypeScript 开发的 MCP 服务器实现，提供文本转语音、图像生成、视频生成和声音克隆等工具，用于扩展 LLM 应用的功能。

文本转语音图像生成视频生成声音克隆

AI与计算

MCPollinations MCP服务器

MCPollinations MCP服务器是一个基于Model Context Protocol的应用后端，它利用Pollinations APIs 为AI助手提供图像、文本和音频生成能力。

图像生成文本生成音频生成 AI助手

AI与计算

OpenRouter多模态MCP服务器

基于OpenRouter.ai的MCP多模态服务器，提供文本聊天和图像分析能力，支持多种模型选择和优化。

多模态图像分析聊天 OpenRouter

AI与计算

OpenRouter 多模态 MCP 服务器

为 Claude 和 Cursor 等 MCP 客户端提供 OpenRouter 多模态能力的 MCP 服务器，支持文本和图像输入。

多模态 OpenRouter 图像分析 Claude

开发者工具

Tyler Agent框架

Tyler是一个用于构建AI代理的Python框架，它兼容MCP协议，支持多模态输入、工具集成和上下文管理，旨在简化生产级AI应用的开发。

AI代理框架多模态工具集成

AI与计算

Mistral AI

该项目是一个基于 Model Context Protocol (MCP) 的服务器示例，它提供工具以便 LLM 客户端调用 Mistral AI 的聊天模型，支持文本和图像输入。

Mistral AI LLM 工具调用上下文服务

网页与API

ScreenshotOne

ScreenshotOne MCP Server是一个基于Model Context Protocol的服务器，提供网页截图工具，允许LLM客户端调用以获取指定URL的网页截图。

网页截图截图服务 Screenshot…工具调用

网页与API

Gemini Search

Gemini Search MCP Server是一个基于Model Context Protocol的服务器，它利用Gemini API和Google搜索为AI助手提供最新的信息检索和文件分析工具，支持文本搜索以及图片、PDF等多模态文件分析。

Gemini API Google Sea…信息检索文件分析

AI与计算

Read Images

一个MCP服务器，通过OpenRouter API和视觉模型（如Claude 3.5），提供图像分析工具，允许LLM客户端分析图像内容。

图像分析视觉模型 OpenRouter 图片理解

AI与计算

TEN Agent

TEN Agent是一个开源的实时会话式AI Agent框架，支持多模态输入，可扩展并易于在本地环境部署 Playground。

AI Agent 实时会话多模态扩展框架