AI Models Directory

AI模型目录

发现和比较全球顶尖公司的最新AI模型。

Providers

AI Models

⚡

Updated Daily

All AI Models (50)

Browse our comprehensive collection of AI models

Model	Provider	Updated
LTX-2 探索 LTX-2 的强大功能，LTX-2 是 story321 上提供的最先进的视频生成模型。使用 LTX-2 体验闪电般的渲染速度、电影般的质量和无与伦比的一致性。	Lightricks	N/A
Qwen Image Edit 探索 Qwen Image Edit 的强大功能，这是一款专为创作者和开发人员设计的基于指令的最先进的图像编辑模型。使用 story321.com 上的自然语言命令精确地转换视觉效果。	Alibaba AI	N/A
Ray 3 使用 Ray 3 解锁内容创作的未来，Ray 3 是 Story321 上提供的最先进的生成式视频模型。体验前所未有的速度、照片级真实感和电影级运动控制。	Luma AI	N/A
Chatterbox Turbo 探索 Chatterbox Turbo 的强大功能，这是一款专为无缝对话式 AI 设计的先进实时语音生成模型。体验超低延迟、媲美人类的逼真度以及无与伦比的应用程序可扩展性。	Resemble AI	N/A
Hunyuan Motion Hunyuan Motion 是一套尖端的文本到 3D 人体动作生成套件，可将自然语言转换为高质量、基于骨骼的角色动画。Hunyuan Motion 构建在十亿参数的 Diffusion Transformer 和 Flow Matching 之上，通过简单的提示到动画工作流程（由 CLI 和 Gradio 支持）提供最先进的指令遵循、流畅的动作和可用于生产的输出。了解更多信息并通过 [github.com](https://github.com/Tencent-Hunyuan/HY-Motion-1.0) 上的官方存储库开始使用。	Tencent Hunyuan AI	N/A
Trellis 一个由 Trellis 驱动的统一、高保真、多格式 3D 资产生成框架	Microsoft AI	N/A
Qwen Image Layered 利用先进的分层架构，转变您分析和处理视觉内容的方式	Alibaba AI	N/A
Sana video Sana video 将高效、高质量的文本到视频和图像到视频生成带到您的浏览器。创建连贯的 720p、16 fps 剪辑，最长可达一分钟，并具有研究支持的性能。在 Story321 上试用 Sana video 并快速发布精美的运动内容。	NVIDIA AI	N/A
Vidu Vidu AI 视频生成器 - 通过文本提示创建最长 16 秒的令人惊艳的高清视频。Vidu 采用清华大学的 U-ViT 架构，将您的想法转化为具有高级物理模拟和电影级镜头运用的高质量 1080p 视频。	Sheng Shu	N/A
Hailuo 体验海螺 2.3 在 AI 视频生成方面的突破，这是 MiniMax 的旗舰模型，可提供前所未有的真实感、运动精度和创作多功能性。	MiniMax AI	N/A
DeepSeek-OCR DeepSeek-OCR 是一款先进的 AI 驱动的光学字符识别模型，能够准确地从 100 多种语言的图像和文档中提取文本，并具有处理复杂布局、手写、图表和数学公式的专业功能。	DeepSeek AI	N/A
LTX Video LTX视频是一种先进的AI视频生成模型，可将文本提示转换为高质量、连贯的视频内容，并具有出色的场景一致性和灵活的风格控制。	Lightricks	N/A
Gemma Gemma 是 Google DeepMind 推出的一系列轻量级开源 AI 模型，可为文本生成、问题解答和各种语言任务提供强大的性能。	Google AI	N/A
Flux AI Black Forest Labs的高级文本到图像AI模型系列，具有超高分辨率、超逼真输出和卓越的提示理解能力。	Black Forest Labs (BFL AI)	N/A
Runway Gen 使用 Runway Gen-3 Alpha 体验视频生成的未来。创建具有前所未有的保真度、一致性和运动质量的高度可控、富有表现力的视频。从照片级真实场景到风格化动画，Gen-3 Alpha 通过先进的导演模式控制和多模式功能提供专业级效果。	Runway (RunwayML / Runway AI)	N/A
Act-One Act-One 是 Runway 的一款 AI 驱动的角色动画工具，它只需一台摄像机即可将简单的视频表演转化为富有表现力的 3D 角色动画，无需复杂的动作捕捉设备。	Runway (RunwayML / Runway AI)	N/A
IndexTTS IndexTTS 是 Bilibili 开发的工业级文本转语音系统，可提供高质量的语音合成，并具有零样本语音克隆、多语言支持和情感控制功能。	Bilibili AI	N/A
Seedance AI Seedance 是 ByteDance 的一款多镜头 AI 视频生成模型，可将文本或图像转换为电影般的、运动一致的视频序列。	ByteDance AI	N/A
Seedream AI Seedream 是字节跳动的下一代 AI 图像生成和编辑模型，它以惊人的速度、逼真度和一致性创建高质量的双语视觉效果。	ByteDance AI	N/A
Ray Ray is an intelligent video generation model by Luma AI that produces cinematic, physics-aware, and multi-view consistent videos from natural language prompts.	Luma AI	N/A
GPT Image GPT Image is an advanced multimodal model that transforms text and image inputs into high-quality, customizable visuals for creative and professional use.	Open AI	N/A
FramePack FramePack 是一种 AI 模型，可压缩视频帧中的时间信息，以实现更流畅、更连贯和更高效的视频生成。	Lvmin Zhang (lllyasviel)	N/A
XTTS XTTS is a multilingual text-to-speech model by Coqui AI that generates lifelike, expressive, and natural voices from text in real time.	Coqui AI	N/A
VGGT VGGT empowers developers and researchers with a single forward pass to predict camera poses, depth maps, point clouds, and more—no external bundle adjustment required.	Meta AI	N/A
SkyReels SkyReels 是一款先进的 AI 视频生成模型，可将文本提示词转换为电影级、逼真的视频剪辑，最长可达 12 秒，并具有专业的摄像机控制和场景连续性。	SkyReels AI	N/A
Avatar IV Avatar IV 是一款先进的 AI 模型，可将文本提示转化为逼真、情感丰富的视频头像，具有自然的运动和语音。	HeyGen AI	N/A
Wan Alpha 万象Alpha是一种先进的文本到视频生成模型，可创建具有透明背景的高质量RGBA视频，以实现无缝的视觉效果和合成。	Alibaba AI	N/A
Sora Sora 2 通过从简单的文本描述创建具有同步音频的令人惊叹的照片级真实感视频，将您的想象力变为现实。体验 OpenAI 最先进的 AI 模型的视频创作未来，该模型具有突破性的物理模拟、多镜头功能，甚至可以通过客串功能在您自己的 AI 生成视频中担任主角。	Open AI	N/A
GLM GLM-4.6 is Zhipu AI's flagship model with 355B total parameters and 32B activated parameters. It delivers exceptional coding capabilities rivaling Claude Sonnet 4, features a 200K context window for handling complex tasks, enhanced intelligent search, and superior multilingual translation. Designed for developers, enterprises, and creators seeking cutting-edge AI performance.	Zhipu AI	N/A
Hunyuan 3D 使用腾讯革命性的Hunyuan 3D，将您的想法和图像转化为令人惊叹的、生产就绪的3D资产。它具有先进的扩散模型、专业的纹理合成以及用于游戏开发、产品设计和数字艺术的无缝工作流程集成。	Tencent Hunyuan AI	N/A
Hunyuan Image Hunyuan Image 3.0 transforms your ideas into stunning, photorealistic images with unprecedented prompt adherence and intelligent reasoning. Powered by 80B parameters and 64 experts MoE architecture, it delivers exceptional semantic accuracy and visual excellence. Experience the future of AI image generation with native multimodal understanding.	Tencent Hunyuan AI	N/A
Hunyuan Video Generator Hunyuan Video transforms your text descriptions into stunning, high-quality videos with exceptional physical accuracy and temporal consistency. Powered by a 13B parameter Unified Diffusion Transformer architecture, it generates up to 5-second videos at 720p resolution with superior motion dynamics and visual fidelity. Experience the future of video creation with advanced Flow Matching schedulers and parallel inference capabilities.	Tencent Hunyuan AI	N/A
Kling AI 以空前的速度和创意控制创建电影级视频。Kling 2.5 Turbo 提供电影级的清晰度、物理感知的运动以及独特的特性，例如起始/结束帧，用于无缝叙事。	KuaiShou AI	N/A
Gemini Google Gemini is Google’s flagship multimodal AI model that seamlessly understands text, images, audio, and video to deliver enterprise-grade reasoning and automation.	Google AI	N/A
Veo Veo 3.1 is Google DeepMind's flagship AI video generator delivering 4K visuals, native audio, and precise creative controls.	Google AI	N/A
Minimax Music Explore Minimax Music—your gateway to groundbreaking music experiences, events, and artists. Discover releases, join events, and connect with the Minimax Music community.	MiniMax AI	N/A
使用混元 Gamecraft 释放您的游戏开发潜力生成游戏创意、故事情节、代码等。增强您的游戏开发工作流程。		N/A
Nano Banana - 使用人工智能将文字转化为令人惊叹的图像使用 Nano Banana 体验下一代 AI 图像创建。从角色一致性到无缝的视觉故事讲述，Nano Banana 重新定义了 AI 的可能性。开始在几秒钟内生成和编辑图像。	Google AI	N/A
使用 Runway Act-One 生成令人惊叹的视频将文本、图像和视频转化为令人叹为观止的电影体验。		N/A
使用 Eleven Music 释放您的创造力：AI 驱动的音乐生成创作任何类型的免版税音乐。非常适合创作者、企业和艺术家。		N/A
使用 GPT-OSS 释放无限潜力以无与伦比的灵活性定制、控制和部署 GPT 模型。	Open AI	N/A
使用 Genie 3 构建交互式世界从图像和视频创建可控环境。释放您的想象力。	Google AI	N/A
使用 OmniHuman 释放逼真的 3D 头像创建可控的、栩栩如生的数字人。可访问的代码、模型和数据集。	ByteDance AI	N/A
释放您的视野：Qwen Image 系列介绍使用无与伦比的 AI 生成、理解和转换图像。为下一代视觉应用程序提供动力。	Alibaba AI	N/A
使用完美的表意文字符生成令人惊叹的视觉效果制作具有完美文本的图像。通过AI驱动的字符生成释放您的创造力。	Ideogram AI	N/A
使用 Runway Aleph 轻松生成令人惊叹的视频释放您的创造力。从文本、图像等生成高质量视频。	Runway (RunwayML / Runway AI)	N/A
使用 Grok Imagine 释放您的想象力以无与伦比的速度和创造性控制生成令人惊叹的视觉效果。	xAI	N/A
使用 Openvoice 即时克隆任何声音通过多语言支持和惊人的准确性解锁无与伦比的语音克隆。		N/A
使用 FLUX.1 Krea 释放无限创意从文本生成令人惊叹的视觉效果。更快的工作流程，无与伦比的艺术控制。		N/A
使用 Higgs Audio 解锁声音的力量构建前沿音频 AI。快速特征提取，无缝 ML 集成。		N/A

LTX-2

探索 LTX-2 的强大功能，LTX-2 是 story321 上提供的最先进的视频生成模型。使用 LTX-2 体验闪电般的渲染速度、电影般的质量和无与伦比的一致性。

Lightricks

N/A

Qwen Image Edit

探索 Qwen Image Edit 的强大功能，这是一款专为创作者和开发人员设计的基于指令的最先进的图像编辑模型。使用 story321.com 上的自然语言命令精确地转换视觉效果。

Alibaba AI

N/A

Ray 3

使用 Ray 3 解锁内容创作的未来，Ray 3 是 Story321 上提供的最先进的生成式视频模型。体验前所未有的速度、照片级真实感和电影级运动控制。

Luma AI

N/A

Chatterbox Turbo

探索 Chatterbox Turbo 的强大功能，这是一款专为无缝对话式 AI 设计的先进实时语音生成模型。体验超低延迟、媲美人类的逼真度以及无与伦比的应用程序可扩展性。

Resemble AI

N/A

Hunyuan Motion

Hunyuan Motion 是一套尖端的文本到 3D 人体动作生成套件，可将自然语言转换为高质量、基于骨骼的角色动画。Hunyuan Motion 构建在十亿参数的 Diffusion Transformer 和 Flow Matching 之上，通过简单的提示到动画工作流程（由 CLI 和 Gradio 支持）提供最先进的指令遵循、流畅的动作和可用于生产的输出。了解更多信息并通过 [github.com](https://github.com/Tencent-Hunyuan/HY-Motion-1.0) 上的官方存储库开始使用。

Tencent Hunyuan AI

N/A

Trellis

一个由 Trellis 驱动的统一、高保真、多格式 3D 资产生成框架

Microsoft AI

N/A

Qwen Image Layered

利用先进的分层架构，转变您分析和处理视觉内容的方式

Alibaba AI

N/A

Sana video

Sana video 将高效、高质量的文本到视频和图像到视频生成带到您的浏览器。创建连贯的 720p、16 fps 剪辑，最长可达一分钟，并具有研究支持的性能。在 Story321 上试用 Sana video 并快速发布精美的运动内容。

NVIDIA AI

N/A

Vidu

Vidu AI 视频生成器 - 通过文本提示创建最长 16 秒的令人惊艳的高清视频。Vidu 采用清华大学的 U-ViT 架构，将您的想法转化为具有高级物理模拟和电影级镜头运用的高质量 1080p 视频。

Sheng Shu

N/A

Hailuo

体验海螺 2.3 在 AI 视频生成方面的突破，这是 MiniMax 的旗舰模型，可提供前所未有的真实感、运动精度和创作多功能性。

MiniMax AI

N/A

DeepSeek-OCR

DeepSeek-OCR 是一款先进的 AI 驱动的光学字符识别模型，能够准确地从 100 多种语言的图像和文档中提取文本，并具有处理复杂布局、手写、图表和数学公式的专业功能。

DeepSeek AI

N/A

LTX Video

LTX视频是一种先进的AI视频生成模型，可将文本提示转换为高质量、连贯的视频内容，并具有出色的场景一致性和灵活的风格控制。

Lightricks

N/A

Gemma

Gemma 是 Google DeepMind 推出的一系列轻量级开源 AI 模型，可为文本生成、问题解答和各种语言任务提供强大的性能。

Google AI

N/A

Flux AI

Black Forest Labs的高级文本到图像AI模型系列，具有超高分辨率、超逼真输出和卓越的提示理解能力。

Black Forest Labs (BFL AI)

N/A

Runway Gen

使用 Runway Gen-3 Alpha 体验视频生成的未来。创建具有前所未有的保真度、一致性和运动质量的高度可控、富有表现力的视频。从照片级真实场景到风格化动画，Gen-3 Alpha 通过先进的导演模式控制和多模式功能提供专业级效果。

Runway (RunwayML / Runway AI)

N/A

Act-One

Act-One 是 Runway 的一款 AI 驱动的角色动画工具，它只需一台摄像机即可将简单的视频表演转化为富有表现力的 3D 角色动画，无需复杂的动作捕捉设备。

Runway (RunwayML / Runway AI)

N/A

IndexTTS

IndexTTS 是 Bilibili 开发的工业级文本转语音系统，可提供高质量的语音合成，并具有零样本语音克隆、多语言支持和情感控制功能。

Bilibili AI

N/A

Seedance AI

Seedance 是 ByteDance 的一款多镜头 AI 视频生成模型，可将文本或图像转换为电影般的、运动一致的视频序列。

ByteDance AI

N/A

Seedream AI

Seedream 是字节跳动的下一代 AI 图像生成和编辑模型，它以惊人的速度、逼真度和一致性创建高质量的双语视觉效果。

ByteDance AI

N/A

Ray

Ray is an intelligent video generation model by Luma AI that produces cinematic, physics-aware, and multi-view consistent videos from natural language prompts.

Luma AI

N/A

GPT Image

GPT Image is an advanced multimodal model that transforms text and image inputs into high-quality, customizable visuals for creative and professional use.

Open AI

N/A

FramePack

FramePack 是一种 AI 模型，可压缩视频帧中的时间信息，以实现更流畅、更连贯和更高效的视频生成。

Lvmin Zhang (lllyasviel)

N/A

XTTS

XTTS is a multilingual text-to-speech model by Coqui AI that generates lifelike, expressive, and natural voices from text in real time.

Coqui AI

N/A

VGGT

VGGT empowers developers and researchers with a single forward pass to predict camera poses, depth maps, point clouds, and more—no external bundle adjustment required.

Meta AI

N/A

SkyReels

SkyReels 是一款先进的 AI 视频生成模型，可将文本提示词转换为电影级、逼真的视频剪辑，最长可达 12 秒，并具有专业的摄像机控制和场景连续性。

SkyReels AI

N/A

Avatar IV

Avatar IV 是一款先进的 AI 模型，可将文本提示转化为逼真、情感丰富的视频头像，具有自然的运动和语音。

HeyGen AI

N/A

Wan Alpha

万象Alpha是一种先进的文本到视频生成模型，可创建具有透明背景的高质量RGBA视频，以实现无缝的视觉效果和合成。

Alibaba AI

N/A

Sora

Sora 2 通过从简单的文本描述创建具有同步音频的令人惊叹的照片级真实感视频，将您的想象力变为现实。体验 OpenAI 最先进的 AI 模型的视频创作未来，该模型具有突破性的物理模拟、多镜头功能，甚至可以通过客串功能在您自己的 AI 生成视频中担任主角。

Open AI

N/A

GLM

GLM-4.6 is Zhipu AI's flagship model with 355B total parameters and 32B activated parameters. It delivers exceptional coding capabilities rivaling Claude Sonnet 4, features a 200K context window for handling complex tasks, enhanced intelligent search, and superior multilingual translation. Designed for developers, enterprises, and creators seeking cutting-edge AI performance.

Zhipu AI

N/A

Hunyuan 3D

使用腾讯革命性的Hunyuan 3D，将您的想法和图像转化为令人惊叹的、生产就绪的3D资产。它具有先进的扩散模型、专业的纹理合成以及用于游戏开发、产品设计和数字艺术的无缝工作流程集成。

Tencent Hunyuan AI

N/A

Hunyuan Image

Hunyuan Image 3.0 transforms your ideas into stunning, photorealistic images with unprecedented prompt adherence and intelligent reasoning. Powered by 80B parameters and 64 experts MoE architecture, it delivers exceptional semantic accuracy and visual excellence. Experience the future of AI image generation with native multimodal understanding.

Tencent Hunyuan AI

N/A

Hunyuan Video Generator

Hunyuan Video transforms your text descriptions into stunning, high-quality videos with exceptional physical accuracy and temporal consistency. Powered by a 13B parameter Unified Diffusion Transformer architecture, it generates up to 5-second videos at 720p resolution with superior motion dynamics and visual fidelity. Experience the future of video creation with advanced Flow Matching schedulers and parallel inference capabilities.

Tencent Hunyuan AI

N/A

Kling AI

以空前的速度和创意控制创建电影级视频。Kling 2.5 Turbo 提供电影级的清晰度、物理感知的运动以及独特的特性，例如起始/结束帧，用于无缝叙事。

KuaiShou AI

N/A

Gemini

Google Gemini is Google’s flagship multimodal AI model that seamlessly understands text, images, audio, and video to deliver enterprise-grade reasoning and automation.

Google AI

N/A

Veo

Veo 3.1 is Google DeepMind's flagship AI video generator delivering 4K visuals, native audio, and precise creative controls.

Google AI

N/A

Minimax Music

Explore Minimax Music—your gateway to groundbreaking music experiences, events, and artists. Discover releases, join events, and connect with the Minimax Music community.

MiniMax AI

N/A