Google DeepMind 发布 Lyria 3，多模态音乐生成能力接入 Gemini 与 Vertex AI

2026-02-19

592 词

标题：Google DeepMind 发布 Lyria 3，多模态音乐生成能力接入 Gemini 与 Vertex AI

DeepMind 推出第三代高保真音乐生成大模型 Lyria 3，首次实现“图/文/视频到音频”的直连生成，并同步作为可编程基础设施开放 API。

架构与多模态生成能力

Lyria 3 突破了单一文本输入的限制，支持基于自然语言、图片及视频直接输出 30 秒高保真（48kHz）音频。模型原生具备自动作词与和弦编排能力，用户可通过 Prompt 对流派、BPM（节奏）、人声声线及情绪张力进行细粒度控制。底层采用 Causal Streaming（因果流）架构，确保生成速度大于播放速度（RTF > 1），满足生产级系统的实时吞吐需求。在 Gemini 应用内，系统自动调用 Nano Banana 图像模型为生成的音轨输出定制化单曲封面。

商业与开发生态双线接入

消费者端：以“Music”工具面板形式全量接入 Gemini Web 及移动端，首批支持英语、德语、日语等 8 种语言。Google AI Plus/Pro/Ultra 订阅用户享有比基础免费用戶更高的生成额度。
开发者端：通过 Vertex AI 提供 API 接口，标志着音频生成正式被作为可编程基础设施对待。开发者可进行进阶操作，如音频转换（哼唱转管弦乐）、MIDI 风格迁移（通过 MIDI 和弦生成人声合唱）及保持原始旋律的乐器无缝替换。

最新文章

标签

分类

归档

Google DeepMind 发布 Lyria 3，多模态音乐生成能力接入 Gemini 与 Vertex AI

标题：Google DeepMind 发布 Lyria 3，多模态音乐生成能力接入 Gemini 与 Vertex AI

架构与多模态生成能力

商业与开发生态双线接入

最新文章

标签

分类

归档

标题：Google DeepMind 发布 Lyria 3，多模态音乐生成能力接入 Gemini 与 Vertex AI

架构与多模态生成能力

商业与开发生态双线接入

搜索文章