直播网友AI写歌征婚，实测音乐SOTA模型：免费无限次，一键生成

　　金磊发自凹非寺

　　量子位公众号 QbitAI

　　继 Suno、Udio 带火 AI 音乐生成大模型之后，第一个国产“音乐版 Sora”，终于来了！

　　话不多说，直接“开箱”听效果，看看到底怎么事。

　　我们开始就上一下难度，让它根据《高速运转的机械》这个网络段子来做首个歌。

　　地址：https://mp.weixin.qq.com/s/Y6KLGt5NoUTNlfOvIT2Dog

　　这个任务的难度在于，所有的文字并非是歌词那般押韵、工整，并且逻辑也比较混乱。

　　AI 先是采用男声 Rap 的方式把气场打开，中间还夹带了一小段方言，最后女声演唱部分的音乐也是颇有“黄龙江一派”的气势。

　　嗯，熟悉的画面这不就来了。

　　若是让它爆改一下文字较为工整的古诗词，AI 又该如何接招？

　　有请李清照的《声声慢》：

　　地址：https://mp.weixin.qq.com/s/Y6KLGt5NoUTNlfOvIT2Dog

　　这段音乐整体是现代风格，先是有一段男声 Rap，咬字和节奏感上依旧是比较过关。

　　但最令人意想不到的是，在第 23 秒的时候，AI 直接来了个峰回路转，直接“杀”进了女声，音乐的情绪也放慢了下来，颇有“怎一个愁字了得”的意味。

　　当然，用粤语、英语演唱抒情歌曲，这个 AI 也是不在话下，甚至连颤音、和声、和弦都能生成得惟妙惟肖：

　　地址：https://mp.weixin.qq.com/s/Y6KLGt5NoUTNlfOvIT2Dog

　　而已经体验过 Suno 等产品的小伙伴可以听出来，这个 AI 在处理中文的时候是拿捏得比较自然的。

　　那么这个国产“音乐版 Sora”，到底是什么来头？

　　不卖关子，它就是由昆仑万维在 4 月 17 日正式发布的天工 SkyMusic，划重点：完全免费，无次数限制！

　　效果听起来还算不错，那么操作上是否会很麻烦呢？不，巨简单。

　　简单 2 步就能做首歌

　　目前，SkyMusic 已经集成到了手机上的天工 APP，入口就在主页顶部的“音乐”一栏中。

　　要想生成刚才那样的音乐，只需点击“开始写歌”就可以了。

　　在接下来的界面中，正如上文所言，你只要执行 2 个操作即可：

填写歌词（300 字内）选择参考曲目

　　如果在写歌词的过程中没有灵感，你还可以通过“AI 写词”的功能让大模型给你帮忙哦~

　　最后，点击底部的“生成歌曲”按钮，大约 1 到 2 分钟左右（亲测），就会出结果了。

　　而且还不是只有 1 首，是直接给到3 个完全不同的版本！

　　除此之外，在天工 APP“音乐”栏目的下方，也有展示用户筛出来的 AI 作品。

　　如果你在听完某首歌曲之后觉得效果不错，也想尝试生成类似风格的音乐，可以点击旁边的“做同款”按钮，只需填写歌词就能再生成一首不一样的歌曲了。

　　从目前的结果来看，天工 SkyMusic 可以支持生成80 秒左右时长的歌曲；不过一个好消息是，昆仑万维表示马上就会开放 3 分钟版本了~

　　而也正如刚才所言，天工 SkyMusic 是国内首个“音乐版 Sora”，并且也取得了不错的效果。

　　如此又快又稳，昆仑万维又是如何做到的呢？

　　全球首个公开的技术路线

　　在 AI 生成音乐这件事上，即使是像 Suno、Udio 这样掀起热潮的玩家，也同 Sora 一样，并没有公开其背后的技术细节内容。

　　但值得一提的是，昆仑万维此次不仅是把 AI 生成音乐的产品给发布出来这么简单，更是做到了在技术上的“全球首家公开”。

　　在聊 SkyMusic 关键技术之前，我们需要了解的是，AI 音乐生成从技术角度来看，可以分为两大流派：

符号音乐生成路线大模型音乐音频生成路线

　　符号音乐生成比较典型的技术就是 MIDI（Musical Instrument Digital Interface，乐器数字接口），通常需要先对大量的乐谱做标注的工作，再对模型进行训练。

　　其结果最后得到是乐谱，而并非是真正意义上的音乐，还需要其它的工具来对乐谱做“善后”的工作。

　　虽然此前学术界也尝试了在 MIDI 这样的技术基础上，后期加入人声、乐器、旋律、音色等元素，但所得到的结果并不是非常理想。

　　而天工 SkyMusic 选择的大模型音乐音频生成，则是与之截然相反的技术路线——

　　是通过直接地学习来生成音频波形，并做到把乐器、人声、旋律、音量、音符等等元素都“一锅出”。但这条路线需要大量的研发投入和资金支持，让大多数人望而却步。即使强如 Google、Meta 等科技巨头，目前也没有发布在这条路线上的突破性成果。

　　同时，这条路线又分为 Song、BGM、Speach 三个细分领域；由于行业内普遍都在研究无人声的 BGM 领域，导致行业内对有人声的 Song 领域近乎没有很好的解决方案，更没有开源的方案可借鉴。

　　也正因如此，音乐届的“Sora 时刻”才会来得比图像和视频更晚一些。

　　为了解决这两个老大难的问题，昆仑万维自研出一套架构来解决，它主要由 Encoder、DiT 和 Decoder 三个模块组成

　　具体而言，其采用的架构可视为音乐音频领域的类 Sora 模型：

Large-scale Transformer：负责谱曲，来学习 Music Patches 的上下文依赖关系，同时完成音乐可控性； Diffusion Transformer：负责演唱，通过 LDM 让 Music Patches 被还原成高质量音频。

　　这也是天工 SkyMusic 能够支持生成 80 秒 44100Hz 采样率双声道立体声歌曲的关键所在。

　　在我们与昆仑万维的交流中，研究人员进一步表示：

我们目前还不能公开所有细节的技术参数，但这个技术架构是我们做了无数次研发实验算力算法投入，最终探索出来效果最好的方案。

　　公开就意味着我们把“坑”提前替产业踩了，给到产业一个可复现的方案。

　　从效果中来看，天工 SkyMusic 在音乐中的咬字（尤其是中文）、情绪、技巧等元素的效果也是达标的。

　　昆仑万维董事长兼 CEO 方汉和量子位 CEO 孟鸿在昨天的对话直播中，便现场展示了比较有意思的几个曲子。

　　例如把《道德经》和宝妈一天的“吐槽”喂给天工 SkyMusic，它生成的音乐是这样的：

　　地址：https://mp.weixin.qq.com/s/Y6KLGt5NoUTNlfOvIT2Dog

　　再如一位老人给孙女以征婚启事为主题生成的歌，和吐槽购物“买买买”的歌：

　　地址：https://mp.weixin.qq.com/s/Y6KLGt5NoUTNlfOvIT2Dog

　　嗯，确实有点意思。

　　而天工 SkyMusic 的优异表现，源自他背后优异的底座大模型——天工 3.0。

　　天工 3.0 已经发布，直接拿下两个业界之最：

最大规模：4000 亿参数的开源 MoE 大模型 国内第一：中国首个音乐 AIGC SOTA（State of the arts，领域内最高水准）

　　先来看下天工 3.0 大模型在全球权威多模态性能测试基准 MMBench 上的评分：

　　在全球权威多模态性能测试 MMBench 和 MMBench-CN 的评估中，天工 3.0 不仅在A属性推理、关系推理、细粒度感知-交叉实例、粗略感知四项性能拿下第一，综合评分更超越 GPT-4V、Gemini Pro 等知名文本大模型。

　　同时昆仑万维还将将天工 3.0“上架”自家的天工 APP。

　　效果怎么样？一言蔽之：

更聪明：技术知识能力提升 20%，数学/推理/代码/文创能力提升 30% 更独立：独立规划、调用、组合外部工具及整合信息来完成复杂需求更全能：提升了专项 Agent 应对复杂需求的能力多才多艺：内容创作能力全面升级，包括搜、写、读、聊、说、画、听、唱

　　例如“弱智吧 Benchmark”难不倒天工大模型：

　　在 AI 搜索方面，天工 3.0APP 在调用能力上做了增强，甚至在“研究”模式下还能自动生成大纲、图谱、思维导图等内容。

　　以搜索“AIGC 产业发展”为例，现在的打开方式可以是这样的：

　　在大火的 Agent 技术方面，天工 3.0 也专门开设了“智能体”广场，用户可以自行构建专属的超强 AI 智能体，也可以在广场中 pick 自己想要的那一个。

　　以工作、生活都比较常用到的“扩图”为例，只需要丢给它一张图并提出要求，智能体就能生成 4 种不同的扩图效果。

　　总而言之，现在的天工 3.0 整体体验的最直观感受就是面面俱到，最前沿、最 fashion 的技术和应用统统都可以拥有。

　　最后，对于国内首发“音乐版 Sora”这事，还有个话题值得聊一聊：

　　为什么是昆仑万维？

　　自从 Sora 问世引爆全球 AIGC 大热潮以来，昆仑万维绝对称得上是众多入局百模大战选手中的黑马。

　　此前，或许很多人对于昆仑万维的印象还停留在“游戏”、“出海”，但现在，“AIGC”已然成为它最鲜明的标签。

　　深入探究昆仑万维在 AIGC 领域的发展历程，我们可以清晰地看到其迅猛的发展步伐。

　　就在 Sora 发布仅一个月后，2022 年 12 月，昆仑万维便发布了自主研发的全系列 AIGC 算法及模型，这套模型不仅具备先进的文本对话功能，还覆盖了图像生成、音乐创作、文本理解等多个模态领域。

　　从起步开始，昆仑万维就把“格局打开”，剑指多模态，而这正是今年 AI 产业最火热的赛道之一。

　　2023 年 4 月 17 日，昆仑万维正式发布其自研的千亿级大语言模型“天工”，并于同年 7 月在天工 APP 上线。紧随其后，8 月又推出了国内首款 AI 搜索产品——天工 AI 搜索，成为首批将 AI 大模型直接推向市场并服务于C端用户的企业。

　　在这场“AI 一日，人间一年”的产业竞赛中，昆仑万维并没有安于现状，而是持续死磕技术：从公开测试多模态大模型 Skywork-MM，到开源百亿参数级别的大语言模型天工 Skywork-13B 系列，继而又推出天工 SkyAgents 平台，并在今年 2 月，将国内首个采用 MoE 架构的大语言模型天工 2.0 免费向全社会开放。

　　而现在，正值天工大模型发布一周年之际，昆仑万维在 2 个月内将其迭代到 3.0 版本，再次拿下两个业界之最。

　　至此，也就不难回答“为什么是昆仑万维”这个疑问。因为昆仑万维始终坚守并践行“All in AGI 与 AIGC”战略，凭借敏锐的前瞻性和高效的行动力，始终站在 AIGC 技术发展的最前沿。