文派财经罗莉
近日,Kimi 智能助手火了。
一个明显的感知是,最近身边的大学生、职场人士都开始谈论起了 Kimi。一位职场宝妈告诉派财经,她最近在尝试用 Kimi 辅导娃写作业,"真的很方便,都不用下载 APP 小程序和网页就能打开。"
根据 AI 产品榜 aicpb.com 统计,目前国内访问量前十的产品中,Kimi 在 3 月以 12.61M 的访问量、环比 321.58% 的增长排在第二,仅次于文心一言。
成立近一年,短短五个月内 Kmi 的"长文本"输入量提升了 10 倍。
3 月 18 日下午,月之暗面曾宣布在大模型长上下文窗口技术上取得新的突破,Kimi 智能助手支持无损上下文长度从最初的 20 多万字,扩容到 200 万字。该消息公布后,Kimi 关注度一路走高,一度挤爆了服务器。3 月 22 日,月之暗面回应称,观测到 Kimi 系统流量持续异常增高,流量增加的趋势远超对资源的预期规划,并表示已经有多项应急措施正在实施,包括已经进行了 5 次扩容工作。
此前,月之暗面副总裁许欣然在会议室展示了几份用于测试的文件。几十万字的《甄嬛传》剧本,Kimi 不仅能够一口气读完,而且还能根据情节准确回答出细节问题,解析人物剧情走向;在迅速学习完头部医学书籍《中医内科学》和《中医诊断学》后,便可化身"老中医"进行在线问诊。
Kimi 的成功破圈,让国内一众大模型厂商感到措手不及。
01 Kimi,真的强吗?
Kimi 用户体验如何?派财经对 Kimi、文心一言、通义千问和豆包做了系列小测试。分别对其资料总结能力、检索能力和创作能力进行了测验。
首先是对资料总结、财报解读能力测试:
派财经随机上传了一份阿里 2024 财年中期报告 pdf,输入解读指令。根据生成内容来看,Kimi 和通义千问给出的回答,罗列较为清晰,而文心一言则给出了概况,具体需要进一步指令才能继续解读,豆包给出了核心数据提炼回答。
其次是对用户常用的资料检索和整理功能测试:
派财经以"帮我阅读马斯克最新演讲"为指令,分别询问。根据生成内容来看,Kimi 通过对 7 篇资料检索解读,给出了逻辑明确且详细的观点总结,豆包则直接搜索出了多个相关报道链接,文心一言和通义千问则给出了比较框架性的总结。
值得注意的是,派财经发现在已经创建的 Kimi 窗口上传完本地文件和网之后,智能助手会自动关闭联网模式,这一功能在其它三个智能助手界面尚未发现。
再是对创作能力,生成脚本等创作力测试:
派财经以"围绕北京文旅为主题,写一个短剧剧本"为指令,分别测试其创作能力。按照给出的基础大纲来看,通义千问、Kimi 和豆包给出了较为规范的剧本大纲框架,其中 Kimi 给出的最为规范且细节,提到角色、场景、地点相对较详细,在取名上也较为文艺。相较之下,文心一言给出的标题则较为直接,未交待剧本角色设定,但在场景、对话和独白上更有"人味"。
综上,在文生文应用上,Kimi 的效果确实是看起来更有特色。
02 谁在为 Kimi 站台?
Kimi 智能助手是国内大模型独角兽公司月之暗面面向C端用户推出的一项产品。
月之暗面公司成立于 2023 年 3 月,创始人杨植麟毕业于清华,博士毕业于卡内基梅隆大学计算机专业,曾就职于 Google Brain 和美国初创公司 FAIR,师从苹果公司人工智能负责人 Ruslan Salakhutdinov,有多年创业经验。
从技术能力上看,Kimi 的强大基因最初就已经在创始人身上显现。杨植麟是业内公认的长文本领域专家,在近五年的自研语言处理(NLP)领域影响力颇大。
在读博士期间,杨植麟就以第一作者身份发表 Transformer-XL 和 XLNet 两项工作,在谷歌学术上被引用近两万次,并在多个 NLP 任务上取得了当时的最佳效果。而 Transformer-XL 成为首个全面超越 RNN 的注意力语言模型,XLNet 则在 20 项顶级会议中获得最佳论文提名。在华人学者引用排名中,杨植麟的学术论文位居前 10,在 40 岁以下排名第一。
杨植麟的学术研究能力,助力其团队创造了 Kimi 独特且表现优秀的无损压缩技术。
这种技术可减少参数对存储的需求、推理的算力,以及数据传输的带宽占用,从而高效率无损处理百万级的长 Token。而为了快速赶上长文本热潮,其他大厂只能退而求其次,选择检索增强生成 RAG 技术。
Kimi 的无损长上下文窗口的方案,是在逐字阅读全文后给出答案。RAG 技术是对全文关键信息进行检索生成答案,但可能会丢失掉部分关键的信息。
这也就解释了为何 Kimi 的长文本对话回答更准确,在用户体验度上美誉颇多。
但也有小红书博主发笔记表示,在对 Kimi 的测试中发现,Kimi 有一股 RAG 味。
"月之暗面"这个名字,来源于英国著名摇滚乐队 Pink Floyd 的专辑《The Dark Side of the Moon》,在科研之外,杨植麟也是一名摇滚发烧友,他曾在乐队中担任鼓手角色。
资本市场众星捧月。创业一年之内,月之暗面就已经完成了两笔融资。最新一轮融资是在今年 2 月 19 日,融资额度超 10 亿美金,投资方包括红杉中国、小红书、美团、阿里,老股东跟投。该笔融资成为国内 AI 大模型迄今为止单轮融资最高的金额。早在 2023 年 6 月,月之暗面就曾获得来自包括红杉中国、真格基金等头部投资公司的 3 亿美金融资。在两轮融资之后,当前月之暗面估值达到了 25 亿美元。
Kimi 的走火,离不开阿里在底层的算力支持。有消息称,最新 10 亿美金融资中有 8 亿美金来自阿里,部分资金以阿里提供的算力折算。当前,Kimi 借调了阿里的英伟达(NVDA.O)A800 以及 A100 GPU 处理器的机型进行扩容,未来 Kimi 算力侧的支持,也将主要来自于阿里。
03 Kimi 抢了文心一言和豆包们的故事
在对 AI 长文本探索上,Kimi 绝对不是第一家,国内大模型头部大厂,百度文心一言、阿里通义千问和 360AI 早已在做长文本的探索,抖音也在去年年底发力 AI 工具豆包。
在其他大模型大厂还在卷参数、开源和榜单的时候,Kimi 切中了一个更贴近市场刚需的应用场景。将长文本作为标签,通过大量的广告营销和用户口碑,以"长文本"概念迅速占领用户心智。上线之初,就通过突出文本处理字数,为自己贴上了"超大内存"的标签,在 PC 硬件时代,不少C端用户的认知是,内存越大,处理能力就越强。
在 Kimi 出圈之前,行业内在C端用户市场教育上,百度的文心一言一家独大,文心一言是大模型厂商中率先向社会全面开放的平台。据相关数据统计,截至 2023 年 9 月,百度文心一言 App 的月活量达到最高峰值 710 万。不过与 Kimi 不同的是除了 2C 之外,文心一言更大的精力放在研发行业大模型,垂直B端应用上。
其次是抖音的豆包在年初的初露头角。依托于抖音的流量转化池,字节跳动旗下的豆包 APP 在 2024 年 1 月活翻了一倍达到了 400 万。
而新晋"网红"Kimi 的走红要更快,据 Similarweb 数据,Kimi Chat 网页端数据最新峰值达 34.6 万人次。根据 AI 产品榜,Kimi Chat 的 2 月访问量在国内榜排名第三,2 月平均日活同比上升 101.9%,全球增速榜排名第一,3 月前二周继续攀升。
Kimi 上线的时间是 2023 年 10 月,当时可以支持无损上下文长度最多为 20 万汉字。在 5 个月的时间内,月之暗面直接将长文本能力提高 10 倍。按照 AI 领域的计算标准,200 万汉字的长度大约为 400 万 token,在全球范围内也属于领先的标准。3 月 18 日,月之暗面宣布在大模型长上下文窗口技术上取得新的突破,其自研的 Kimi 智能助手已支持 200 万字超长无损上下文,并于今日开启产品内测。
月之暗面方面表示,如今 Kimi 能够一口气精读 500 个甚至数量更多的文件,帮助用户快速分析所有文件的内容,并且支持通过自然语言进行信息查询和筛选,大大提高信息处理效率。
在产品定位上,Kimi 足够坚定,面向C端用户,主打长文本。AI 搜索+文档总结功能。
Kimi 开始就为用户敞开了大门,不仅能从网页端入口进入,还能在 APP 和小程序端口打开,降低了使用大模型的门槛,这是业内B端大模型厂商无法匹敌的。
在选择早期产品使用者集中在科研、法律、金融、媒体等垂直领域,而这部分垂直领域的 KOL 为 Kimi 带来了自然流量与口碑积累。
Kimi 在发力营销同时,也有一部分"自来水"自发为 Kimi 站台推广。
将互联网营销公式带入到了硬科技领域,Kimi 的营销开局颇为高调。在月之暗面发布的 Kimi 上线官宣文标题中提到,"欢迎与 Moonshot AI 共同开启 Looooooooooong LLM 时代",其中英文"long"用了接连十个"o"将 Kimi 的"长文本能力"直观呈现出来。
Kimi 提供的长文本阅读能力和概括能力是两大功能,面向C端用户,致力于为用户打造一个高学习力的免费私人助手。
一份上万字的文献,投喂给 Kimi,只需要几分钟就能读完全文并归纳总结出核心论点,极大程度为用户提升了阅读效率。
用户投喂的各种资料又能反哺 Kimi 的语意语境学习理解能力,从而在不断打磨中提高准确性。值得一提的是,在此类专业语料处理上的进步速度,Kimi 甚至快于 Open AI。主要由于当前 Open AI 对于C端用户上传文件仍然有所限制。
如果把 Kimi 智能助手类比做人类,它的突出之处在于具备较长时间段的记忆力,是一个记性超好的学霸,可以一次记住 20 万字的上下文,一口气读完一本书或者一系列文章。相较国外综合能力最强的学霸 GPT4(可以记住 2.5 万字)。Kimi 的记忆力是 GPT4 的 8 倍。
有小红书博主试着通过 Kimi 智能助手,训练出在自媒体领域现象级创作者咪蒙,将 50 个文档投喂给 Kimi 之后,一步步引导其分析咪蒙写作的核心特点以及对待感情态度后,下指令让其生成一篇关于"彩礼"的文章,成稿虽然简短但颇具"咪蒙味"。
在 Kimi 走火之后,各大模型厂商纷纷"秀肌肉"。
据第三方机构的最新统计数据显示,目前国内已经发布的大型语言模型数量已经超过了 300 个。这些大型模型的发布主体涵盖了科技巨头、国内顶尖的高等学府、以及各类科研机构,他们在资金投入、资源配置、人才聚集等方面都拥有绝对的优势。
国内互联网大厂火速将相关功能进行了升级,卷起了长文本"长度"。
2023 年 10 月 30 日,Kimi 首发不到一个月,同为清华系校友的王小川的百川智能就推出了单次处理 35 万汉字的 Baichuan2-192K,打破了 Kimi 的 20 万字记录,随后,李开复也发布了能够处理 40 万字的 Yi-34B。
在 Kimi 宣布更新 200 万字长文档处理能力后,阿里宣布通义千问升级,免费开放 1000 万字的长文档处理功能,成为全球文档处理容量第一的 AI 应用;随后,百度文心一言、360 智脑也都把 500 万字长文本提上了日程。
目前,大模型最强王者 OpenAI 的 GPT-4 Turbo-128k 可处理文本能力约为 10 万汉字,专攻长本文的 Claude3-200K 上下文处理能力约为 16 万汉字。
一时间,各大模型厂商比起了谁更"长",而文本处理能力越长就能代表能力强吗?
此前,对于文本窗口的长度,杨植麟曾表示,不能只提升窗口,不能只看数字,要看它在这个窗口下能实现的推理能力、the faithfulness 的能力(对原始信息的忠实度)、the instruction following 的能力(遵循指令的能力)。
04 长文本能力能帮 Kimi 造血吗?
Kimi 火爆的表象之下,一个更为现实的问题暴露无遗,长文本能力能为 Kimi 造血吗?
根据新浪科技提供的数据,考虑到广告投放和算力成本,Kimi 每个获客用户的成本达到 12-13 元,而按照近一个月将近 18000 的日均下载量计算,Kimi 每日的获客成本高达 20 万元。而除了每日 20 万的获客成本外,Kimi 需要烧钱的地方还有很多,比如不断提升信息检索能力、遵循复杂指令的能力,推动多模态模型研发,以及实现音频处理等其他需求。
接下来,付出了高额成本,能否将现有用户留住,持续转化将是对 Kimi 产品的一大考验。为庞大的用户群体提供稳定的服务,同样是一笔不小开支。
长文本能力短期内帮助 Kimi 出圈,但很难成为其独家技术壁垒。Kimi 的长文本处理能力与通义千问、360 智脑等 AI 产品相比,并没有非常明显的优势。
虽然实现造血能力难,但 Kimi 的C端策略也有一定意义,通过长文本先征服用户,进而让更多B端客户看到大模型底层应用能力的真正价值。
但从整体盈利角度来看,Kimi 靠烧钱摸索出的获客模式很容易被复制,对于将业务重心放在B端服务的大厂们来说,获客成本反而是更低的。
行业内多数大模型公司均采取的是 2B 和 2C 两条腿走路,通过推出行业大模型直接售卖B端解决方案,或是向公司、开发者售卖 API,按照调用次数收费。此外,以文心一言为代表的一种C端打法是,面向C端用户,为会员增值服务,在应用端按月/年向用户收费,当前文心一言扔在试水阶段,而后起之秀 Kimi 则仍然处于免费模式阶段。
不过,有声音认为,Kimi 的出现对于国内大模型市场提供了新的思路,从基础大模型的训练和竞争逐步向更贴近客户的产品功能和细节需求转变。
有业内人士表示,当下这一轮人工智能革命本质上是自然语言处理(NLP)的技术革命,更是一次交互方式的革命。从文本向多模态发展是大模型必经之路。而视频处理需要更大的参数量和存储容量,对算力和算法的要求也更高。接下来 Kimi 的应用将从单模态,向多模态化发展,即从单一的文本处理基础上,增添声音、图像等信息处理技术。
亦有观点认为,Kimi 的出圈意味着在中文领域开启了 AI 大模型应用元年,长文本时代已至。大模型在实现通往 AGI(通用人工智能)路上又近了一步。然而需要厘清的是,长文本能力并非唯一标准,多模态学习、神经网络架构创新、应用落地与生态建设、伦理与道德框架构建等各个维度都不可或缺。
一位初入职场的金融分析师向派财经感叹道,Kimi 的强大学习理解能力让人感到威胁,"可能过不了多久,向我这样的初级分析师就要被 AI 智能助手替代了。"这一担忧并非空穴来凤,在效率至上的资本市场,华尔街有个说法叫"20 美金实习生",时薪 20 美金的实习生工作未来一段时间大概率会被 AI 替代。
AI 是否会替代职场人?在《所罗门的密码:AI 时代的价值、权力与信任》中,作者奥拉夫·格罗思、马克·尼兹伯格曾给出过解释,"最终,问题不在于工作是否会改变,工人是否会被取代。这甚至不需要超级智能就会实现。问题是这些转变将会以多快的速度发生,我们能否跟上它们的步伐,特别是在教育和劳动力培训方面。正如奥莱利媒体公司的创始人兼首席执行官蒂姆·奥莱利(Tim O’Reilly),在他的视频《我们为什么永远不会失业》中所说的那样,我们的办法总比困难多。但是,适应新的工作性质需要发挥想象力并做好准备。"