出品|虎嗅科技组
作者|齐健
编辑|王一鹏
头图|DALL-E 3
在 ChatGPT 出现之前,“AI 替代人类”的想法一直被认为是 AI 公司们的“科幻”噱头。然而,看到了大语言模型涌现出的超强能力后,人们真的开始有点担心自己的“饭碗”了,尤其是程序员。
2024 年 3 月,初创公司 Cognition 展示了该公司的一款 AI 编程工具 Devin。Cognition 将 Devin 描绘为“世上首位完全自主的 AI 软件工程师”。
Cognition 的演示视频中,Devin 在只接受自然语言指令的情况下,就能从零开始构建应用程序。Devin 还在众包平台 Upwork 上完成了一个实际的任务订单,不仅完成了计算机视觉模型的代码编写和调试工作,还在任务结束时编制报告。
Cognition 甚至在社交媒体平台发文称:Devin 已通过一家领先 AI 公司的工程师面试。
至此,“开发 AI 的人,最先被 AI 取代”的言论在网络快速升温。
然而,就在几天前,一位自称有 35 年开发经验的美国工程师 Carl 在自己的 YouTube 账号 Internet of Bugs 上发布视频,称 Devin 的演示可能存在造假。
自称有 35 年开发经验的美国工程师 Carl 在 YouTube 发布视频,称 Devin 的演示可能存在造假
Devin 可能只是在“演”程序员?
目前,Devin 还没有开放使用,只能通过邮箱提交申请,所以外界对 Devin 的认知,基本都来自官方给出的演示视频,以及少数第三方开发和产品人员的评价。
第三方评价中,热度较高的就包括彭博社在 3 月 12 日发布的一篇对 Cognition AI 公司,及其中几位华人创始人的报道。这篇报道中提到,记者使用 Devin 在5-10 分钟内从头开始构建了一个网站。报道还引用了一名试用过 Devin 的计算机科学家 Silas Alberti 对 Devin 的较高评价。
虽然质疑 Devin 造价的博主 Carl 并未对 Devin 进行实际测试。但他通过对 Cognition AI 发布的 Devin 实操视频进行分析,提出了演示中的多处疑似造假内容,包括:
1. 演示视频中,Devin 的很多操作其实并未实际上理解或正确完成任务。Devin 生成的报告没有包含客户实际所需的信息。
2. 在修复错误代码的时候,Devin 还出现了“没有可能制造困难也要上”的问题。Carl 指出,Devin 修复的一些代码,是“人类永远不会犯”的错误。因此这些错误很可能并非来自客户的代码库,而是 Devin 自己造成的。
3. 在技术上,Devin 的表现也不是很好。有时会采用过时的方法处理文件,在 Python 环境中执行不适当的操作,甚至编写自己的低级文件读取循环而不是正确使用标准库。
4. 视频看起来 Devin 很快就完成了任务,视频创建者能够在大约 30 分钟内完成所请求的任务,但聊天中的时间戳显示,该任务持续了多个小时,甚至持续到第二天。
虽然 Carl 认为 Cognition 在 Devin 的演示和实际操作中存在夸大的情况,但他也表示 Devin 在某些技术操作上表现出了令人印象深刻的能力。例如:Devin 能够自动更新和配置文件,以匹配所需的库版本。他认为随着技术的进步,AI 工具像 Devin 这样的 AI 工具一点能做到完全理解和执行更复杂编程任务。
人类仍是 AI 编程的关键?
目前 Devin 还未上线,其能力是否真如 Demo 一样强,其实真假难辨。
不过可以肯定的是,虽然 AI 的确能帮助人类编程,但主流观点仍不认为 AI 可以替代人类。
“AI 远没有外界传闻的那么聪明,要理解业务逻辑都需要大量反复地沟通,别说干活了。”一位关注 AI 编程的开发者告诉虎嗅,目前很多程序员都在使用 Copilot 类的工具,但担心被快速替代的人并不多。
事实上,目前大型语言模型在工作中仍存在两个比较难解决的问题,一方面输入的信息不一定可以正确理解底层逻辑,可能需要与 AI 进行反复沟通。另一方面,AI 输出的内容都很难避免错误和幻觉,在需要更严谨认真的工作中,没有人类的检查和监督,则会面临很大的风险。
“人类程序员写程序的时候,结果基本是一定的,要么好,要么差。但大模型来了以后,就不好说了。”支付宝 CTO 陈亮表示,AI 写程序的结果存在很大不确定性,“他可以写得比你好,也可能比你差。”这就需要人类程序员想办法去控制它或者去影响它。
陈亮认为,虽然不能像以前写程序一样确定输出结果,但可以通过翻译、语料、数据等去影响他,让 AI 有更大概率提供好的结果。
在 Cognition 刚刚发布 Devin 演示视频时,前特斯拉 AI 技术总监、OpenAI 联创 Andrej Karpathy,曾在X上发文评价表示:
“在我看来,自动化软件工程看起来与自动驾驶类似。自动驾驶的发展是:
1. 首先人类手动执行所有驾驶动作
2. 然后 AI 帮助保持车道
3. 看到前车能减速
4. 它也会变道
5. 它也会在标志/红绿灯处停下并轮流通过
6. 最终你会得到一个功能完整的解决方案,并不断提高质量,直到实现完全自动驾驶。
在软件工程中,进展的情况类似。都是人工智能做得更多,人类做得更少,但仍然需要监督:
1. 首先人类手动编写代码
2. 然后 GitHub Copilot 自动完成几行
3. ChatGPT 写入代码块
4. 转向越来越大的代码差异(例如 Cursor copilot++ 风格)
5. ...
Andrej Karpathy 认为,Devin 是一个令人印象深刻的演示,可能会推动编码工具的进步,包括终端、浏览器、代码编辑器等,以及人类监督。
程序员的 AI 危机是什么?
虽然 Devin 可能代替不了人类,但很多人类岗位确实已经在被 AI 威胁了。
“AI 不一定取代人,但会用 AI 的人一定取代不会用 AI 的人。”
2023 年以来,AI 工具对工作的重要性上升到了新高度。
陈亮介绍说,目前 60% 的蚂蚁程序员在写代码时都用上了 Codefuse 全站使用 Codefuse 的蚂蚁程序员写的代码中,约 12% 的代码是由 Codefuse 生成的。
宜创科技的创始人宜博则讲述了一个更生动的例子。
“2023 年初,我要求公司所有程序员必须会用 ChatGPT 写代码,一个月时间学习并考核,考核后平均效率提升了3-5 倍。我们最强的一个架构师的编程效率基本上是原来的 5 到 10 倍。”
宜博说,使用 Copilot 类工具以前,架构师要先把客户需求拿过来梳理清楚,然后再安排 5 到 10 个人帮他干活,他要告诉这些人:前端这个框架你来做。后端这个接口你来写。
“现在不需要这样了,架构师现在想清楚之后,文档里写清楚,直接可以用 ChatGPT 把它弄出来。”一个 10 个人的团队把一件事情讲清楚,再做好,检查清楚,可能要一个礼拜。现在这个时间可能不到一天,甚至就几个小时就完成了。
Devin 无辜,罪在炒作
Devin 将他的创作者 Cognition 推到了风口浪尖。这家成立于 2023 年底的公司,目前已经收到了来自知名机构 Founders Fund 等约 2100 万美元的投资。该公司种子轮估值约 3.5 亿美元,如今估值已达 20 亿美元。
如今,随着 Devin 的“世界首个 AI 软件工程师”称号被 Carl 质疑是不实宣传,Cognition 恐怕要面临一场公关危机了。
对于”虚假宣传”,Carl 批评 AI 产品的宣传往往缺乏透明度,不如实展示产品的实际能力和限制,从而误导了公众和专业人士。
在过去一年中,爆火 AI 的“虚假宣传”案例确实数见不鲜。
其中最有名的就是“Google 发布 Gemini 的演示视频”。Google 在其最新 AI 大模型 Gemini 发布的演示视频中,展示了经验的多模态能力。但后来该公司承认视频实际上是经过剪辑的,使用了静态图像和文字提示,而非实时动态处理。视频中减少了延迟,简化了 Gemini 的输出。
就在不久前,亚马逊推出的一项"无需结账"技术(Just Walk Out),亦被指出是人工“伪装”的人工智能。有报道指出这项技术并非完全依赖先进的 AI 和计算机视觉,而是由超过 1000 名印度工作人员在手动审核顾客的购物行为,确保结账的准确性。不过,目前亚马逊已否认了这种说法,并声称这些工作人员主要是在训练模型,帮助改进技术。
更早的案例中,也曾有国内某知名 AI 公司,被指在某大会现场把人类同传翻译的内容伪装成 AI 翻译内容,打上公司产品 Logo 展示。
在指证 Devin 造假的视频中,Carl 呼吁制造商、媒体和使用者都应对 AI 技术持有怀疑态度,并进行必要的核实。Carl 认为,这种夸大其词的做法不仅误导了公众,还为 AI 技术设置了不切实际的期望。
一些网友也对 Carl 的观点表示支持。
rayhere7925 认为:许多这样的科技初创企业只有一个目标:赚钱。他们如何获得资金?通过投资者和/或炒作。我敢肯定,这种夸张的演示以及随之而来的所有文章和影响者视频,一定说服了某些地方的投资者向这家公司注资——这正是这家公司的目标。如果这意味着可以赚更多的钱,公司会撒谎(如果他们能侥幸成功的话)。这家公司为了炒作和吸引投资者而撒谎也就不足为奇了。
Apexphp 则认为:现代新闻业的问题在于,过去撰写技术文章的人通常对该领域有一定的了解,他们知道专业术语的含义,能够阅读自己写作领域的科学论文,并理解其中的大部分内容。但现在,我们只有一群按篇酬付费的人,他们在互联网上找到有趣的标题,然后简单写几句话,因为他们所在的公司支付的费用与他们为一篇撰写精良、经过深入研究的文章支付的费用相同,所以他们也就没必要多费心了。