大型语言模型异味:人工智能写作中的迹象,以及人工智能代码中代价更高的迹象

发布日期:2026-06-06 10:03:19   浏览量 :2
发布日期:2026-06-06 10:03:19  
2

施里贾尔·什雷斯塔(Shrijal Shrestha)写了一篇题为《各种大型语言模型“异味”》的文章,将我们许多人一直感受到却未能名状的事物诉诸文字。其论点很简单:人工智能辅助工作会留下痕迹。一旦你见得足够多,就能像听出自动调音效果一样,瞬间识别出这些痕迹。他称之为“人工智能异味”,并指出这种痕迹出现在截然不同的任务中。写作有其破绽。网站也有其破绽。如今,随着工具无处不在,这些破绽也随处可见。

我制作对比类内容和小型开发工具,并运营一个向真实社区发布内容的内容流水线,因此对我而言,这并非一场抽象的美学辩论。在我的技术栈中,我有一个“人性化处理”步骤,其唯一工作就是在任何内容公开之前剔除这些破绽,因为这些破绽是有代价的。因此,我想认真对待什雷斯塔的观察,将其延伸到那些会产生实际金钱成本的领域,并告诉你我实际上是如何应对的。

写作中的破绽

他指出的那些散文“异味”,正是你已经隐约察觉到的。那种持续不断的抖包袱节奏,每隔几句就抛出一个值得引用的俏皮话。连续使用三个短句以制造虚假的强调感。那种听起来聪明却空洞无物的“X 是 Z 领域的 Y”式比喻。还有一种修辞手法,即句子铺垫了一种它并未真正成立的对比关系。这些手法本身并无过错。人类作家也会使用它们。问题在于密度。模型会频繁使用这些手法,因为它们成本低廉,且符合“好文章”的模式匹配,导致最终读起来像是有人在模仿深刻见解。

设计中的破绽则是同一故事在不同媒介上的呈现。营销页面上使用的 JetBrains Mono 字体。列表中每一步的样式完全相同。统一的卡片组件、相同的按钮处理方式,以及如今每个人工智能生成的落地页都附带的那个闪烁小圆点“实时”徽章。什雷斯塔谨慎地表示,他并不反对使用这些工具,我也不反对。重点在于识别,而非纯粹性。

以下是为何此事超越个人品味而显得重要的原因。我曾观察过这些破绽在现实环境中的影响。社区会对它们进行标记。版主和自动过滤器会将这种节奏视为低质量垃圾信息,有时确实如此。读者一旦察觉到这些痕迹,就会立即低估内容的价值。这就是我的流水线在将任何草稿发布到 Reddit 或其他平台之前,都要经过人性化处理步骤的全部原因。这种异味是一个信号,人们解读出的信号是“没有人真正关心这个内容”。在一个已经充斥着生成文本的信息流中,这种信号最好会导致你被忽视,最坏会导致你被移除。

代码中同样的异味,代价高昂

散文异味令人恼火。代码异味则是一张账单。一旦你审查过足够多的人工智能生成代码,就会发现它也有自己可识别的痕迹。

你会很快熟悉这些模式。对不可能发生的条件进行冗余的防御性检查。被赋值却从未读取的死变量。重新实现已在三个文件之外存在的功能的函数,因为模型看不到你的其余代码库,也没有理由去查看。用英语重述下一行代码内容的注释。恰好按字面意思解决问题的方案,而这本身就是问题所在,因为字面描述的问题通常与实际存在的问题略有不同。模型不知道你的数据表有五千万行数据,也不知道该端点每秒会受到一万次冲击。它回答的是提示词,而非系统整体。

与散文不同的是,这里的成本是可以衡量的,而非仅凭感觉。Veracode 在其《2025 年生成式人工智能代码安全报告》中,跨超过 100 个模型运行了 80 个精选任务,发现 45% 的生成代码引入了安全漏洞,相比之下,人类

免责声明:本文内容来自互联网,该文观点不代表本站观点。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请到页面底部单击反馈,一经查实,本站将立刻删除。

关于我们
热门推荐
合作伙伴
免责声明:本站部分资讯来源于网络,如有侵权请及时联系客服,我们将尽快处理
Copyright © 2025-2027 ToB产业网址导航 公安备案 浙公网安备33010602013138号 浙ICP备16025413号-9
支持 反馈 订阅 数据