如果只有技术问题需要解决该多好──AIGC 杂谈

关于学习、创作、生产力,以及为什么我们宁愿责备 AI,也不愿意面对现实。

前言

2026 年 4 月 22 日,OpenAI 发布了 GPT-Image-2 (ChatGPT Images 2.0):原生 2K 分辨率、大幅度提升的多语言文字渲染准确率、像素级精准编辑,以及最关键的 —— 将推理能力 (o-series) 直接集成进图像生成管线,让 AI 首次实现了 “先思考,再作画”。

仅仅三天后,4 月 24 日,DeepSeek V4 系列登场。V4-Pro 以 1.6T 总参数的 MoE 架构、100 万 token 的上下文窗口、SWE-bench 80.6% 的代码能力,以及 MIT 开源许可,将前沿 AI 的调用成本压到了近乎白菜价。你可以把整个中等规模的代码库 (500 个文件) 一次性丢进去,让它跨文件推理、自动重构、提交 PR。

两个发布,两条战线:一条快要攻破扩散模型在视觉创作的最后一道护城河 (精准文字、品牌一致性、复杂排版),另一条则让大规模软件工程的自动化从科幻变成了白菜价按量计费的 API 服务。

如果你只看技术演进,这是一个值得欢呼的时刻。生产力工具的边界又被推远了一大步。

但如果你在中文互联网──尤其是绘画圈的社区里──扫上一眼,就会发现,讨论仍然停留在 2024 年。还是那些词:“尸块”“融图”“AI 剽窃”“小画家”;还是那些逻辑:反 AI = 正义,用 AI = 技术孝子,讨论边界 = 和稀泥。

技术不会停滞不前,争论却还在原地打转。这种撕裂感,正是本文的起点。

从 SBTI 说起

大约在 4 月 9 日早间,有沙雕网友利用 Vibe Coding 和 AI 生图制作了一个娱乐版的 MBTI 测试,叫做 SBTI。它的测试题和选项都是由 AI 生成的,结果也是 AI 生成的。虽然测试结果毫无科学依据,但它在以 QQ 空间为代表的社交媒体上迅速走红,成为了一个热门话题。在本人的列表中,SBTI 的相关讨论占据了近一半的热度,大家纷纷分享自己的测试结果,甚至还出现了各种衍生的梗图和表情包。

到了下午,突然有人指出,SBTI 的测试结果插画疑似 AI 生成,于是引发轩然大波。无数网友纷纷转发,表示 “被恶心到了”,甚至有些人开始攻击 SBTI 的创作者,指责他们 “剽窃艺术家劳动成果”。

然而,我要指出的一个非常讽刺的事实是,但凡任何有 Vibe Coding 经验的人都能在看到测试页面前端渲染效果之后,立刻判断出整个网页都是由 AI 生成的。因为它的设计风格、配色方案、排版布局,都是典型的 AI 生成网页的特征。然而没有人在意这一点;只有当测试结果的插画被怀疑是 AI 生成时,才引发了轩然大波。

在这里引用几位群友比较有攻击性的评论:

笑点解析,没人在乎程序和文本是不是 ai,只在乎插图

一些人的意思是,啊啊啊啊啊啊画手辛苦产出的作品被 AI 拿去学习真是太可恨了!AI 剽窃他人劳动成果!画手辛苦学习提升画技绝对不能被 AI 取代!你跟我说这个网站是 vibe 的是什么意思?哦哦就是 AI 写程序,程序员的死活和我有什么关系?至于生成文本类内容更是路边一条,写点文字谁不会?

而我的观点是:

你不能只在用豆包水作业和用千问抢奶茶的时候才觉得 AI 好。
──化用自 Joe Biden 的名言

这种荒诞的选择性愤怒恰恰说明了一件事:反对者们真正在捍卫的,从来不是某种统一的 “创作伦理”,而是自身职业领地的边界。当 AI 侵入的是别人的领地 (写代码、生成文本) 时,它是 “便利的工具”;只有当它踏入自己的领地 (绘画) 时,才突然变成了 “剽窃的贼”。

SBTI 的作者极大概率没有从中获得任何经济利益;它只是一个娱乐性质的项目,甚至连广告收入都没有,结果最后甚至迫于压力一度关闭了网站。而引来的滔天巨浪,激烈得仿佛有人真的被抢走了饭碗。

而这引出了一个更深层的问题:程序员群体对 Vibe Coding 的接受度和理解程度,几乎是 180 度大转弯。为什么他们能快速地拥抱 AIGC,而绘画圈的反弹却如此激烈?

为什么程序员能平静地拥抱 AI?

答案并不复杂:他们知道自己用的是什么。

程序员理解 LLM 的本质 —— 概率性的 token 预测、模式匹配、基于海量数据的统计学习。他们既不会把它当成偷灵魂的怪物,也不会当成全知全能的神。这种认知直接消解了恐惧与神化两个极端,留下的只有一个判断维度:它能不能让我更快地写出能跑的代码?

这种祛魅是决定性的。当绘画圈的反对者真的以为扩散模型是在 “拼接图片碎片” 时,程序员和 AI 研究者正在讨论扩散模型的训练细节、架构创新、推理优化;当反对者们在用从技术上完全错误的词汇来描述 AI 生成的图像时,程序员正在用 Claude Code 编写单元测试,或者用 DeepSeek 的 API 来重构一个过时的代码库。

更深一层,代码拥有绘画和写作都不具备的特性:客观的可验证性。一段代码能编译吗?测试用例能通过吗?运行结果符合预期吗?这种即时反馈让程序员可以把 AI 当作一个草稿生成器 —— 错了就改,对了就用,始终掌握最终控制权。而绘画的 “好坏” 是高度主观的,没有编译器告诉你这幅画对不对,创作者更容易产生存在焦虑,也更容易把 AI 视为对自身价值的否定。

还有一个被严重低估的文化因素:程序员历来就是站在巨人肩膀上工作的。用别人写的编程语言、框架、库,用 Stack Overflow 的代码片段,用 IDE 的自动补全。GitHub 上几十亿行代码就是公开供人学习的,开源精神的核心就是 “代码可以被阅读和学习”。所以当 AI 模型 “读” 了 GitHub 上的代码再生成新代码时,大部分程序员如今不会觉得这是 “剽窃”。当然,在 GitHub Copilot 刚推出的 2023 年,它曾引发过激烈的版权争议 —— 微软辩称合理使用,多位开源开发者则强烈质疑。但随着 AI 工具在生产流程中快速落地,越来越多的程序员选择了务实的接受态度 —— 因为这和他们自己学习编程的方式几乎完全一致。他们知道 “学习风格” 和 “复制作品” 之间的区别。

而美术教育强调 “原创性” 的神圣不可侵犯,视觉文化里没有对应 “开源精神” 的传统。所以当 AI “学习” 了公开作品再生成新图像时,画师感受到的是侵犯。

但如果我们把画师的激烈反弹简单归结为 “不懂技术”,那就太过轻巧了,也回避了真正的问题。程序员能平静接受,不仅仅因为他们懂技术,更因为技术教育赋予了他们处理不确定性的认知工具。而反过来,那些在网络上激烈反对 AI 的群体 —— 其中相当比例显然缺乏技术教育背景 —— 恰恰暴露了我们教育体系的系统性失败:我们从未教过他们如何理解一个复杂的技术议题,却放任他们被算法扔进一个只有情绪和对立的信息茧房。

教育的缺席与算法的放大

我們的教育的確有問題。
── 丘成桐 (Shing-Tung Yau)

在我们的教育体系里,有一个巨大的空白,叫做信息素养 (Information Literacy)。

它几乎从不教如何追溯信息源,区分主张与事实;如何理解技术的边界条件,而非将其简单道德化;如何用结构化思维分析复杂议题,而非诉诸情绪。结果是,当面对扩散模型这种需要跨学科理解的对象时,大量反对者只能调用最廉价的认知工具 —— 身份政治和道德标签。他们把 “AI 绘画” 理解为强者对弱者的掠夺,而不是一个需要具体分析的生产力演进;他们把对职业前景的焦虑,翻译成 “AI 剽窃劳动成果” 的道德控诉。

更深层的问题是批判性思维 (Critical Thinking) 的缺位。应试教育训练的是标准答案的复现能力,而非对前提的质疑能力。所以你才会看到,那些反对者声称捍卫原创,却从不对 “原创” 的定义边界发问;他们高频率地使用从技术层面就完全错误的词汇,却拒绝花十分钟了解扩散模型的基本原理。他们的反对方式 —— 机械复读网络热词、用情绪替代论证、把复杂议题压缩成二元对立 —— 恰恰证明了他们是应试教育最忠实的产物:擅长标准答案的复现,不具备对前提的质疑能力。

而社交媒体算法,精准地利用了这种认知缺陷,完成了一场 “政治正确” 的制造:

情绪加权推荐 + 圈层封闭 + 黑话壁垒 + 年龄结构倒挂 => 正反馈放大

情绪加权推荐让那些激烈反对 AI 的帖子获得了更高的曝光度;圈层封闭让反对者们只能在一个充斥着同样观点的环境里互相强化;黑话壁垒让不懂技术的人无法进入理性的讨论;年龄结构倒挂让年轻人 (此处指甚至可能没有完成义务教育阶段的) 主导了讨论,而年轻人又更容易被情绪化的内容吸引。

最终,一个在本圈层内不可质疑的 “政治正确” 被建构出来:反 AI = 正义,用 AI = 技术孝子 / 资本走狗,讨论边界 = 和稀泥。任何试图区分 “非盈利整活” 与 “商用卖稿”、任何试图解释 “学习风格” 与 “复制作品” 差异的人,都会被先贴上立场标签,而不是被回应论点。

这里有一个极具讽刺意味的观察。在那场关于 SBTI 的群聊里,有人提到:

有一说一,我在大学里认识的音乐和插画的创作者,几乎没有关于 AI 的过激言论。

这引出了一个值得深思的对比:真正靠手艺吃饭的人,往往最安静;而叫得最响的,至少在当时的舆论场中,往往不只是为了饭碗在争论 —— 他们捍卫的是一个更私人的东西。对于专业创作者而言,AI 是工具还是威胁,是一个需要具体评估的实务问题 —— 它影响的是接单价格、工作流程、风格迭代,而不是 “我是谁” 这个存在论问题。但对另一部分人来说,“我是画手” 这个标签提供的存在感,远比 “我画了什么” 重要。AI 的威胁因此不是经济层面的 (很多人根本没靠画画赚钱),而是身份层面的 —— 它动摇了 “我之为我” 的根基。所以他们的反抗才会如此情绪化、如此不容讨论:这不是关于版权或劳动价值的辩论,这是关于自我认同的防御战。

而如果我们有勇气把讨论从情绪层往下拉,就会触碰到:

两个真正的问题

  1. 机器的学习和人类的学习有什么区别?
  2. 创作的定义是什么?

这两个问题被包装成了 “AIGC 时代的全新挑战”;但实际上,它们是古老的哲学幽灵,只是换了一层新包装。我们从来没有真正面对过它们;我们也没有真正教过任何人去面对它们。我们只是在技术演进的浪潮中,反复上演着同样的恐慌和撕裂。

学习之于机器与人类

这是一个非常古老的认识论 (Epistemology) 问题,而不是一个计算机科学问题。

你把它还原一下,其实就是 “模拟”(simulation) 与 “理解”(understanding) 的区分 —— 从柏拉图到维特根斯坦到约翰・塞尔,哲学界已经为此打了两千多年的架。塞尔在 1980 年提出的 “中文屋” 思想实验,今天看来几乎就是为扩散模型量身定做的:一个不懂中文的人按照规则手册处理字符,输出的中文完美无瑕,但他是否 “理解” 了中文?一个按照统计规律预测像素值的模型,输出的图像惊艳全场,但它是否 “理解” 了绘画? 图灵测试的陷阱也在这里。

图灵说:

如果机器表现得像有智能,我们就该承认它有智能。

但反对者真正想捍卫的,是 “表现得像” 和 “真的是” 之间必须有本体论差异 —— 否则人类的认知特权就崩塌了,我们就不再是特殊的了。

所以当你看到有人说 “AI 只是尸块拼接” 时,他以为自己是在描述一个技术事实,实际上他是在无意识地进行一场心灵哲学 (Philosophy of Mind) 的修辞操练。他不是在反对 AI,他是在捍卫人类意识的不可还原性。只是他用的武器是微博热搜和 QQ 空间转发,而不是分析哲学的术语。

公平地说,这个问题到今天也没有标准答案。功能主义者和生物自然主义者还在吵架。但关键在于:争论者甚至不知道自己正在参与一场没有标准答案的哲学辩论。他们真诚地相信 “尸块” 是一个技术术语,真诚地相信自己在争论某个可以被科学裁决的事实问题。这种元认知的缺失,比他们的立场本身更令人担忧。

创作的定义

这同样不是一个艺术理论问题,而是一个法哲学与话语权力的问题。

罗兰・巴特在 1967 年宣告 “作者之死”,不就是在说:创作可以脱离单一主体的神圣意图而存在?文本一旦诞生,解释权就属于读者,而不是那个握着笔的 “上帝”。那 AI 生成的作品,恰恰是 “作者之死” 的技术实现 —— 只是讽刺得很,当年为巴特欢呼的人,现在反而最激烈地捍卫 “作者必须活着”,而且必须是一个有血有肉、吃过苦、流过泪的人类。

本雅明在 1935-1936 年间完成的《机械复制时代的艺术作品》,指出摄影术摧毁了艺术的 “光晕”(aura)。原作的唯一性、在场性、不可复制性,被技术一下子抹平了。今天的 AI 生成,不过是机械复制的终极形态 —— 从 “复制原作” 进化到了 “直接生成无限原作”。当年画家们排斥摄影时用的逻辑,和今天 “反 AI 绘画” 的逻辑,几乎是一个模子里刻出来的:如果创作必须一笔一画,那摄影术刚出现时,画家们也曾言之凿凿地说 “按下快门不算艺术”。

福柯在《什么是作者?》里问的不是 “谁是作者”,而是 “作者这个话语角色在特定历史时期承担了什么权力功能”。放到今天,“画手” 这个身份标签在亚文化圈层中的功能,远比任何美学定义更能解释为什么他们如此激烈地捍卫 “创作” 的排他性。“我是原创画师” 这句话在 QQ 空间和微博上的社交资本,远大于它在版权法庭上的法律价值。

所以,当争论者质问 “输入提示词算不算创作” 时,他们以为自己是在讨论一个美学事实,实际上是在争夺定义权 —— 谁有权划定 “创作” 的边界?谁有权决定什么样的劳动值得被法律保护、被社区尊重、被赋予道德光环?版权法里的 “独创性”(originality) 标准,从来就不是什么自然事实,而是特定历史条件下,不同利益集团 (出版商、创作者、技术公司、公众) 博弈出来的临时平衡。

SBTI 的创作者写了几千字的提示词,调试了几十次参数,最终生成了一张契合测试结果的插画。这算不算创作?如果你认为不算,那么一个摄影师调整光圈、快门、ISO、构图,最终按下快门,算不算创作?如果你认为算,那两者的分界到底在哪里?是 “手是否直接接触介质”?那数位板怎么算?是 “意图的精细程度”?那提示词的意图可以精细到像素级。是 “过程的辛苦程度”?那这是劳动神圣性的等级排序,而不是创作的定义 —— 而排序的裁判,自然总是那些掌握着更 “辛苦” 技艺的人。

技术作为去政治化的工具

最黑暗的一层在于:把这些问题框定为 “技术问题”,本身就是一种政治行为,而且是一种非常高明的去政治化策略。

平台公司最喜欢这种叙事。当画师抗议作品被爬取训练时,平台说:“这不是我们垄断数据的问题,这是技术发展的必然趋势。” 当程序员用 AI 写代码被质疑时,平台说:“这不是劳动贬值的问题,这是生产力工具的迭代。” 当公众真的开始争论 “AI 有没有灵魂”“机器学习算不算学习” 时,真正该被讨论的议题 —— 数据产权归属、平台垄断、劳动保护、教育投入、技术红利的社会化分配 —— 就被成功地悬置了。

你看,如果这是一个技术问题,那解决方案就是技术层面的修修补补:加水印、搞 AI 检测器、出伦理指南、设使用规范。打补丁,发版本更新,世界就干净了。多简单,多令人安心。

但如果这是一个政治经济问题,那我们就得问:

训练数据的收益分配权归谁?画师的作品被爬进训练集,变成了 Midjourney 和 OpenAI 的生产资料,画师得到了什么?这本质上是数据时代的土地兼并 —— 你的劳动成果被圈进了别人的庄园,而你没有收到一分地租。

当 DeepSeek V4 把软件工程的自动化成本压到白菜价时,被替代的低阶程序员该由谁负责再培训?社会是否建立了对应的安全网?

当 GPT-Image-2 让一个人就能产出原本需要团队协作的视觉物料时,省下来的成本进了谁的口袋?消失的是哪些岗位?

这些没有 API,没有热修复。它们只有权力、血和时间的代价。所以当然所有人都更愿意去骂 AI 了。骂 AI 不用付政治代价,不用重构制度,不用承认自己在一个更大的棋盘上其实也是个可被替换的零件。技术问题成了当代最大的舒适区 —— 既让反对者有了明确的、不会还嘴的敌人,也让既得利益者有了完美的挡箭牌。

而那个挡箭牌上写着一行字:“这是技术问题,让技术自己解决。”

写到这里,我不得不停下来问自己:我对程序员群体的乐观描述,是不是也是一种选择性叙事?程序员能平静接受 AI,是不是部分因为 AIGC 目前对代码生产的替代,还没有触及他们核心的身份认同?如果有一天,AI 不仅能重构代码库,还能独立做出和资深工程师同等质量的架构决策 —— 那时我们还能这么平静吗?

结语

还记得标题吗?如果只有技术问题要解决,那该多好啊。

GPT-Image-2.0 让 AI 能画出带精准文字的 2K 海报,DeepSeek V4 让 AI 能吞下整个代码库自动重构。技术又往前迈了一大步,生产力的边界又被推远了一次。但广场上的人群,还在用 2024 年的词汇互相投掷石块。

机器学习和人类学习的区别是什么?创作的定义是什么? 这两个问题不仅与技术无关,甚至在 AI 出现之前就已经被争论了几百年。AI 只是给这些古老的哲学幽灵换了一身新皮肤,然后把它们扔进了公共广场。广场上的大多数人并不知道自己正在参与一场没有标准答案的哲学辩论,他们真诚地相信自己在争论某个可以被科学裁决的事实问题,真诚地相信那些毫无技术依据的词汇是真正的 “技术术语”,真诚地相信只要骂得够大声,就能让技术停下来等一等他们。

但技术不会停下来。它只会继续狂奔,把争论者甩在身后,让他们在越来越大的时间落差中,显得更加愤怒,也更加孤独。

幕布后面没有机关。只有几个老朽的社会问题在互相撕咬 —— 政治、经济、教育、权力、分配 —— 而台下观众都在为光影效果欢呼或怒吼。懂技术的人卡在中间,笑也不是,怒也不是,只能叹口气,然后继续写代码、调模型、提交 PR。

毕竟,如果只有技术问题需要解决,那该多好。

只是从来没有这么简单过。

当擦鞋童开始养龙虾——技术泡沫的百年收割术