人总是对未知的事物本能地产生两种情绪:恐惧和崇拜,越是不了解的,就越是极度恐惧或者极度崇拜。
做科学、做工程的,永远不可能对着一个黑盒子无条件信任,这是极度的不负责任和懒惰。
1. AI是什么?
计算机领域的基础科学其实已经停滞了好多年,从一门科学,变成了工程。
2000年门户网站互联网泡沫,10年互联网大厂电子商务奇迹,到现在移动互联网全民在线娱乐……这些都是由科技大厂堆服务器和上云计算带动,CPU、内存、硬盘和网络飞速发展作为支撑,大家一团和气、行业一片繁荣,而这些都是在2000年前就基本定型的现代软件技术和互联网架构上的不断规模化应用和改进。
当一个行业开始变差的时候,就会开始寻求变数。互联网的爆发期一过,用户增长停滞了,电脑手机已经足够快升级不再有吸引力,宽带从100M升级到1000M也无感了,大家就需要新的爆点,这个过程中出现过的名字有:物联网、区块链、元宇宙,神经网络,大模型,而现在是人工智能、智能体。
1.1 从图形开始
80后可能是最后一代完整学习计算机组成原理、编译原理、数据库原理、网络原理等计算机基础科学的学生了,后面基本都是软件工程、网络工程、电子商务等工程细分学科了。
2000年左右的计算机专业学生可能记得学校里有两门选修课,教材都是泛黄的古董书,一本叫计算机图形学,另一本叫人工智能,书的出版日期可能比自己年纪都大,都是80年代出版的书了,老师也不懂,让自己看。
这就像修仙小说里说的,藏在角落里的秘笈不是不好,是一般人根本学不来。
计算机擅长处理数学逻辑和结构化数据,例如各种科学计算和文档表格数据库,但计算机图形学是个另类,它是以人的“直觉”——视觉感知为目标的(以及听觉感知对应的语音合成、语音生成技术),天然不符合计算机的思维方式,所以计算机图形学一直都是非常挑战脑力的计算机科学,它需要非常资深的程序员经过系统学习,才能用软件编码来定义和表达真实世界中的视觉。
所以当2016年,有人说,你不再需要学习计算机图形学了,用一个叫“神经网络”的东西,让电脑自己学习几十个小时,它就能自动认得图片当中是牛是马是小汽车了,它的算法不再是人编写出来的,而是机器自己通过学习自己训练出来的,人们惊呼,这不是“AI 人工智能”么?!
但这时,这个惊呼还只是停留在科技圈,还没有出圈。但同年的阿尔法狗大战李世石,则让大家知道有“人工智能”打败世界冠军这回事了。
1.2 起飞、出圈
普通人真正接触到AI,则是要等到2023年以ChatGPT为代表的“大语言模型”为代表的产品的出现(国内网民则可能还要再晚点,要到2025年DeepSeek走红后才广为流传)。
输入一句话,AI能够人模人样地回答,能够输出大段大段的文章,能够自动画出一幅图片、生成一段以假乱真的视频……满足了普通人对于科幻电影里人工智能的美好想像,一下子就火了。
大模型之所以叫大模型,是因为它大,哪里大呢?还记得上面说的2016年用神经网络来识别图像的事吗,那会训练一个图形识别的AI模型,可能会输入几百万张图片(大概150GB),训练完的模型的参数量(AI模型的另一个关键参数,代表模型的复杂程度)大概几十M。
而大模型呢,它同样也是神经网络的一种,早些年还区分处理视觉的用卷积神经网络(CNN),处理语音的用循环神经网络(RNN),处理自然语言(例如翻译)的用长短时记忆网络(LSTM),大模型则使用的是Transformer架构。
大模型的训练数据量是多少呢?是全球互联网上能获取到的数据(主要是文字,压缩后大概45T),以2020年的GPT-3为例,训练完的模型的参数量则是175B,而对应的2025年的deepseek满血版则是671B,越来越大,后面往T级别去了。
注:
1 | 1 B = 1,000 M |
严格来讲,ChatGPT类的大模型只能处理文本,它的语音对话、生成图片、做文档、画表格的能力其实是后台其它AI模型,或者普通软件接口的能力组合(不要忘了,计算机行业的其它人工智能模型也在同步发展,不只有大模型,例如汽车的自动驾驶系统,就把机器视觉识别发展到了新的高度)。
但与人用自然语言对话,天然适合作为一种人机交互的入口方式。
1.3 落地
再惊艳的东西,看多了也会腻歪。
AI也是这样的,普通人图新鲜,可能会考考AI唐诗三百首,问它懂不懂做酸菜鱼,甚至让它代替自己写一个工作报告,更有程序员让AI替自己写代码,让外行人惊呼,可以让程序员下岗了。
如果懂AI的原理的,自然知道,它在训练阶段已经把人类有史以来的文字几乎都分解成碎片了,你的任何问话,只要是符合人类语言逻辑的,它都能找到最适合的回答方式。
AI生成的这些回答里,有针对问题的答案,有它自己的联想和补充,简单说就是长篇大论的大儒作派。所以它哪怕说错了,也一本正经不认,并且毫无心理负担,反而让你怀疑自己。
所以,还是程序员出手了,随着MCP、AGENT、SKILLS的落地,行业发展进入了以智能体(我称之为“超级APP”)为代表的的AI时代。
2. AI怎么用?
2.1 能做什么
以AI编程智能体(例如:Claude Code、Cursor、Qoder)为代表,通过MCP和Skills加持,现在AI已经不再是一问一答地给你输出代码片段,你再自己拷贝到开发工具IDE里运行测试了,而是直接生成目录结构、输出代码、运行测试、根据测试错误修正,并给出最终代码。
这很符合完美工程学的想像是吧?让我们拆解一下它们的工作原理。
以人工团队开发一个软件为例,你需要经历需求分析、设计、评审、编码、测试、发布、部署和运维的过程,这些步骤在编程智能体里其实都有体现。
你要智能体开发一个软件,它会问你软件要干什么,使用什么技术?
这意味着你要有一个设计文档,描述清楚你的软件是干什么的,要用哪种语言来开发,是JAVA、C还是WEB,是用原生JavaScript还是VUE框架,CSS手写还是用Twailwind CSS,这是“需求分析”和“设计”工作。
AI会根据你编写的文档,有缺失的它会问你,根据你的补充文字对话描述,来一起把这个设计文档一步步完善,输出markdown格式的.md文件让你最终确认,这是“评审”工作。
然后,AI会开始执行原来专属于程序员的写代码工作了(外界普遍认为程序员只干了这个,俗称码农。因为这活其他人真干不了啊,其它设计、测试什么的,不是程序员也还是可以糊弄一下的呢)。
AI写完的代码,如果是本地能执行的,智能体也能帮你立即运行,并且看下测试结果是否正常,有错误它也能修正。但实际工程里,大型系统不可能在开发机上完整运行,只能做单元测试,还是需要程序员来搭建测试环境进行人工测试和确认(当然,未来也可以是专门的测试智能体来完成这个集成测试工作)。
最后的发布、部署和运维,则有时根本不是技术的事情了,而是需要各种流程、规范和手续要办,出于商业机密的限制,很多公司都不希望这部分流程和数据泄密,否则要承担巨大风险。
那么再来问一遍自己,这么多活,是不懂软件工程的门外汉,遇到问题都选默认让AI自己决定就能完成的吗?如果你说可以,那这个AI编程智能体一定是为你量身定制的,你的脸得有多大啊。
2.2 不能做什么
程序员其实已经是最会偷懒的工程师了,一项工作如果重复且枯燥,他们不会像其他行业的工程师那样忍着,而是自己动手干,比如各种自动化流水线CI/CD,DevOps,AI编程只是进一步加速了这个过程。
但是,以真实世界为背景、以“人”的直觉和思考为基础的事情,AI是无法理解和实施的,哪怕它通过文字的训练上知天文下知地理,下雨天需要打伞,但它只是依葫芦画瓢在说话。它不能理解你领导看完软件演示后说的“我觉得这个软件哪里不对”代表什么,你仍然需要用工程师思维和AI讲清楚一件事的来龙去脉和你明确要它做的事件的目标和期望的结果,如果有多条技术路径,你需要给它可量化的判断指标而不是感觉。
你可以把AI编程智能体看成新时代的C语言开发工具IDE,当年C语言开发工具通过编译器把你输入的程序代码变成机器码去执行,你不用管生成的汇编代码整不整齐、性能好不好,编译器会自动帮你优化和改进,你只需要按软件工程规范写好你的C语言代码。
而现在,AI编程智能体依然需要你按软件工程规范描述好你的软件是什么,有哪些界面,功能的交互流程是什么,数据结构是什么,用什么开发语言、开发库、版本号……它帮你写程序代码,自动帮你编译测试优化和改进,你还是程序员,但你的工作内容变了,不变的是你还是做不了甩手掌柜。
新时代的程序员的职业生涯起步就是Team Leader了,你需要足够宽阔的知识面,因为你的“AI下属”会拒绝PUA,拒绝你讲不清楚的需求,在你不懂的地方给你挖坑。
2.3 正确打开方式
现在AI行业各个厂家还在不停升级和推出新的基础模型,但基本已经放缓,行业已经进入稳定期。所以,不要老想着投资算力,或者自己开公司研发一个更nb的基础模型,这个活已经和绝大多数普通公司和个人没有关系了,这项工作的持续投入成本已经是国家级的了,不是小公司可以玩的。
而且,普通人的关注点也不应该是老想着别人的一亩三分地,比如外行想用AI当程序员写软件,外行想用AI写小说当作家,外行想用AI分析案例当律师当医生……
AI在经过初期的炫技期后要落地,要养活自己(毕竟现在不管是联网花Token,还是本地部署算力服务器,都是很贵的),必然进入真正工程领域。
在工程领域,如果不知道一个黑盒子里面是什么,这多半不是一件好事,一般人不敢随便用。AI现在就是这么个黑盒子,输入的不确定性,也必定会导致输出的不确定性。所以AI在工程领域正确的打开方式是,需要本行业的专家,让AI在有监督的过程中,把自己的经验通过编程,转化为本行业的AI智能体,将经验固化下来。而这项工作,必定是程序员先在本行业内推进,并逐步延伸到其它行业的信息化领域。
用现阶段的技术语言描述就是,程序员需要把现有信息系统的API接口、文件、数据,以MCP、Skills或者其它未来的新方法封装,集成为特定的行业AI智能体,并且以“超级APP”的面貌出现,而这个APP与人的交互方式,可能还是屏幕上的按钮,也可能是一个和真人对话的麦克风或摄像头了,而它的实体可能是软件,也可能是一个智能硬件了。
这是一项值得去尝试和推进的工作,并且需求一直都存在,各种工单业务流、数据模板、低代码平台都是为了解决各行业信息化工作的重复、枯燥的问题而设计的,AI有希望一统江湖,努力吧少年。

