前言
最近试了试用各家的AI写了点Python程序和PHP,可以说效果是千差万别,有些AI写出来又快又好,有些就是思考了很久但是输出的内容有报错。首先声明一下这篇文章是纯人工写的,完全0AI(除了封面),然后就是具有时效性,可能过两天推出个新的大模型又把我某些卡壳的体验修复了,最后就是纯个人体验和感受不具备普遍性,仅供参考。
成果
先大概展示一下我都做了些什么玩意出来,以及我人工介入的部分大概有多少。
AI医疗助理
外挂版(失败)
结合自己的工作内容,一开始想给本院的HIS加装一个外挂型的AI润色工具,无奈在自己尝试多次以及请教AI后都没办法取到程序内的数据,文本框里的字都摘不出来。也许是因为这玩意是PowerBuilder做出来的上古产物,而它最适合的运行环境的Windows XP。
悬浮球版(成功)
人工介入比例:50%

在外挂版失败后,我把API调用说明书直接甩给GPT,让它帮我搞定消息的发送和接收,最终花费几天的缝缝补补搞定了一个能端出来作为成品的程序。
考虑了特别多的安全性问题,例如token的存放要怎么加密。AI是有能力完成这一项工作的,他给出的方法至少比明文要好(
不过最好笑的是第一次让它代写的时候,它把secret和key作为两个单独的文件放在了和程序的同一个目录下,我寻思那不就是把钥匙和锁都直接丢在一起了,只不过不是每个人都会用这把钥匙而已。

流式输出也是在它一顿操作下就支持了,虽然我没有仔细研究它是怎么写的。一些小功能的编写基本上不会出错。
考勤统计软件
人工介入比例:30%

功能简介:把企业微信的请假申请表导出来,使用这个应用导入以后就可以导出一份表格,列出每个人每个月请了多少假、什么假、有没有超假之类的。
哎哎哎,是谁一个月假期额度只有4天啊
设计了一个非常人性化的功能,就是假期调整不能小于4,那是底线(

成果大概就这样,至于为什么会需要做这么一个软件?有时候所谓电子化办公就是另一个笑话罢了:明明大家都走线上请假了,但是还要再做出表格统计整理然后甚至打印出来签字。在做这个程序之前甚至是纯人工看着统的,统错了那也是时有发生的事情。
不过在这个程序推出以后,至少说服了这个流程上的参与者,能够使用这样的表格走电子审批(
PHP改造项目:AI平台
人工介入比例:几乎为0(因为不会)
我把WordPress微信机器人里自定义回复的第三方平台功能通过AI的指导改成了支持OpenAI兼容格式和混元智能体API的两种模式

也确实在后台回复成功了,但是没办法稳定回复,试着换一个接口也没有触发成功。由于我对PHP可以说是0理解,只能大概看懂它的代码想表达什么,然后认可AI给出的设计说明,并且跟AI一样想不通为什么会触发失败。
AI编程哪家强?
通过我个人使用下来的体验,我可以在本篇文章给出一点比较片面的评价。具体使用的情况可能受到每个人对编程语言的掌握水平以及AI对不同编程语言的能力的影响。
接下来的体验大部分来源于Python,少部分PHP
DeepSeek(R1和V3-0324)
使用下来的感受是:没有那么神、喜欢省略(节约算力也不算坏事吧)以下是一段它给的例子,我是想让它直接帮我把函数改好的,它就这么给了一段:
def on_floatball_clicked():
portal_hwnd = get_portal_hwnd()
if portal_hwnd:
win32gui.SetForegroundWindow(portal_hwnd)
# 后续逻辑...
假如你让它帮你改一段代码,你可能会收到这样的结果。对于已经足够熟练对应的程序语言的人来说也许足够了:因为你能很快发现它是不是偷偷改了你的变量名或者忘记定义了。
DeepSeek给我的感受就是它适合做一个提供理论支持的指导者,能给你提供一些开发方向。但是如果你想直接让它输出一个能跑的完整代码,至少我的体验下来就是很多时候它会漏一些代码,用#........的方式告诉你这段你还是自己写吧。
但是我把它的指导意见丢给别的GPT的时候,有时候是比我直接提需求更有效的。
ChatGPT (4o/o1/o3)
老牌经典砸钱砸出来的AI,感谢DeepSeek给的压力让它送上了免费的o3。
ChatGPT的几个模型用下来的感受就是:4o充满热情、很有自信,说话充满了鼓励的话语和各种热情,综合能力也是比较强的,可以识图又可以用各种工具。不过一些难度稍高的功能实现可能就无法直接给你写出来,但也能给你一些思路。
o1应该是目前OpenAI家最好的推理模型了,用下来实现复杂的功能也是它帮我写好一大半我自己兜底优化以下就行了。但是对于我们这个网络环境的人来说,我用下来经常需要刷新页面不然就会推理不出来或者报错,有时候还会遇到降智问题,o1直接拒绝执行一些比较耗算力的任务,思考时间长度和输出内容都明显缩水。
o3算是性价比之选了,免费用户使用的o3-mini能完成大部分简单任务了,我用的o3-mini-high则是能完成一些中等难度的任务。很多时候我的使用顺序都是4o→o3-mini-high→o1,推理模型额度用到差不多没了才会去用o3-mini。
额度方面的话,4o基本用不完,o1每周给50次,o3-mini-high就是每天50次,要是网络方面能够稳定点不要老是让我重试的话,只是o3-mini也能帮上很多忙了。值得一提的是GPT新的生图效果要比以前的强太多了,现在也经常能在社交平台看到。
Gemini
我只有免费版,但是Google非常乐意把好东西、内测的东西端出来给大家用。而且使用过程中没有遇到和GPT一样的断连问题,OpenAI那边还是对机房IP这些太敏感了,稍微不好一点的服务器被认出来就直接不让访问了。
免费的DeepResearch那更是绝杀,说不上比GPT的DeepThink效果好但是免费嘻嘻
参考文献方面也是感觉做得比较好的,那毕竟老牌搜索引擎了,和GPT比上网了那应该也是难分高下(?

对了,它以前还叫BARD的时候我就试用过了。今非昔比,聪明了不止一点半点。
如何用好AI辅助?
多试
AI大模型至今仍是基于概率模型框架构建,我们不能因为它准确率高了或者带来了一些意想不到的惊喜就忘了这一点,所以用它来实现一些未曾有人实现过的功能的话,也是在撞概率。其创新更多表现为“统计优化下的组合创造”,而非本质的突破性思维。
多试试不同的AI才能更大发挥辅助作用,如果发现某一家提供的指引一直无法帮助你突破,那就换一家。
多引导
如果给一个笼统的要求,那可能恰好给出了一个你想要的答案,但很多时候并不能一次性完成。例如我让它帮忙实现一个表格处理的功能,我就需要把表格内的很多细节都描述进去,不然它就可能开始自作主张处理一些我不需要处理的内容
找到最佳路线
如果你发现DeepSeek很适合组织架构,GPT程序能力很好更适合去实现想法,那你就可以用这个AI提供思路,用另一个AI去把代码写出来。但是最后的最后,一定要经过人工的校验,以确保没有什么明显的漏洞。
结语
AI是个好工具,但目前主流的模型还未突破成“自驾”级别,对于工作和学习来说都是”辅助驾驶“的水平。用好AI能够事半功倍,但不要忘了检查~~~~
这些天捣鼓下来的感想基本上就是,人工介入的比例还是相当高的,但就效率而言依旧比自己纯手搓要高得多。除了自己水平仍待提高以外,不可否认AI作为工具还是能帮人少走一些弯路的——只不过一些关键节点上,它给的意见也是需要再三思考后再采纳的。

Comments 2 条评论
一觉醒来怎么就变成o3和o4-mini了?看来文章的时效如此之短暂:in-river.这河狸吗:
@雪 顺便测一下新改的Mac识别了,故事起因是之前评论区的Mac用户有报错