哪些工作会被Q*取代

潘仲光 2023年11月27日

11月16日在APEC亚太经济峰会上OpenAI的首席执行官奥特曼爆料明年的ChatGPT迭代将有超出人们想象力的变化。

11月22日路透社爆料在奥特曼被董事会开除的4天前，有几位OpenAI研究员向董事会发送了一封信，警告说他们发现了一种强大的人工智能算法，按照公司CTO首席科技官米拉穆拉蒂女士取的代号Q*（读Q-Star），可能是OpenAI一直在寻找的超级智能（也称为人工通用智能AGI）。

OpenAI将AGI定义为比人类更聪明的人工智能，这将威胁人类的生存。大家要理解的是目前的AI技术只是一种统计和拼凑反馈的工具，只能根据你提的问题，按照最高关联度的历史资料，拼凑最佳内容给你。但所谓的AGI是可以泛化、学习、理解和推理出新的论点，也就是有自我改变理论的能力。

就是在以上的两个日期之间，全球见证了有史以来最大的企业政治龙卷风。11月17日开源人工智能组织（OpenAI）的董事会公告解雇首席执行官奥特曼以及董事长布拉克门，之后布拉克门辞职总裁位。11月18日市场担心OpenAI对微软的100亿美元合作合同违约，微软股票下跌5%。11月19日在X网（原推特）上看到奥特曼手持“来宾”门禁卡回到组织谈判，并要求董事成员全部辞职，谈判失败。11月20日OpenAI董事会公告奥特曼不会回来并宣布新临时CEO是直播平台Twitch的前任CEO 希尔先生。当天微软董事长兼首席执行官纳德拉在X网公布微软聘任奥特曼和布拉克门主持新的微软人工智能团队。同日96%的OpenAI员工签署联名信威胁董事会：如果奥特曼不回来则将全体辞职。所有硅谷大公司高级主管纷纷在X网上公开邀请OpenAI员工到自己公司。微软、英伟达、Salesforce、谷歌、Meta、亚马逊等等。11月21日奥特曼回归，11月22日OpenAI董事会重组，两位女士离开。Bret Taylor做董事长，他是前Salesforce的CEO。另一位董事是Larry Summers，他是克林顿总统财务长和奥巴马总统的国家经济委员会主管。第三位是原董事也是唯一在开除首席执行官和董事长议案投反对票的D’Angelo先生。

2022年11月OpenAI启动的ChatGPT触发了全球大语言模型热潮，算力芯片价格暴涨上百倍，ChatGPT月活量超过1亿人次，估值800亿美元。微软作为OpenAI的合作伙伴已经投资了超过100亿美元，一年内股价从200美元涨到400美元，市值超过2.8万亿美元。2015年OpenAI创始董事会有12位成员，包括了马斯克和奥特曼。但到了2022年底只剩下2位：D’Angelo和Sutskever，新加入了两位学术派女士和一位商业男士。2019年OpenAI组织从非盈利机构改为可以为合作方的投资金额赚取不超过投资金额100倍利润的有限非盈利机构。以上龙卷风期间纽约时报爆料奥特曼对董事成员乔治亚大学女教授Helen Toner的反派论文争议是造成董事会开除决定的导火线。其他媒体则爆料与另外两位董事Tasha McCauley和Ilya Sutskever也有纠纷。主要就是“加速派”和“对齐派”之争。“对齐派”恐惧超级人工智能可能带来的毁灭性后果，毕竟从《终结者》开始的一系列科幻电影都已经把这个问题讲的非常清楚，他们认为在没有足够强的防火墙（对齐训练和对齐测试）之前，不应该将具有自主意识的AGI公之于众，以免造成无法挽回的损失。

除了董事长，OpenAI组织剩下的四位董事非常有趣。Tasha McCauley是Rand 集团的首席科学家。也就是说两位女董事都是学术派没有市场经验。Ilya Sutskever可以说是发明用英伟达显卡GPU作为算力（和比特币挖矿机）的发明人，改变了人工智能的历史。创业OpenAI时就是Ilya和前董事长兼总裁布拉克门一起发明的OpenAI主要架构。开除奥特曼后，Ilya立刻反悔，并与743位员工一起签辞职信。太太向奥特曼求情后，奥特曼宽恕了Ilya但是仍然不允许他再担任董事。最后一位董事D’Angelo是Quora公司的大股东也是CEO，Quora是世界最大的专家问答网站，类似国内的知乎。ChatGPT上市直接杀了Quora的大语言模型Poe。然而他今天仍然在新的董事会上。媒体上对此也有许多阴谋论。

八卦完OpenAI组织内幕后我们回来谈谈什么是密信里的Q*，按照行业内专家和OpenAI匿名员工的叙述，这是2013年兴起的Q-Learning和1968年的A*理论的合并新算法。OpenAI首席科技官米拉穆拉蒂女士证实Q*可以完全靠自己的能力解答出幼稚园数学题的答案。这与目前全球风靡的大语言模型LLM不同。大语言模型只能根据你提的问题，按照最高关联度的历史资料，拼凑最佳答案给你。因此当模型找不到高关联度答案的时候，它就会拼凑一些低关联度的内容作为解答方案，也因此许多人批评ChatGPT会有幻觉甚至制造虚假信息。这也是马斯克离开OpenAI的原因，马斯克年底要在X网上推出一款不会撒谎没有幻觉的机器人Grok，而且可以实时寻找正确答案，不像ChatGPT需要一年的训练时间。我们都知道目前的人工智能可以根据你的提问，按照关联度拼凑出来文章图像和音乐。但是不能做数学题。你可以试试看提问ChatGPT或任何品牌的大语言模型一个超过三个步骤才能结答的问题，大语言模型因为无法找到关联度高的文字内容，就会拼凑一个错误的答案给你。因为数学题是一种绝对的推理，与关联度无关，目前的人工智能没有泛化、学习、理解、设计等人类推理需要的能力。

那么Q*是如何做到的呢？按照2013年的Q-Learning和2016年的Deep-Q-Learning也就是神经网络强化学习的Quality of Action质量行为法，机器人/智能体Agent根据目前环境的‘状态“State可以执行一个随机的新行为（试探新行为学习其成功概率）或利用老行为（使用记忆里已有成功概率的行为）因此获得新状态。根据新状态的质量（奖励/惩罚的积分）来学习不同行为的成功率，机器不断重复迭代使之最大化奖励/惩罚的总积分/成绩。这种学习方法与传统的循环神经网络或Transformer等学习方法最大的不同是不需要数据集（知识库），Q质量学习本身会根据不同状态下的不同行为的奖惩积分来创造和累积自己的数据集/知识库。因此这种学习方法与大语言模型不一样，Q学习可以通过奖惩积分寻找一个数学题的答案。

A*指1968年三位斯坦佛大学研究员写的寻找最佳路径的论文。当时他们需要让一台机器人能够自己找到与目的地最短路线的方法。基本逻辑就是探索所有还没有走过的路线，根据障碍位置和目的地位置的距离成本，累计初始位置和目标位置成本相结合的总数，计算出来成本最低的路径。由此可见如果结合Q学习来创造更高质量行为以及A*的探索最低成本路径，则最终解答出来的答案必定是本数学题里最优的答案。

这算不算超级人工智能AGI呢？我认为不是。Q*的学习方法有个最大的弱点，那就是必须要由人类来设计这个游戏/数学题，需要人类设计各种状态和行为的变数、以及行为和状态的奖惩办法。机器人不能自己设计状态的结构和其对应行为的奖惩办法，也就是说人工智能仍然是兵卒，自己没有能力做军师。人民有能力学习和迭代最佳生存方法，但不代表可以设计国家法规或发明解决问题的方法或工具。

我相信明年新一代的OpenAI将推出一种新的工具，可以为各种数学题解答。这样机器人就能帮助人类寻找最佳工程问题的方案，不管是土建、化学、生物、电路、芯片、机械等各种工程难题都能通过新的解题工具帮助我们人类找到最佳方案。大语言模型将逐步取代各种白领岗位如秘书、律师、会计师、记者、编剧等行业的工作。那么Q*将逐步取代各种工程师和设计师的工作。人类将分成六类人：政治家、科学家、艺术家、组织者、体育员、无业者。政治家用机器人打仗、治安、纳税。科学家将制作像教学、治疗、竞赛、娱乐、饮食等生命里需要的工具和产品。艺术家将制作各种表演、展览、娱乐等内容。组织者将组织体育员参加各种真人竞技比赛。剩下的无业者将根据组织者的竞赛进行赌博、享受艺术家制作的内容、以及使用科学家的产品维持生命。每位无业者每个月都会有固定额度的薪水让其消费。OpenAI称之为UBI或称无条件基本收入。OpenAI发行的UBI货币叫做世界币World Coin。

发表评论 取消回复

发表评论取消回复