GPT-4“自我反思”后能力大增，测试表现提升30%

2023-04-04 11:22 来源：IT之家作者：夏冰阅读量：5874

分享到：

，OpenAI 最新的语言模型 GPT-4 不仅能够像人类一样生成各种文本，还能够设计和执行测试来评估和改进自己的表现。这种“反思”技术让 GPT-4 在多项难度较高的测试中，都取得了显著的进步，测试表现提升 30%。

GPT-4 是继 GPT、GPT-2 和 GPT-3 之后，OpenAI 推出的最先进的系统，也是目前最大的多模态模型。其利用深度学习技术，使用人工神经网络来模仿人类的写作。

研究人员诺亚?辛恩和阿什温?戈平纳特(Ashwin Gopinath)在论文中写道:“我们开发了一种新颖的技术，让 AI 代理能够模拟人类的自我反思，并评估自己的表现。GPT-4 在完成各种测试的时候，会增加一些额外的步骤，让它能够自己设计测试来检查自己的答案，找出错误和不足之处，然后根据发现来修改自己的解决方案。”

在 HumanEval 编码测试中，GPT-4 使用自我反思环路，准确率从 67% 上升到 88%

GPT-4 可以通过设计和执行测试来批判其自身的性能，如 AlfWorld 测试结果所示，可以大大改善其性能

研究团队使用这种技术对 GPT-4 进行了几种不同的性能测试。在 HumanEval 测试中，GPT-4 需要解决 164 个从未见过的 Python 编程问题，原本准确率为 67%，使用反思技术后，准确率提升到了 88%。在 Alfworld 测试中，AI 需要在各种不同的交互环境中，通过执行一些允许的操作，来做出决策和解决多步任务。使用反思技术后，GPT-4 的准确率从 73% 提高到了 97%，只有 4 个任务失败。在 HotPotQA 测试中，GPT-4 可以访问维基百科，并回答 100 个需要从多个支持文档中解析内容和推理的问题，原本准确率为 34%，使用反思技术后，准确率提高到了 54%。

郑重声明：此文内容为本网站转载企业宣传资讯，目的在于传播更多信息，与本站立场无关。仅供读者参考，并请自行核实相关内容。

相关: 269元的闪极Retro67充电器今晚上市：拥有3个US
苹果削减零售成本，裁掉部分店铺建设和维护人员
中兴新支点OS自研的超凡桌面环境正式开源：安装包仅104
中指研究院：预计二季度全国房地产市场将保持平稳态势但城市
数风流银行，还看存款-各大银行存款对比
保利置业前三月销售217亿?同比增长261%
助眠产品功效几何？看清蓝帽标签谨慎购买食用
开源欧拉openEuler23.03版本发布，采用Lin
家乐福变小大卖场求生
摆脱锂依赖电池企业押宝钠离子
极氪009推送ZEEKROS3.6更新：新增动态续航里程
Xbox独占游戏《吸血鬼幸存者》获得BAFTA“最佳游戏
重磅产品上市助力营收创新高沃森生物自主研发卡位变革风口
《暗黑破坏神4》公测版刷新该系列同期纪录，玩家累计游戏时
LG27GR95QE显示器降价1000元：27英寸OLE
支持蓝牙5.1，摩托罗拉2023年款MotoGStylu
全球首个商用海底数据中心下水，结构设计寿命25年
边风炜：更多机会正在路上
河北建设新成立建筑工程公司，经营范围含住宅室内装饰装修
华为通话手环B7开售：到手价949元起，采用1.53英寸

头条