OpenAI引入了基于规则的奖励,这是一种自动对某些模型进行微调并缩短确保模型安全运行所需时间的方法(Emilia David/VentureBeat)

OpenAI宣布了一种新的方法来教AI模型与安全策略保持一致,称为基于规则的奖励。–据翁丽莲。

查看原文