对C4、RefinedWeb和Dolma数据集中使用的14K域的研究发现,随着出版商加强访问,可用于培训AI模型的内容急剧下降(Kevin Roose/New York Times)

数据来源倡议的新研究发现,用于建立人工智能的馆藏所提供的内容急剧下降。

查看原文