对C4、RefinedWeb和Dolma数据集中包含的14 K Web域的研究发现,可用于训练AI模型的内容急剧下降(Kevin Roose/New York Times)

数据来源倡议的新研究发现,用于建立人工智能的馆藏所提供的内容急剧下降。

查看原文