对C4、RefinedWeb和Dolma AI培训数据集中14K Web域的研究:5%的数据和25%的最高质量数据受到限制(Kevin Roose/New York Times)

数据来源倡议的新研究发现,用于建立人工智能的馆藏所提供的内容急剧下降。

查看原文