黑板报 对C4、RefinedWeb和Dolma数据集中包含的14 K Web域的研究发现,可用于训练AI模型的内容急剧下降(Kevin Roose/New York Times) 2024-07-20 数据来源倡议的新研究发现,用于建立人工智能的馆藏所提供的内容急剧下降。查看原文