黑板报 对C4、RefinedWeb和Dolma AI培训数据集中14K Web域的研究:5%的数据和25%的最高质量数据受到限制(Kevin Roose/New York Times) 2024-07-20 数据来源倡议的新研究发现,用于建立人工智能的馆藏所提供的内容急剧下降。查看原文