Nvidia发布了一套名为Nemotron-CC的大型英文数据集,总计包含6.3兆个Token,其中1.9兆包含合成数据。Nemotron-CC的发布使得学术界与企业界有能力再进一步推进大型语言模型的训练成果,提升其准确性。
品玩1月14日讯,据英伟达官方消息,英伟达近日宣布推出Nemotron-CC,这是一种包含 6.3 万亿个token的 英语语言Common Crawl数据集 ,用于预训练高度准确的大语言模型 。
IT之家 1 月 13 日消息,据英伟达官方博客,英伟达宣布推出一款名为 Nemotron-CC 的大型英文 AI 训练数据库, 总计包含 6.3 万亿个 Token,其中 1.9 万亿为合成数据 ...