一起学习网 一起学习网


智源联合共建单位开源可信中文互联网语料库CCI

科技资讯 智源联合共建单位开源可信中文互联网语料库CCI,一起学习网, 学习交流平台, 在线学习, 学习资源, 教育平台, 学习社区, 学生论坛, 学习工具, 学习技巧, 学习经验 11-29

智源研究院联合拓尔思、中科闻歌共建了 “中文互联网语料库”(CCI),旨在为大数据和人工智能行业提供安全、可靠的语料资源。

该语料库经过严格的筛选和清洗,包括基于规则和模型的过滤,以及针对评测数据集的严格过滤。首期开放的数据规模为104GB,时间跨度为2001年至2023年。

图源备注:图片由AI生成,图片授权服务商Midjourney

智源研究院表示,将继续扩充数据来源、完善数据处理流程,提供更多高质量、可信的数据资源。

同时,智源研究院还开放了其他高质量中文数据集,如 WUDAO copora、COIG 和 MTP。

下载地址:

  • 智源开放数据仓库: https://data.baai.ac.cn/details/BAAI-CCI

  • HuggingFace:https://huggingface.co/datasets/BAAI/CCI-Data


编辑:一起学习网

标签:数据,语料库,研究院,智源,高质量,中文,语料,互联网,下载地址,资源