本文将介绍如何在魔搭上创建数据集,首先登录后通过网页创建数据库集。
 
 通过 git 命令 clone 数据集

 创建数据集,初始化训练数据和测试数据 train.csv,test.csv,注意 csv 的首行为列名称
 
 创建子数据集,魔搭上子数据集就是子目录,创建目录 yy2024

 对子数据集,创建训练集以及测试集数据
 
 最后最重要的是数据集的配置,在 README.md 中添加配置
 
---
license: Apache License 2.0
configs:
- config_name: default
  data_files:
  - split: train
    path: "train.csv"
  - split: test
    path: "test.csv"
- config_name: yy2024
  data_files:
  - split: train
    path: "yy2024/train.csv"
  - split: test
    path: "yy2024/test.csv"
---
 
通过代码下载数据集,FORCE_REDOWNLOAD 解决缓存问题,每次都强制下载,subset_name 为子数据集名称。
from modelscope import MsDataset
from modelscope.utils.constant import DownloadMode
ds = MsDataset.load('model1001/ds1',
                    download_mode=DownloadMode.FORCE_REDOWNLOAD,
subset_name='yy2024', 
split='train',
use_streaming=True
)  
print(next(iter(ds)))
 
总结
魔搭的数据集功能感觉还是没有 HuggingFace 的好用,文档也不详细,好处是魔搭有一个钉钉群有问必答,客服非常有耐心,产品要是在好些就更好了。



















