# mindtext.dataset.test1 Dataset的构建 = Example SST-2数据集Dataset构建 from mindtext.dataset.classification import SST2Dataset dataset = SST2Dataset(paths='./mindtext/dataset/SST-2', tokenizer="./mindtext/pretrain/roberta-base", max_length=128, truncation_strategy=True, batch_size=32) ds = dataset() ds = dataset.from_cache( columns_list=['input_ids', 'attention_mask','label'], test_columns_list=['input_ids', 'attention_mask'], batch_size=32 ) train_dataset = ds['train'] mindtext.dataset.base_dataset.Dataset -- > class mindtext.dataset.base_dataset.Dataset( vocab (Vocabulary, Optional): Convert tokens to index,default None. > name (str, Optional): Dataset name,default None. > label_map (Dict[str, int], Optional): Dataset label map,default None.) 通过base_dataset中基类Dataset来构建文本分类、文本匹配和生成任务对应的数据集 >init(self, vocab: Vocabulary = None, name: str = None, label_map: Dict[str, int] = None) 参数 > + vocab(Vocabulary): 词表,默认为None > + name(str): 下游任务数据集Dataset名称,默认为None > + label_map(Dict[str, int], Optional):Dataset标签映射 > mindtext.dataset.base_dataset.CLSBaseDataset -- 文本分类Dataset的基类 Example >class SST2Dataset(CLSBaseDataset): mindtext.dataset.base_dataset.PairCLSBaseDataset - 文本匹配Dataset基类 Example >class LCQMCDataset(PairCLSBaseDataset):