# mindtext.dataset.test1  

Dataset的构建  
=

Example SST-2数据集Dataset构建

    from mindtext.dataset.classification import SST2Dataset

    dataset = SST2Dataset(paths='./mindtext/dataset/SST-2',
                          tokenizer="./mindtext/pretrain/roberta-base",
                          max_length=128,
                          truncation_strategy=True,
                          batch_size=32)
    
    ds = dataset() 
    ds = dataset.from_cache( columns_list=['input_ids', 'attention_mask','label'],
                          test_columns_list=['input_ids', 'attention_mask'],
                          batch_size=32
                          )
    
    train_dataset = ds['train']
mindtext.dataset.base_dataset.Dataset
--  
>  class mindtext.dataset.base_dataset.Dataset( vocab (Vocabulary, Optional): Convert tokens to index,default None.
>  name (str, Optional): Dataset name,default None.
>  label_map (Dict[str, int], Optional): Dataset label map,default None.)  

通过base_dataset中基类Dataset来构建文本分类、文本匹配和生成任务对应的数据集  

>init(self, vocab: Vocabulary = None, name: str = None,
                 label_map: Dict[str, int] = None)

参数
> + vocab(Vocabulary):  词表，默认为None  
> + name(str):  下游任务数据集Dataset名称，默认为None  
> + label_map(Dict[str, int], Optional):Dataset标签映射
> 

mindtext.dataset.base_dataset.CLSBaseDataset
--

文本分类Dataset的基类

Example
>class SST2Dataset(CLSBaseDataset):

mindtext.dataset.base_dataset.PairCLSBaseDataset
-

文本匹配Dataset基类  

Example  

>class LCQMCDataset(PairCLSBaseDataset):