mindtext.dataset.test1¶
Dataset的构建¶
Example SST-2数据集Dataset构建
from mindtext.dataset.classification import SST2Dataset
dataset = SST2Dataset(paths='./mindtext/dataset/SST-2',
tokenizer="./mindtext/pretrain/roberta-base",
max_length=128,
truncation_strategy=True,
batch_size=32)
ds = dataset()
ds = dataset.from_cache( columns_list=['input_ids', 'attention_mask','label'],
test_columns_list=['input_ids', 'attention_mask'],
batch_size=32
)
train_dataset = ds['train']
mindtext.dataset.base_dataset.Dataset¶
class mindtext.dataset.base_dataset.Dataset( vocab (Vocabulary, Optional): Convert tokens to index,default None. name (str, Optional): Dataset name,default None. label_map (Dict[str, int], Optional): Dataset label map,default None.)
通过base_dataset中基类Dataset来构建文本分类、文本匹配和生成任务对应的数据集
init(self, vocab: Vocabulary = None, name: str = None, label_map: Dict[str, int] = None)
参数
vocab(Vocabulary): 词表,默认为None
name(str): 下游任务数据集Dataset名称,默认为None
label_map(Dict[str, int], Optional):Dataset标签映射
mindtext.dataset.base_dataset.CLSBaseDataset¶
文本分类Dataset的基类
Example
class SST2Dataset(CLSBaseDataset):
mindtext.dataset.base_dataset.PairCLSBaseDataset¶
文本匹配Dataset基类
Example
class LCQMCDataset(PairCLSBaseDataset):