使用vocabulary构建词典¶
Vocabulary 是包含字或词与index关系的类,用于将文本转换为index。
Args:
max_size (int,可选):Vocab的最大大小,默认。
min_freq (int,可选):最小频率,默认。无
padding (str): padding令牌,默认为 pad。
unknown (str):未知标记,默认为 unk。
构建Vocabulary¶
vocab = Vocabulary()
word_list = "this is a word list".split()
vocab.update(word_list) # 根据列表中的词更新词频
vocab.build_vocab() # 根据词频构建词典
print(vocab["word"]) # 5
print(vocab.to_word(5)) # `word`
使用pd.Series构建Vocabulary¶
word_list_series = pd.Series([word_list]) # ['this', 'is', 'a', 'word', 'list']
idx_list_series = vocab.word_to_idx(word_list_series)
print(idx_list_series) # [2,3,4,5,6]
word_list_series = vocab.idx_to_word(idx_list_series)
print(word_list_series) # ['this', 'is', 'a', 'word', 'list']
从pandas.DataFram中构建Vocabulary¶
word_list_dataFrame = pd.DataFrame({"text": [word_list]})
vocab = Vocabulary.from_dataset(word_list_dataFrame, field_name='text')
读取文件进行初始化¶
vocab = Vocabulary.from_file('./1.txt')