模型的加载和编码以及基本的使用功能
安装
使用以下命令安装:
1 | pip install transformers |
模型的加载
导入包:
1 | from transformers import BertTokenizer |
加载预训练模型bert-base-chinese,初次加载可能需要较长的时间。
1 | #加载预训练字典和分词方法 |
接下来就可以看到tokenizer的内容:
1 | tokenizer |
进行编码
1 | sents = [ |
可以打印出res的结果:
1 | # 101为CLS 102为SEP 0为PAD |
也可以查看编码之后的结果:
1 | tokenizer.decode(res) |
多功能编码
1 | res = tokenizer.encode_plus( |
查看编码的结果:
1 | for k,v in res.items(): |
将句子批量进行编码
1 | out = tokenizer.batch_encode_plus( |