# **词元**、**词元化**与**词元标记器**
## **Token**, **Tokenize** and **Tokenizer**

### 1.加载`transformers` 库
- 从 Huggingface（一个开源社区和平台) 的 `transformers` 库中导入用于处理 NLP 模型的工具
- 这个库包含了大量预训练的模型和对应的词元标记器（简称“标记器”）

In [1]:
# #安装transformers库
# pip install transformers

In [2]:
import transformers

### 2.加载GPT-2的标记器
- 这一步加载了GPT-2模型的预训练标记器
- GPT-2的标记器使用**字节对编码（BPE）**

In [3]:
# GPT-2 使用字节对编码（BPE）作为词元化方法，将输入文本转为词元
tokenizer = transformers.AutoTokenizer.from_pretrained(
    'gpt2',clean_up_tokenization_spaces = True)

### 3.`tokenize()`词元化
- 首先，`tokenizer.tokenize(text)`会将text文本切分为**词元（token）**，
- 这些 token 是模型可以理解的最小文本单位

In [4]:
# 定义一个英文文本
text = "Attention is all you need"

# 使用标记器将文本拆分为token列表
# GPT-2的标记器会将输入的句子切分成多个词元，这些词元是基本的语言单位
tokens = tokenizer.tokenize(text)
print(tokens)

['Att', 'ention', 'Ġis', 'Ġall', 'Ġyou', 'Ġneed']


### 4.`encode()`编码
- 接下来，`tokenizer.encode(text)` 会将这些**词元**转换为相应的**ID**
- **ID**是GPT-2词汇表中对应**词元**的索引

In [5]:
# 使用编码器将token转换为相应的ID
ids = tokenizer.encode(text)
# 打印词元化结果，输出每个词被切分成的 token
print(ids)

[8086, 1463, 318, 477, 345, 761]


### 5.`decode()`编码
- `tokenizer.decode(ids)` 会将**ID**转换回相应的**词元**

In [6]:

print(tokenizer.decode(ids[0]))
print(tokenizer.decode(ids[1]))
print(tokenizer.decode(ids[2]))
print(tokenizer.decode(ids[3]))
print(tokenizer.decode(ids[4]))
print(tokenizer.decode(ids[5]))

tokenizer.decode(ids)

Att
ention
 is
 all
 you
 need


'Attention is all you need'

### 6.中文例子

In [7]:
# 定义一个中文文本
text = "西南财经大学"

# 再次使用标记器对中文文本进行词元化
# 因为 GPT-2 原本是针对英文的，所以处理中文时会有较为不同的词元化结果
tokens = tokenizer.tokenize(text)

# 打印中文词元化的token列表
print(tokens)


['è', '¥', '¿', 'åį', 'Ĺ', 'è', '´', '¢', 'ç', '»', 'ı', 'å¤§', 'åŃ', '¦']


In [8]:
# 将中文文本编码为 ID 序列
ids = tokenizer.encode(text)
# 打印对应的 ID 列表
print(ids, '\n')


[164, 98, 123, 39355, 245, 164, 112, 95, 163, 119, 237, 32014, 27764, 99] 



In [9]:
# 尝试解码：
print(tokenizer.decode([164]))
print(tokenizer.decode([164, 98]))
print(tokenizer.decode([164, 98, 123]))

�
�
西


In [10]:
# 分段解码
print(ids[0:3], ':', tokenizer.decode(ids[0:3]))
print(ids[3:5], ':', tokenizer.decode(ids[3:5]))
print(ids[5:8], ':', tokenizer.decode(ids[5:8]))
print(ids[8:11], ':', tokenizer.decode(ids[8:11]))
print(ids[11:12], ':', tokenizer.decode(ids[11]))
print(ids[12:14], ':', tokenizer.decode(ids[12:14]))

[164, 98, 123] : 西
[39355, 245] : 南
[164, 112, 95] : 财
[163, 119, 237] : 经
[32014] : 大
[27764, 99] : 学


### 7.自动匹配词元和ID

In [11]:
text = "数据智能方法(DSC322)：大语言模型应用"
tokens = tokenizer.tokenize(text)
ids = tokenizer.encode(text)

# 空列表存储每个分段的开始位置和对应的文字
segments = []

# 用一个游标去追踪处理到的文本位置
text_pointer = 0
decoded_text = ""

# 遍历所有 ids，拼接连续的 token，直到匹配原始文本片段
current_tokens = []
for i in range(len(ids)):
    current_tokens.append(ids[i])
    decoded_text = tokenizer.decode(current_tokens)
    
    # 当 decoded_text 可以匹配原始文本中的子字符串时，保存此段
    if text[text_pointer:text_pointer+len(decoded_text)] == decoded_text:
        segments.append((current_tokens, decoded_text))
        text_pointer += len(decoded_text)
        current_tokens = []  # 清空 current_tokens 准备处理下一个片段

# 打印每个 id 和其对应的字符
for segment in segments:
    ids_segment = segment[0]
    text_segment = segment[1]
    print(f"{text_segment} <-- {ids_segment}")

数 <-- [46763, 108]
据 <-- [162, 235, 106]
智 <-- [162, 247, 118]
能 <-- [47797, 121]
方 <-- [43095]
法 <-- [37345, 243]
( <-- [7]
DS <-- [5258]
C <-- [34]
322 <-- [37283]
) <-- [8]
： <-- [171, 120, 248]
大 <-- [32014]
语 <-- [46237, 255]
言 <-- [164, 101, 222]
模 <-- [162, 101, 94]
型 <-- [161, 252, 233]
应 <-- [41753, 242]
用 <-- [18796, 101]
