.NET 9 new features-Microsoft.ML.Tokenizers 库

mmmm123 发表于 2025-2-6 23:49:45

在 .NET 9 中，微软引入了 Microsoft.ML.Tokenizers 库，为 .NET 开发者提供了强大的文本标记化功能。
一、什么是Microsoft.ML.Tokenizers
　　　Microsoft.ML.Tokenizers 是一个用于文本标记化的库，是 .NET 生态系统中的一个强大库旨在将文本转换为令牌（tokens）
以便在自然语言处理（NLP）任务中使用。该库支持多种标记化算法，包括字节对编码（BPE）、SentencePiece 和 WordPiece，满足不同模型和应用的需求。
二、主要应用场景

[*]自然语言处理（NLP）：在训练和推理阶段，将文本转换为模型可处理的令牌格式。
[*]预处理步骤：在文本分析、情感分析、机器翻译等任务中，对输入文本进行标记化处理。
[*]自定义词汇表：开发者可以导入自定义词汇表，使用 BPE Tokenizer 处理特定领域的文本数据。
三、支持的模型和服务

Microsoft.ML.Tokenizers 针对多种流行的模型系列进行了优化，包括：

[*]

[*]GPT 系列：如 GPT-4、GPT-o1 等。
[*]Llama 系列。
[*]Phi 系列。
[*]Bert 系列。

此外，该库还与其他 AI 服务集成，如 Azure、OpenAI 等，为开发者提供统一的 C# 抽象层，简化与 AI 服务的交互。
四、主要类Class

1. Tokenizer 类

Tokenizer 类充当文本处理的管道，接受原始文本输入并输出 TokenizerResult 对象。它允许设置不同的模型、预处理器和规范化器，以满足特定需求。
主要方法：

[*]

[*]Encode(string text): 将输入文本编码为包含令牌列表、令牌 ID 和令牌偏移映射的对象。
[*]Decode(IEnumerable<int> ids, bool skipSpecialTokens = true): 将给定的令牌 ID 解码回字符串。
[*]TrainFromFiles(Trainer trainer, ReportProgress reportProgress, params string[] files): 使用输入文件训练标记器模型。

主要属性：

[*]

[*]Model: 获取或设置标记器使用的模型。
[*]PreTokenizer: 获取或设置标记器使用的预处理器。
[*]Normalizer: 获取或设置标记器使用的规范化器。
[*]Decoder: 获取或设置标记器使用的解码器。

2. Model 类

Model 类是标记化过程中使用的模型的抽象基类，如 BPE、WordPiece 或 Unigram。具体模型（如 Bpe）继承自该类，并实现其方法。
主要方法：

[*]

[*]GetTrainer(): 获取用于训练模型的训练器对象。
[*]GetVocab(): 获取将令牌映射到 ID 的词汇表。
[*]GetVocabSize(): 获取词汇表的大小。
[*]TokenToId(string token): 将令牌映射到标记化 ID。
[*]IdToToken(int id, bool skipSpecialTokens = true): 将标记化 ID 映射到令牌。
[*]Tokenize(string sequence): 将字符串序列标记化为令牌列表。
[*]Save(string vocabPath, string mergesPath): 将模型数据保存到词汇和合并文件中。

3. Bpe 类

Bpe 类表示字节对编码（Byte Pair Encoding）模型，是 Model 类的具体实现之一。它用于将文本拆分为子词单元，以提高对未登录词的处理能力。
主要属性：

[*]

[*]UnknownToken: 获取或设置未知令牌。在遇到未知字符时使用。
[*]FuseUnknownTokens: 获取或设置是否允许多个未知令牌融合。
[*]ContinuingSubwordPrefix: 用于仅存在于另一个子词后面的任何子词的可选前缀。
[*]EndOfWordSuffix: 用于描述词尾子词特征的可选后缀。

主要方法：

[*]

[*]Save(string vocabPath, string mergesPath): 将模型数据保存到词汇和合并文件中。
[*]Tokenize(string sequence): 将字符串序列标记化为令牌列表。
[*]GetTrainer(): 获取用于训练模型的训练器对象，并生成词汇和合并数据。

4. EnglishRoberta 类

EnglishRoberta 类是专门为英语 Roberta 模型设计的标记器模型。它继承自 Model 类，并实现了特定于 Roberta 的标记化逻辑。
主要属性：

[*]

[*]PadIndex: 获取符号列表中填充符号的索引。
[*]SymbolsCount: 获取符号列表的长度。

主要方法：

[*]

[*]AddMaskSymbol(string maskSymbol): 将掩码符号添加到符号列表。
[*]IdsToOccurrenceRanks(IReadOnlyList<int> ids): 将令牌 ID 列表转换为最高出现次数排名。
[*]OccurrenceRanksIds(IReadOnlyList<int> ranks): 将最高出现次数排名的列表转换为令牌 ID 列表。
[*]Save(string vocabPath, string mergesPath): 将模型数据保存到词汇、合并和匹配项映射文件中。

5. RobertaPreTokenizer 类

RobertaPreTokenizer 类是为英语 Roberta 标记器设计的预处理器。它负责在标记化之前对文本进行初步拆分和处理。
主要方法：

[*]

[*]PreTokenize(string text): 对输入文本进行预标记化处理。

6. Split 类

Split 类表示将原始字符串拆分后的子字符串。每个子字符串由一个标记表示，最终可能代表原始输入字符串的各个部分。
主要属性：

[*]

[*]TokenString: 获取基础拆分令牌。

五、示例代码
使用 Microsoft.ML.Tokenizers 库对文本进行标记化，以适配 GPT-4 模型，可以按照以下步骤进行：

[*]安装必要的 NuGet 包：确保项目引用了 Microsoft.ML.Tokenizers 包。
[*]加载 GPT-4 的词汇表和合并对文件：从官方或可信来源获取 GPT-4 模型的词汇表（vocab.json）和合并对（merges.txt）文件。
[*]初始化 BPE 模型并加载词汇表：使用 Microsoft.ML.Tokenizers 库中的 Bpe 类加载词汇表和合并对文件。
[*]创建标记器并进行文本标记化和解码：使用 Tokenizer 类对输入文本进行标记化，并根据需要解码回原始文本。
以下是示例代码：
using System;using Microsoft.ML.Tokenizers;class Program{ static void Main(string[] args) { // 初始化 BPE 模型 var bpe = new Bpe(); // 加载 GPT-4 的词汇表和合并对文件 bpe.Load("path_to_vocab.json", "path_to_merges.txt"); // 创建标记器 var tokenizer = new Tokenizer(bpe); // 输入文本 var inputText = "这是一个用于测试的文本。"; // 对文本进行标记化 var encoded = tokenizer.Encode(inputText); // 输出标记化结果 Console.WriteLine("Tokens:"); foreach (var token in encoded.Tokens) { Console.WriteLine(token); } // 解码回原始文本 var decodedText = tokenizer.Decode(encoded.Ids); Console.WriteLine($"Decoded Text: {decodedText}"); }}

[*]路径设置：将 "path_to_vocab.json" 和 "path_to_merges.txt" 替换为实际的文件路径。
[*]词汇表和合并对文件的获取：确保从官方或可信来源获取与 GPT-4 模型兼容的词汇表和合并对文件。
[*]模型兼容性：虽然此代码使用了通用的 BPE 标记器，但在实际应用中，可能需要根据 GPT-4 模型的具体要求进行调整。
周国庆
2025/1/6

页: [1]

智能设备's Archiver

.NET 9 new features-Microsoft.ML.Tokenizers 库