在自然语言处理(NLP)中,input_ids
是什么
在自然语言处理(NLP)中,input_ids
是将文本转换为模型可处理的数字表示后的结果,是模型输入的核心参数之一。
一、基本概念
-
文本数字化
- 原始文本(如 “Hello world!”)无法直接被模型处理,需要通过分词器(Tokenizer) 将其转换为数字序列。
input_ids
就是这个数字序列,每个数字对应词汇表(Vocabulary)中的一个 token(词元)。
-
词汇表(Vocabulary)
- 模型预训练时定义的词典,包含所有可能的 token 及其对应的唯一编号。
- 例如:词汇表可能将 “Hello” 映射为
101
,“world” 映射为202
。