C2S-Scale：Cell2Sentence v2

目前的单细胞基础模型（scFMs）在可扩展性、跨多种任务的灵活性以及整合文本信息的能力方面仍然有限。基于Cell2Sentence（C2S）框架展开工作，该框架将单细胞RNA测序（scRNA-seq）图谱表示为文本形式的 “细胞句子”，并在一个包含超过10亿个tokens（包括转录组数据、生物学文本和元数据）的语料库上训练大语言模型（LLMs）。通过将模型规模扩展到270亿个参数，发现模型的预测和生成能力不断提升。借助现代强化学习技术支持的针对性微调，C2S在扰动反应预测、自然语言解释和复杂生物推理等任务中表现出色。通过大规模整合转录组数据和文本数据，这种方法不仅超越了专门的单细胞模型和通用大语言模型，还为下一代单细胞分析建立了一个强大的平台，为 “虚拟细胞” 的发展铺平了道路。

fig1

图1：基于大语言模型的单细胞分析。这是C2S框架的多维扩展，展示了在模型容量、数据集规模、多模态、多细胞支持以及从单细胞到生物体层面的自然语言洞察的跨生物尺度整合等方面的进展。该框架将计算创新与生物发现相连接，加速了下一代单细胞分析的发展。

背景概述

最近的转录组基础模型（FMs），如scGPT、Geneformer、scFoundation和scGenePT，在模拟单细胞转录组数据方面展现出了潜力。尽管取得了这些进展，但当前的模型常常受到定制架构的限制，这阻碍了它们扩展到更大的模型规模、整合不同的数据模态，以及执行各种生成性和预测性任务的能力。这些限制制约了仅基于表达的基础模型在不同数据集、数据模态和生物学背景下综合得出见解的能力，凸显了需要一种替代方法，能够在保持灵活性和可扩展性的同时应对这些挑战。

LLMs 为这些挑战提供了一个很有前景的解决方案。大语言模型在自然语言处理（NLP）领域应用广泛。它们处理海量文本语料库并有效推广到新应用的能力，使其非常适合解决当前仅基于表达的模型存在的局限性。Cell2Sentence（C2S）通过数据工程利用大语言模型的能力，将高维单细胞数据转化为与这些模型兼容的文本格式。通过将单细胞RNA测序（scRNA-seq）图谱转换为 “细胞句子”（即根据表达水平排序的基因名称序列），C2S将单细胞数据融入大语言模型框架，与专门的模型架构相比，具备更好的可扩展性和基础设施优势。这种数据转换策略简化了模型的开发和部署，能够轻松将转录组数据与多种模态进行整合，包括元数据、实验条件以及生物学文献中的文本描述。

为此，C2S-Scale 如图1所示，该模型在以下几个方面显著改进了C2S范式：（a）模型容量；（b）模型性能；（c）数据集规模和多模态；（d）上下文长度和多样性；（e）下游应用。

C2S-Scale模型家族确立了单细胞分析中的缩放定律，是迈向新一代基于语言技术的生物发现工具的重要一步，为整合转录组数据、自然语言和上下文信息的虚拟细胞平台奠定了基础。

tab1

贡献总结如下：

利用大语言模型扩展单细胞分析：C2S-Scale 是一类新型大语言模型，旨在从多个维度扩展单细胞分析：
- 更大的模型容量：C2S-Scale包含参数数量从4.1亿到270亿不等的模型（4.1亿、10亿、20亿、90亿和270亿），基于Gemma-2和Pythia大语言模型架构构建。与现有的单细胞基础模型相比，这显著提升了模型容量，使其能够捕捉数据中更复杂的关系。
- 大规模下性能提升：确立了大语言模型在单细胞分析中的性能缩放定律，证明随着模型参数从4.1亿增加到270亿，其在预测和生成任务中的表现均有显著提升。对留出测试集的评估表明，更大的模型在各种单细胞任务中的泛化能力更强。在完全微调及参数高效微调两种模式下都能观察到这种缩放趋势，这凸显了即使计算资源有限，扩展模型规模仍具有实际效用。
- 数据规模和多模态：C2S-Scale模型在一个包含10亿个tokens的大规模多模态语料库上进行训练，该语料库涵盖了超过5000万个人类和小鼠细胞，以及相关的元数据和注释，这些数据来自公开的单细胞图谱，如人类细胞图谱和CellxGene。通过同时使用转录组数据和相应的生物学文本（如论文摘要）进行训练，C2S将单细胞转录组数据与自然语言和生物学背景相结合。这个语料库被整理成1.5亿个多任务训练样本（详见表1），使大语言模型能够在学习多样化任务的同时，整合注释和自由文本信息。
- 长上下文、多细胞处理能力：C2S-Scale模型支持长达8192个token的扩展上下文长度，能够实现更全面的多模态和多细胞输入。重要的是，C2S-Scale可以同时处理和生成多个细胞的数据，便于分析细胞间相互作用和复杂的生物过程。扩展的上下文还能整合各种上下文信息，包括生物学注释、论文文本、扰动条件以及更详细的特定任务指令。
- 多样的下游应用：与以往的模型相比，C2S-Scale模型在更广泛的下游任务上进行了微调与评估，涵盖了具有挑战性的生物推理任务，如扰动预测、对单细胞数据进行细致的自然语言解释以及复杂的问答任务，展示了多功能性和适用性。
利用强化学习提升性能：受自然语言处理中使用强化学习使大语言模型符合用户偏好的启发，C2S利用群体相对策略优化（GRPO）进一步优化，以适用于特定的单细胞任务。实验量化了在具有挑战性的问答基准测试以及扰动响应预测中，使用GRPO所带来的性能提升。
一种评估单细胞生成模型的新指标：C2S引入了单细胞弗雷歇初始距离（scFID），它是对广泛用于评估图像生成模型的弗雷歇初始距离（FID）的一种改编。与可能受高维噪声和离群基因主导的表达水平指标不同，scFID利用单细胞基础模型的嵌入空间，以一种具有生物学意义的方式评估生成细胞的质量。
开源模型和资源：C2S向社区发布代码和模型权重，以促进基于大语言模型的单细胞分析得到更广泛的应用和进一步发展。这包括用于构建转录组 - 语言整合数据集的资源，以及基于大语言模型分析的提示信息。

LLM框架和训练

C2S-Scale采用基于大语言模型（LLM）的框架进行单细胞分析，如图2所示，该框架在原始的Cell2Sentence框架基础上构建并进行了扩展。为了用自然语言表示细胞，C2S-Scale会按照表达水平对每个细胞中表达的基因进行降序排列，然后将基因名称用空格连接起来，形成一个 “细胞句子”（图2B）。这种表示方法既保留了基因的相对表达情况，又能让大语言模型利用其在大规模自然语言数据预训练过程中获得的与基因名称相关的已有知识。由于基因的相对位置与原始表达之间存在很强的关联（图9提供了示例），从表达数据到细胞句子表示的转换是可逆的，且信息损失极小。

训练C2S-Scale模型分为两个阶段：首先是在大规模语料库上进行自监督的通用预训练阶段，随后是针对特定任务的额外微调。为了构建预训练语料库，作者从CellxGene和HCA等数据集中收集了来自多种组织的超过5000万个人类和小鼠转录组数据，以及相关的注释、论文和元数据。在使用原始语料库样本构建的各种任务上对C2S-Scale进行预训练，这些任务涵盖了单细胞和多细胞背景下的预测任务和生成任务（见表1）。这使得大语言模型在学习对细胞句子进行建模的同时，还能学会遵循常见单细胞RNA测序分析任务的提示指令。在微调阶段，预训练模型会在新的数据集上针对特定任务进行专门优化。
fig9

图9：C2S能够将表达信息转换为细胞句子格式，且信息损失极小。利用根据基因排名和原始表达拟合的线性模型，细胞句子能够准确地转换回表达信息。

fig2

图2：C2S-Scale通过训练大语言模型在多样的多模态数据上执行单细胞分析任务，从而架起了单细胞RNA测序（scRNA-seq）数据与自然语言之间的桥梁。A) 从公共数据图谱收集了包含超过5000万个人类和小鼠转录组的多模态语料库，涵盖了来自多种组织的细胞表达数据、文本注释、论文、基因集以及单细胞RNA测序研究中的疾病标签。B) C2S根据基因表达对基因进行排序，并将它们转换为自然语言 “细胞句子”，利用强大的大语言模型架构，无需进行定制修改。C) C2S支持多种下游应用场景，包括扰动预测、生成任务，以及诸如问答等高级生物推理任务。

SOTA的预测和生成能力

C2S-Scale在各种单细胞转录组任务中都展现出强大的性能，优于或与现有的最先进的转录组和自然语言基础模型相当（图3）。对于细胞类型注释等传统单细胞分析任务，C2S-Scale会接收一个细胞句子，并被要求用自然语言预测相应的细胞类型标签。在这些任务上，C2S-Scale在免疫组织和肺组织数据集上取得的结果，与其他专门的单细胞基础模型（如scGPT和Geneformer ）不相上下。在细胞嵌入任务中，利用预训练的C2S-Scale模型，以细胞句子为输入生成丰富的细胞嵌入向量。C2S-Scale生成的细胞嵌入向量包含丰富信息，能够捕捉转录信息和来自自然语言的上下文信息。

作者还构建了一个多模态整合任务，评估配对的单细胞和bulk数据嵌入向量的零样本相似度。发现尽管没有一个模型在bulk数据上进行过预训练，但C2S的嵌入向量最为一致，这表明C2S天生就能捕捉到更具生物学意义的细胞状态表示，这可能是由于细胞句子转换的特性所致。

此外，C2S-Scale在生成任务中表现出色，且无需针对特定任务对架构进行修改，而这一特点是大多数其他转录组基础模型所不具备的。在扰动反应预测方面，C2S-Scale能准确预测细胞在各种扰动下的转录反应，甚至可以推广到组合扰动以及从未见过的条件下。在涉及单细胞RNA测序（scRNA-seq）数据推理的自然语言任务中，C2S-Scale在聚类标注、数据集解释和问答任务上超越了当前最先进的（SOTA）和开源大语言模型，如Llama、GPT-4o和Gemini，树立了新的标杆。值得注意的是，C2S-Scale能有效地对从未见过的scRNA-seq研究进行泛化（图3），展示了其对新数据强大的解释能力。

fig3

图3：在各种单细胞预测和生成任务中，C2S-Scale的表现优于转录组基础模型和自然语言基础模型。这些任务包括标准的单细胞分析任务，如细胞类型注释（红色）和细胞嵌入（绿色）、生成性扰动反应预测任务（橙色），以及自然语言解释任务，包括聚类标注、数据集解释和问答任务（蓝色）。C2S-Scale是唯一能够涵盖单细胞分析全系列任务的模型，并且在所有任务中都展现出具有竞争力的性能。

sc中的缩放定律

众所周知，大语言模型（LLMs）在自然语言任务中表现出可预测的缩放行为。当大语言模型在转录组数据的自然语言表示上进行训练时，类似的缩放定律也会出现在单细胞分析中。随着模型容量的增加，C2S-Scale模型在预测和生成任务中都表现出持续的改进，包括细胞类型注释、组织推断和条件细胞生成（图4C）。

在完全微调以及参数高效训练机制中，都能观察到这些缩放趋势（图4D）。除了模型缩放之外，对于固定规模的模型，随着训练数据的增加，其性能也会持续提升，270亿参数模型的情况如图4E所示。总体而言，这些结果表明，无论是在模型容量方面还是数据集规模方面对大语言模型进行扩展，都能显著增强其生物推理能力，这与在通用自然语言处理中所观察到的优势相呼应。

fig4

图4：Cell2Sentence表明，在各种单细胞分析任务中，随着模型容量的增加，其性能也呈现出一致的提升趋势。A）单细胞数据的预测和生成任务示例。B）针对 A）中任务的自然语言提示和回复，按表达量生成任务（红色）、预测任务（蓝色）和语言生成任务（绿色）进行了颜色区分。C）完全微调后的C2S模型在条件样本生成、细胞类型注释、组织样本注释和数据集解释任务上的性能缩放情况。D）经过LoRA微调的C2S-Scale-2B和27B模型表明，在参数高效的机制下，随着模型容量的增加，性能也会提升。E）C2S-Scale-27B模型的性能随所使用训练样本数量的缩放情况。

生物学多个尺度下的自然语言解读

自然语言解读是单细胞分析中一个尚未充分探索的方面，它使研究人员能够将实验性单细胞RNA测序（scRNA-seq）数据与现有的生物学文献相联系，并为生物学家提供了一个便于与数据交互和解读数据的工具。现有的基于大语言模型（LLM）的单细胞模型，如GenePT和scGenePT，对自然语言和单细胞数据的整合较为有限，主要侧重于在单细胞架构和任务中使用语言嵌入。C2S-Scale将基于转录组数据的大规模训练与大语言模型的自然语言预训练及生成能力相结合，实现了在生物学多个尺度上对单细胞RNA测序（scRNA-seq）数据的自然语言解读，如图5A所示。

作者在生物学的多个尺度下的一系列自然语言解读任务中对C2S-Scale进行了基准测试，评估了它对数据进行推理并生成有意义描述的能力。在单个细胞层面，C2S-Scale能够以细胞句子作为输入，用自然语言准确地注释细胞类型。该模型首先在一个多样的免疫组织数据集上进行微调，以自然语言预测细胞类型标签。C2S-Scale能够在免疫组织数据的一个留出集上正确分类几乎所有的细胞类型（图5B），这展示了C2S-Scale在标准单细胞分析中的有效性。

在细胞簇层面，作者引入了一项名为“簇标注”（Cluster Captioning）的新任务，其目标是为单细胞RNA测序数据集中来自同一组织且属于同一批次的细胞簇生成具有生物学意义的描述。为了创建该任务的训练数据，使用 GPT-4o 为源自带注释数据集的细胞簇生成自然语言标注。C2S-Scale经过微调，能够根据来自每个细胞簇的多个输入细胞句子来预测这些标注，并在训练过程中未见过的细胞簇上进行评估。使用BioBERTScore[25] 来衡量性能，该指标量化了生成的标注与真实标注之间的语义相似度。如图5C所示，在这项任务中，C2S-Scale的表现优于所有的基线大语言模型，展示了它在细胞簇层面解释和总结表达模式的能力。

[25] Tianyi Zhang, Varsha Kishore, Felix Wu, Kilian Q Weinberger, and Yoav Artzi. Bertscore: Evaluating text generation with bert. arXiv preprint arXiv:1904.09675, 2019.

在数据集层面，通过一项“数据集解读”任务进一步评估其解读能力。在该任务中，模型接收来自单细胞RNA测序数据集的多个细胞句子，并负责以生物学摘要的风格生成一个高层次的总结。这些总结预计要描述数据集的关键特征，包括主要的细胞类型、组织、疾病状态或干扰因素（示例如图10所示）。图5D显示，C2S-Scale在所有评估的模型中取得了最高的BERTScore分数，这些模型包括LLaMA、Meditron、BioMistral、Gemini和GPT-4o。值得注意的是，C2S-Scale能够很好地推广应用于完全未见过的数据集，生成的总结既相关又包含丰富信息（图5E），突显了它对单细胞RNA测序数据强大的自然语言理解能力。

总体而言，C2S-Scale能够实现多个尺度上的自然语言解读，涵盖单个细胞、细胞簇以及数据集。它整合文本数据和生物数据的能力，为生物学家们提供了新的契机，使他们能够用自然语言探索单细胞RNA测序（scRNA-seq）数据、对其进行注释，并从中得出有价值的见解。

fig5

图5：C2S-Scale能够实现对单细胞RNA测序（scRNA-seq）数据在多个尺度上的自然语言解读，范围从单个细胞到整个数据集。A）对生物数据的不同尺度解读，从单个细胞到生物体以及数据集层面的注释。B）从成年人类供体的16种不同组织中提取的免疫细胞的真实细胞类型和预测的细胞类型，展示了C2S-Scale在单细胞层面注释数据的能力。C）C2S-Scale在预测淋巴组织空间数据集中细胞间相互作用方面的性能。D）C2S-Scale在未见过的单细胞RNA测序（scRNA-seq）数据簇上进行簇标注的性能。模型会得到来自未见过的数据簇的多细胞相关信息，并承担对数据进行标注的任务，通过BERTScore来衡量。E）C2S-Scale模型在对留出的细胞和留出的研究中的整个单细胞RNA测序（scRNA-seq）数据集进行自然语言解读方面的性能。

fig10

图10：从CellxGene收集的单细胞RNA测序（scRNA-seq）数据集得出的摘要示例。

C2S-Scale从多细胞环境和细胞间相互作用数据中学习空间推理能力

理解组织中的空间结构是揭示调控细胞间相互作用机制的基础，尤其是在理解这些机制如何推动疾病进展和维持组织内稳态方面。细胞微环境由特定的细胞类型、信号分子和细胞外基质成分所决定，在调控这些过程中起着关键作用。仅从转录组数据准确预测细胞间的空间关系颇具挑战性，因为传统方法通常依赖于明确构建的空间模型或预定义的相互作用网络。

尽管C2S-Scale并非专门为空间推理而设计，但其整合多细胞环境信息的能力为模拟空间结构提供了一种自然的机制。假设通过对来自相同邻域的细胞进行采样和编码，C2S-Scale无需对架构进行修改就能推断出空间关系。为了验证这一点，作者使用一个人类肝脏空间RNA测序数据集来评估该模型在预测空间邻域方面的性能。此外，作者还针对旨在提高其空间理解能力的相关任务对C2S-Scale进行同步训练，这些任务包括微环境标签预测、相邻细胞生成以及判断多个细胞是否属于同一微环境（图6A）。通过对这些互补任务的训练，C2S-Scale学习到了关于空间结构的稳健表征，在邻域预测方面显著优于scGPT和GPT-4o（图6C）。

进一步假设，纳入外部生物学知识（具体来说是基因相互作用网络）能够增强空间推理能力。受体-配体相互作用以及其他蛋白质-蛋白质相互作用是细胞间通讯的核心内容，然而许多单细胞基础模型却无法整合这些信息。C2S没有采用预设规则，而是简单地让C2S-Scale接触来自CellPhoneDB的受体-配体相互作用数据以及来自BioGRID的蛋白质相互作用数据，并将这些数据以自然语言提示的形式呈现（图6B）。这种方法使模型能够在灵活应用信息的同时，隐含地整合先验知识。

利用基因相互作用数据进行微调进一步提升了C2S-Scale预测空间关系的能力，这强化了外部分子知识能够增强空间推理能力这一假设（图6B）。值得注意的是，单独添加CellPhoneDB或BioGRID的数据都能提升模型的性能，这表明受体-配体以及蛋白质-蛋白质相互作用的知识都有助于空间推理（图6C）。此外，将这两个数据集结合使用能带来最大程度的性能提升，这表明整合多种生物相互作用数据源能让大语言模型对多细胞结构和相互作用形成更丰富的理解。

C2S-Scale的一个关键优势在于，它能够整合多种数据源，而无需明确地将外部知识结构化地纳入其中。与依赖预定义通路或手动精心构建的相互作用模型的传统方法不同，C2S-Scale在训练过程中能够隐含地学习纳入相关信息。这凸显了C2S的一个基本优势：我们无需为特定任务设计定制化的架构，只需提供相关数据，该模型便能自主决定如何利用这些数据。这种能力不仅适用于空间推理，还表明它在整合多模态生物数据方面具有广泛的适用性。

fig6

图6：C2S-Scale能够解读多细胞空间环境，并预测微环境邻域。A）在各种单细胞和多细胞空间任务上对C2S-Scale进行微调，以使C2S-Scale能够执行空间推理任务，这些任务包括预测微环境标签、生成空间相邻细胞，以及识别细胞是否属于同一邻域或微环境。“邻域”被定义为与中心细胞处于固定半径范围内的细胞。B）使用包括BioGRID和CellPhoneDB在内的公开可用的基因相互作用数据库，来构建有关基因相互作用的自然语言交互提示。为了最大化相关性，对BioGRID进行了筛选，使其仅包含在CosMx数据集中表达的基因，并且限定为细胞外蛋白质。（C）C2S在空间邻域识别准确性方面优于scGPT和GPT-4o。此外，单独整合来自BioGRID和CellPhoneDB的基因相互作用数据可提高性能，并且将两者结合使用可带来最大程度的性能提升。这些结果突显了C2S-Scale在具有空间意识的生物建模方面的多任务迁移学习潜力。

通过强化学习实现单细胞问答（QA）

问答任务是自然语言处理的核心部分，它提供了一种标准测试，用于衡量模型理解信息和应用推理的能力。在生物医学研究中，问答任务对于评估特定领域背景下的高级推理能力尤为有价值，众多针对医学和生物学应用的专门问答数据集的开发就证明了这一点。基于这一基础，作者引入了单细胞问答（scQA）任务，以评估基础模型对单细胞转录组数据进行推理和解读的能力。

单细胞问答（scQA）数据集由两千个问答对组成，每个问答对包含：（i）相关的生物学背景信息；（ii）从细胞簇或细胞类型注释中采样得到的相关单细胞RNA测序（scRNA-seq）数据；（iii）一个主要问题；以及（iv）一个最终答案。此外，每个答案都标注了关键词，以帮助评估回答质量。为构建该数据集，作者从单细胞RNA测序（scRNA-seq）数据集中采样细胞，将采样数据连同相关的生物学文献提供给GPT-4.5，并促使它生成有意义的问题（图7A）。

在监督微调（SFT）后，C2S-Scale在单细胞问答（scQA）任务上超越了最先进大语言模型的性能（图7C），展示了针对转录组数据与自然语言的专门训练的优势。为进一步提升C2S-Scale的问答能力，作者通过组相对策略优化（GRPO）采用强化学习（RL）来进一步优化模型，使其生成更符合问题需求的回答（图7B）。通过使用BioBERT分数作为奖励函数，作者引导C2S-Scale产出更符合生物学洞见的高质量答案。经过GRPO训练后，C2S-Scale在scQA数据集上显著优于监督微调基线，突显了强化学习技术在优化大语言模型以适配专门单细胞应用方面的潜力。

fig7

图7：与最先进的（SOTA）大语言模型相比，C2S-Scale在单细胞问答任务中表现出更优的性能。A）基于单细胞RNA测序（scRNA-seq）数据的问答场景示例。B）组相对策略优化（GRPO）框架概述，该框架通过对偏好数据进行训练进一步优化模型性能。C）C2S-Scale与最先进大语言模型在单细胞问答任务上的实证对比，突显了C2S-Scale在特定领域推理中的优势。

扰动响应预测

单细胞基础模型为开展大规模虚拟扰动实验提供了显著机会，而这些实验在实验室环境中可能不可行或成本极高。在此，作者展示了C2S-Scale在预测不同场景下对先前未见过的扰动的响应方面的灵活性和准确性（图8A）。用于训练C2S-Scale的提示如图8C所示。训练分为两个阶段：监督微调（SFT）和随后的强化学习（RL）。在监督微调阶段，模型被训练为根据未处理细胞在目标扰动条件下的状态预测基因表达谱。在第二阶段，应用组相对策略优化（GRPO）（一种在线强化学习算法），针对生物学相关目标优化扰动响应。

fig8

图8：C2S-Scale模型在预测细胞对未知扰动的响应方面优于现有方法。
（A）C2S-Scale扰动预测框架概述，该框架支持药物、细胞因子和基因敲除等多种扰动类型。
（B）scFID指标示意图，在基础模型的隐空间中计算，类似于计算机视觉中的FID指标。
（C）扰动预测的提示和响应示例。
（D）UMAP图比较了四种模型对未知扰动的预测响应与真实响应。各行显示：（1）所有组合扰动；（2）IFN-γ刺激下的CD4 T细胞；（3）留存的IFN-β + IL-6刺激下的B细胞。C2S-Scale在所有情况下均与真实值高度吻合。
（E）基准指标显示，C2S-Scale在所有评估标准上均优于scGen、scGPT和CellOT。
（F）用于扰动预测的GRPO框架：模型生成扰动响应，并根据基因程序相似性获得奖励。
（G）在L1000（细胞凋亡响应）和细胞因子刺激（干扰素响应）任务中，GRPO相比监督微调（SFT）有所改进，Kendall’s τ、Pearson’s r和scFID指标均有提升。

尽管C2S-Scale能够生成完整的基因表达谱，但筛选实验通常关注特定表型而非所有基因。GRPO通过针对感兴趣的基因程序来解决这一问题——例如在L1000数据集中靶向细胞凋亡程序（反映了诱导癌细胞程序性死亡作为治疗机制的目标），以及在Dong等人的数据集中靶向干扰素反应程序（以捕捉细胞对细胞因子刺激的炎症反应）。奖励信号基于这些基因子集计算（图8F），从而实现靶向优化并提升模型对分布外场景的泛化能力（图8G）。

作者引入了一种新的指标——scFID（图8B），该指标改编自计算机视觉中广泛用于评估生成图像真实感的FID指标。scFID使用单细胞基础模型替代Inception-v3模型来嵌入转录组数据，从而能够对真实细胞和生成细胞进行具有生物学意义的比较。与对噪声和异常值敏感的表达水平指标不同，scFID在学习到的特征空间中提供了一种稳健的评估方式。