课程:
- 1、使用scater包进行单细胞测序分析(二):数据质量控制
- 2、单细胞测序初学者指南
- 3、单细胞研究|| 利用 Illumina®技术的近期单细胞研究文献综述(数据分析)
- 4、生信综述?带你解锁高分单细胞发文骚操作!
- 5、1.单细胞 RNA-seq:单细胞RNA测序介绍
使用scater包进行单细胞测序分析(二):数据质量控制
scater使用 calculateQCMetrics 函数计算QC metrics,它可以对细胞和基因进行一系列的数据质量控制,其结果分别存储在colData和rowData中。默认情况下,calculateQCMetrics函数使用原始的count值计算这些QC metrics,也可以通过exprs_values参数进行修改。
当然,我们也可以设置一些参照(如ERCC spike-in,线粒体基因,死亡的细胞等),计算其相应的QC metrics进行质量控制。
使用 plotHighestExprs 函数可视化那些高表达基因(默认查看50个基因)的表达情况。下图中行表示每个基因,橙色的线(bar)代表该基因在每一个细胞中的表达量,圆圈代表这个基因在所有细胞中表达量的中位数。默认情况下,使用基因的count值计算表达情况,也可以使用exprs_values参数进行修改。
使用 plotExprsFreqVsMean 函数进行可视化
上图趋势中的异常值可能需要进一步的调查。例如,高表达基因的pseudo-genes的比对错误将导致均值低的基因在所有的细胞中表达。相反,PCR的扩增偏差(或稀有种群的存在)可能会导致在极少数细胞中表达具有很高均值的基因。
对于细胞水平上的质控,我们可以查看参照基因(feature controls)的表达量比上总基因表达量的百分比,如果一个基因在总基因表达量上的比例多,而在参照基因(如ERCC)里少,就是正常的细胞,反之则不正常。
plotScater 函数会从表达量最高的基因(默认为500个)中选一部分,然后从高到低累加,看看它们对每个细胞文库的贡献值大小。这种类型的图类似于对芯片数据或bulk RNA-seq数据中按样本绘制箱线图可视化不同样本的表达分布差异。累积表达图更适用于单细胞数据,因为单细胞数据难以一次性查看所有细胞的表达分布的箱形图。
为了查看不同细胞的表达分布差异,我们可以利用colData中的变量将细胞进行分类。默认使用counts值进行绘图,我们也可以通过exprs_values参数指定其他的数据。
For plate-based experiments, it is useful to see how expression or factors vary with the position of cell on the plate. This can be visualized using the plotPlatePosition function:
可以使用 plotFeatureData 函数轻松地查看任意两个元数据变量之间的关系:
The multiplot function also allows multiple plots to be generated on the same page, as demonstrated below.
This is especially useful for side-by-side comparisons between control sets, as demonstrated below for the plot of highest-expressing features. A plot for non-control cells is shown on the left while the plot for the controls is shown on the right.
直接通过列数选取想要的细胞
使用 filter 函数根据指定条件选取想要的细胞
根据QC metrics设定阈值筛选高质量的细胞,这里我们选取那些总counts数大于100,000,表达的基因数大于500的细胞。
我们还可以通过 isOutlier 函数计算筛选的阈值,它将阈值定义为距离中位数一定数量的“中位数绝对偏差(MAD)”。超出此阈值的值被认为是异常值,可以假定它们是一些低质量的细胞,而将其过滤掉。这里我们选取那些log(total counts)值小于3倍MAD值的细胞作为outliers。
直接通过基因的表达量过滤掉那些低表达的基因,这里我们选取那些至少在4个细胞中表达的基因。
当然,我们也可以通过一些其他的条件(如核糖体蛋白基因,线粒体基因等)进行基因的过滤。
我们可以使用 plotExplanatoryVariables 函数查看不同解释因素的相对重要性。当对每个基因的不同因子进行表达量的线性回归模型拟合时,我们会对colData(example_sce)中的每个因子计算其对应的R2值。最好在表达量的对数值上执行此操作,以减少平均值对方差的影响。因此,我们首先对基因的表达量进行归一化处理。
上图中每条线对应一个因子,代表所有基因中R2值的分布。当然,我们也可以通过variables参数选择特定的因子进行计算可视化。
在这个小数据集中,total_counts和total_features_by_counts解释了基因表达中很大一部分的方差,它们在真实数据集中能解释的方差比例应该小得多(例如1-5%)。
缩放归一化(Scaling normalization)可以消除细胞特异性偏差,其使特定细胞中所有基因的表达增加或减少,例如测序的覆盖率或捕获效率。
进行缩放归一化的最简便方法是根据所有细胞的缩放文库大小定义size factors,使得平均size factor等于1,确保归一化后的值与原始count值的范围相同。
然后再使用 normalize 函数计算log转换后的归一化值,并将其存储在“logcounts” Assay中
虽然这种归一化的方式很简单,但细胞文库大小归一化并不能解决高通量测序数据中经常出现的成分偏差,它也不能解释影响spike-in转录本产生的差异。我们强烈建议使用来自scran包的 computeSumFactors 和 computeSpikeFactors 函数来进行计算。
批次效应的校正可以解决不同批次中细胞之间表达的系统差异,与比例偏差不同,这些偏差通常在给定批次的所有细胞中都是恒定的,但对于每个基因而言都是不同的。
我们可以使用limma软件包中的 removeBatchEffect 函数来消除批次效应。
单细胞测序初学者指南
自我们在科学的早期阶段就被告知,我们身体中的每个细胞都有完全相同的基因信息(除一两个细胞之外)。因此,如此多样化的细胞来自基因表达--每个细胞必须表达一组基因,并抑制另一组基因才能正常工作。即使我们有了这些知识,我们仍然很难确定哪个基因(或一组基因)对该细胞才是至关重要的。这不仅是因为技术上的困难,还因为细胞在不断变化,不断适应。因此,基因表达几乎就像薛定谔的猫。一个混乱的概念,很难理解,但非常有趣。这就是单细胞RNA测序的作用。
在当今这个转录组和基因组测序的时代,已经出现了非常棒的技术来观察发生了什么。RNA测序是一种非常棒的技术,通过将RNA反转录成为cDNA,我们可以量化,发现和分析RNA,尽管RNA测序给了我们很大的启发。但它也不是没有偏见的:大多数RNA测序是在组织样本或群体细胞上进行的。细胞间的生物差异可能会被误认为是技术噪音,或者被平均值掩盖。
然而,单细胞RNA测序(scRNA-seq)则更进一步。它的目的是拍下一个细胞在那个特定时刻所有基因表达的照片。从理论上讲,它使我们能够区分同一组织内细胞的表达——which is absolutely amazing!
首先是分离单细胞,获得单个细胞转录本的关键步骤是从群体细胞中分离出单个细胞。我们可以从游离的细胞悬浮液或组织样本中分离细胞。有许多方法可以用来分离细胞(流式细胞分选(flow-activated cell sorting),显微操作法(micromanipulation),光镊技术(optical tweezers),微流体(microfluidics)和其他新兴的分离技术)。然而,我们必须时刻记住,这些方法是否与下游反应兼容。
得到单个细胞后必须分离RNA,这样我们就知道了在这个细胞中哪个基因在此刻表达了。我们不能直接测序RNA分子,所以我们必须跳出思维定势。这项技术利用逆转录酶将RNA反转录成cDNA。然后我们可以使用PCR扩增cDNA,并使用下一代测序技术对扩增的cDNA进行测序。因此,我们可以获得大量的数据。然后,必须通过专门为scRNA-seq数据设计的pipeline对原始数据进行处理和分析。我们必须始终记住,如果没有适当的根据实验环境处理,大量的数据并不意味着什么!整理完所有信息之后,就可以对细胞进行分析了。
这项技术提供了关于我们细胞的信息:它的异质性和内部工作机制。它可以用于许多生物学领域,从基础研究到临床应用。从干细胞分化、胚胎发生、全组织分析,甚至在肿瘤领域的应用,它正在成为一个强有力的工具。事实上,它在2013年被《自然》杂志评为“年度方法”,而且它的受欢迎程度还在不断上升。然而,并非事事如意。
与任何其他技术一样,在执行此方法时,特别是在分析它提供的数据时,我们需要记住一些挑战。我们知道,RNA在我们的细胞中有很多功能,不同的RNA有不同的功能。它可能是调节功能,或者我们可能讨论的是信使RNA。无论哪种方式,RNA丢失都可能导致我们丢失一个低含量的转录本!同时,技术噪声与低丰度转录之间的鉴别仍然非常困难。因此,提高敏感度至关重要。因此,我们可以看到所有不同的RNA,并对其在细胞中的丰度有信心,因为它为我们提供了有关小调节(通常是低丰度)RNA的大量信息。
尽管仍有一些挑战需要克服,但毫无疑问,单细胞方法是前进的方向。通过观察一个特定的细胞,我们可以开始了解每个特定细胞在特定组织中的重要性! 通过观察局部你可以了解整体。
单细胞研究|| 利用 Illumina®技术的近期单细胞研究文献综述(数据分析)
单细胞研究|| 利用 Illumina®技术的近期单细胞研究文献综述(应用篇一) 主要介绍单细胞技术在癌症、宏基因组学、干细胞、发育生物学、免疫学、神经生物学方面的应用。
单细胞研究|| 利用 Illumina®技术的近期单细胞研究文献综述(应用二) ,主要介绍单细胞技术在药物发现、生殖健康、微生物生态学和进化、植物生物学、法医学、等位基因 – 特定基因表达方面的应用。
单细胞研究|| 利用 Illumina®技术的近期单细胞研究文献综述(样本制备)
单细胞测序带来数据分析的独特挑战单个哺乳动物细胞包含50,000–300,000个转录本,且各个细胞间的基因表达值存在显著差异。虽然每个单个细胞可表达数十万个转录本,但高达85%的转录本仅有1–100个拷贝。因此,在 scRNA-Seq 中捕获低丰度mRNA转录本并扩增合成的cDNA以确保所有转录本最终在文库中均匀呈现至关重要。
已知丰度的外参定量标准可帮助区分具有生物学意义的基因表达改变导致的技术变异性/噪声。分子索引也可校正测序偏差,而近期对自动样本处理的改进可进一步降低技术变异性。
DNA扩增和单细胞DNA-Seq技术的杂峰可通过使用专为此目的设计的计算算法来减少。本节着重描述一些单细胞测序数据分析方法(表 2)。
表2. 单细胞测序数据分析方法总结
参考文献
NGS常用于检测组织基因组DNA中的SNV,但是分析单细胞中的SNV易受到WGA相关杂峰的影响。为克服这一技术挑战,作者开发了单细胞多重置换扩增(SCMDA)以及相关的单细胞变异检出算法SCaller。在本研究中,作者从成纤维细胞克隆中分离了未扩增的基因组DNA。他们还从这些克隆中分离了单个细胞并使用 SCMDA 对单细胞基因组 DNA 进行了扩增。他们利用 HiSeq 2500 和 HiSeq X Ten 系统对经 SCMDA 扩增和未扩增的样本进行了全基因组测序,并使用SCaller对SNV进行了鉴定。通过比较来自单细胞和亲本克隆的SNV,作者证实他们的程序能准确分析单细胞基因组中的 SNV。
Illumina的技术:HiSeq 2500和 HiSeq X Ten 系统
单细胞基因组已为未培养微生物带来了大量单个基因组草图;但是,扩增步骤期间MDA杂峰导致覆盖不完整以及不均匀。元基因组学数据集不会发生相同序列偏移,但微生物群落的基因组复杂性妨碍了基因组草图的再现。在本研究中,作者研发了一种新的从元基因组学引导的、单细胞扩增基因组装数据生成种群基因组装的新方法。该研究通过完成海洋组1奇古菌门和SAR324类群浮游细菌的单细胞扩增基因组验证了该方法。SAR324类群基因组改进的方法组合揭示了存在多个单细胞扩增基因组中未发现的基因。
Illumina的技术:TruSeq LT Nano Kit、MiSeq系统
scRNA-Seq法提供了研究复合组织和疾病的无偏倚方法。但是,数据会发生高水平的技术噪声,并强烈依赖于表达程度。当基于重要生物学差异聚类细胞时,细胞间差异具有挑战性。例如,分割方法(包括k 均值聚类和BackSPIN算法)基于细胞周期分离细胞,而不是组织特异性信号。作者引入通路和基因集过离散分析 (PAGODA) ,通过检测已测量细胞可分类的所有重要的和潜在的重叠通路克服了该挑战。
Illumina的技术:HiSeq 2000系统
现代单细胞测序技术,尤其那些涉及大规模平行方法的技术,常会分离出受压、破碎或灭活细胞。这些低质量细胞可导致数据杂峰,且必须从分析中将其排除。在本研究中,作者提供了scRNA-Seq的首个工具,可以简单彻底的方式处理并移除低质量细胞。分析流程使用了 20 个高度组织的整合到机器学习算法中的生物学和技术功能集。作者在CD4+ T 细胞、骨髓树突状细胞和小鼠ESC上验证了该方法。方法还定义了视觉上无法检测的低质量细胞的新类型。
Illumina的技术:HiSeq 2000系统
scRNA-Seq数据集受固有技术噪声影响,不利于对细胞亚群的鉴定。为克服该困难以及影响基因表达异质性的未知隐藏因素,作者研发了一种模型(scLVM) ,以说明RNA-Seq数据集中未观察到的因素并使用单个小鼠ESC验证其模型。研究还是用HiSeq 2000系统在初始T细胞分化为TH2细胞过程中执行单个T细胞的RNA-Seq。研究将scLVM模型应用到T细胞RNA-Seq数据集并校正细胞周期基因表达。该研究能鉴定通过仅使用非线性 PCA 或 k 均值聚类无法发现的分化中 T 细胞的 2 个亚群。
Illumina的技术:Nextera XT DNA Sample Preparation Kit、HiSeq 2000系统
鉴定成分细胞类型对于了解给定器官或组织的功能至关重要。鉴定细胞类型的现有方法涉及基于特定标记成像和分离细胞,但是如果细胞类型稀有(如CSC或CTC)则该方法具有挑战性。在本研究中,作者使用HiSeq 2500 系统对数百个来自小鼠肠类器官的随机选定细胞执行 RNA-Seq。为鉴定类器官内的细胞亚群,研究研发了RaceID,一种在细胞符合群体中鉴定稀有细胞类型的计算方法。研究通过在取样的类器官细胞群鉴定单个激素生成细胞类型验证了该算法,并确定Reg4作为这些稀有肠道内分泌细胞的新标记。最后,研究使用 Reg4 捕获这些稀有细胞,以研究其遗传多样性,确定大量肠道内分泌细胞谱系。
Illumina的技术:HiSeq 2500系统
scRNA-Seq可在单个细胞群中捕获振荡动力学,并可发现大量测序试验中缺失的振荡。但是,连续RNA-Seq时期数列试验不可行,且对于大多数振荡系统可能无法同步化。先前已研发了Monocle254计算算法来在scRNA-Seq数据中通过几个不同时间点的数据拟时间排序解决该挑战。在本研究中,作者研发了Oscope,一种使用来自非同步细胞的scRNA-Seq数据确定并鉴定振荡基因的转录动力学的计算算法。研究通过将该模型应用到多种 scRNA-SeqIllumina 数据集(包括人 ESC)对 Oscope 进行了验证,且研究发现了与 Fluidigm C1 芯片上的捕获位点和输出孔位置相关的振荡模式。
Illumina的技术:Nextera XT DNA Sample Preparation Kit、HiSeq 2500系统
scRNA-Seq是一种发现新细胞类型、了解调控网络和重建发育过程的成熟方法。但是,scRNA-Seq通常涉及来自组织的分离细胞,因此破坏了其自然空间关系。为在scRNA-Seq数据中捕获空间关系,作者研发了Seurat,一种将较小的引导空间指定的“标志”基因集的scRNA-Seq与补充性原位杂交数据结合起来的计算策略。研究通过空间绘制从斑马鱼胚胎分离的851个单个细胞并创建空间模式的全转录组图对Seurat进行了验证。Seurat 可正确定位细胞的罕见亚群,并可绘制空间受限细胞以及表达模式更分散的细胞。
Illumina的技术:Nextera XT DNA Sample Preparation Kit、HiSeq 2500系统
Illumina的技术:HiSeq 2500系统
在分析单细胞DNA-Seq数据前,必须将DNA拷贝数异常与WGA杂峰区分开。该要求使得单细胞测序数据DNA拷贝数分析和单倍型分析有难度。在本研究中,作者研发了一种单细胞基因组分析法,可在单细胞全基因组确定单倍型和拷贝数——称为haplarithmisis的程序。方法解读单细胞的SNP等位基因片段,并将这些数据整合到计算工作流程中进行关联疾病变异的归因(siCHILD) 。作者通过对来自人体外受精胚胎的单个淋巴细胞和人分裂球确定单细胞基因组中带有疾病等位基因的单倍型验证了该方法。
Illumina的技术:TruSeq DNA LT Sample Preparation Kit、HumanCytoSNP-12v2.1 BeadChips、HiSeq 2000/2500系统
在单细胞DNA-Seq中,序列杂峰由必要的DNA扩增法引入,如MDA255和 MALBAC。256在本研究中,作者开发了一种新的统计方法,用于定量评估由于WGA产生的单细胞DNA扩增偏差。通过比较MDA和MALBAC DNA文库,研究提供由MDA和MALBAC生成的单细胞文库的基准比较,并还确定了扩增水平下基因组范围偏差的普遍特征。该研究的统计模型可校正单细胞 WGA 数据中的等位基因偏差。
Illumina的技术:MiSeq 和 HiSeq 2500系统
生信综述?带你解锁高分单细胞发文骚操作!
我们都知道在科研论文中有两大类:一类是研究型论文;另一类是综述型论文。其中,前者主要是以研究为主的行文思路,根据研究发现的不同发表在不同级别的杂志上;而后者多是本身没有新的研究发现,主要是对前人的研究结果进行评价综述。然而,这两种分类都是针对以实验为主论文分类,那么这两年生信为主的文章发文量逐年增加,是否也有这样的分类呢?
Immugent今天就来解读特别的一类生信文章,姑且把它称为“生信综述”吧,因为我人微言轻,并不会我把它叫什么,以后都是这种叫法,就不绞尽脑汁想这个名字了。
这类“生信综述”文章已经有很多年的发展史了,主要都是围绕对各种火爆一时(引领科研)的重大技术来展开,比如近些年火热的单细胞测序技术。那么今天我就来以单细胞测序为主题,来解读一下如何利用此类思路发表高分文章,注意全都是一分钱没花的那种!
我先讲的第一篇是2021年发表在J Am Soc Nephrol(IF:10.12)的篇名为“How to Get Started with Single Cell RNA Sequencing Data Analysis”的文章。好吧,看了一下日历,今年已经2022年了,就不吐槽这个文章时效性的问题了。但全文真的很简单,就是介绍了一下单细胞测序数据分析的基本流程。
来看看它的摘要:在过去的5年里,单细胞方法已经能够在一个实验中监测数千个单个细胞的基因和蛋白质表达、遗传和表观遗传变化。随着测量方法的改进以及反应和测序成本的降低,这些数据集的大小正在迅速增加。关键的瓶颈仍然是对单细胞实验产生的丰富信息的分析。在这篇综述中,我们对分析管道进行了一个简化的概述,因为它们通常在该领域中使用。我们的目标是使研究人员开始单细胞分析,以获得挑战和最常用的分析工具的概述。此外,我们希望能够帮助其他人了解单细胞数据集的典型读数在已发表的文献中是如何呈现的。好吧,确实是一篇综述!
全文虽然有7副图,但大多都是那种最基础的绘图,想必大家都会。但是这里Immugent想说的是这篇文章虽然是综述类,但其实比真正的综述好写多了。类比这篇文章,等到下一次再出现类似于单细胞测序这种现象级技术,是不是有的小伙伴也整一篇类似的呢!
接下来要讲的第二篇是2020年发表在Comput Struct Biotechnol J (IF:7.27)的篇名为“Benchmarking algorithms for pathway activity transformation of single-cell RNA-seq data”的文章。这类文章就比上一类有些技术含量了,起码像综述的感觉了!
就像这篇是总结了对单细胞数据进行通路评分的各种算法,并使用已经发表的数据对各类算法的优缺点进行了比较,并在最后给出了自己的见解。嗯,怎么说呢!还是比一般的综述好写一点,比纯算法开发类文章好开发一些。那么如果这类算法在不久的将来出现了更多,那么是不是就科研考虑写一个更新版的呢?
接下来要讲的第三篇是2021年发表在Genome Biol(IF:13.58)的篇名为“Over 1000 tools reveal trends in the singlecell RNA-seq analysis landscape”的文章。这个文章作为汇总类综述,真的不是吹的了,一篇文章总结了1000+种分析单细胞数据的工具,我对这个作者也是膜拜之至。
并且作者还开发了一个网站: ,并这个网站收录的工具还会一直更新,这真是圈内的劳模啊。
这类文章虽然需要耗费一些时间,但思路还是很简洁的,但是主要是得掌握住时效性,而且最好是自己研究的领域,那样能提出自己的一些思考,就能给文章增色不少。
第四篇是2020年,同样发表在Genome Biol(IF:13.58)的篇名为“A benchmark of batch-effect correction methods for single-cell RNA sequencing data”的文章。作者对当时存在的14种对不同来源的单细胞数据进行去批次处理的算法进行比较,深入揭示它们之间的优缺点和功能表现。
全文的图做的都是很精美的,而且从数据处理的效果来看,这应该是一个大型生信实验室的作品。建议大家有时间都读一下这篇文章,将会有助于以后在处理不同来源的单细胞数据时选择最合适的算法。
放在最后一篇的文章当然是压轴出场了,那就是在2019年发表在Nat Biotechnol(IF:54.91)杂志上,篇名为“A comparison of single-cell trajectory inference methods”的文章。对来自数千个单细胞的全基因组组学数据进行轨迹分析,目前已有很多算法来推断这些细胞沿着发展轨迹的分布。基于这些结果,作者开发了一套指导方针,以帮助用户为他们的数据集选择最佳的方法。
事实上,虽然到目前已经开发了70多种推断单细胞轨迹的工具,但比较它们的性能是具有挑战性的,因为它们需要的输入和产生的输出模型差异很大。在这篇文章中,作者在110个真实数据集和229个合成数据集上对其中的45种方法进行了基准测试,以了解细胞排序、拓扑结构、可伸缩性和可用性。结果表明了现有的一些工具之间的互补性,方法的选择应该主要取决于数据集的维度和轨迹拓扑。
最后,作者还免费提供了多种单细胞数据轨迹分析的评估网站( ),这将有助于开发更多轨迹分析的工具,用于探索日益庞大和复杂的单细胞数据集。对于这篇文章,我不做过多评述,只想着大家有时间都要去读一下,其中无论是对数据的处理还是对结果的讨论上都是前面文章无法媲美的,是难得的优质文章。
如今科技发展日新月异,在21世纪做出有价值的科研成果往往缺的不是技术,而是对热点的灵敏嗅觉以及对时局的掌控。张泽民,汤富酬,郭国骥老师均是凭借单细胞测序技术跻身世界一流领域的科学家,就是因为他们把控住了时局。
同样的,上述几类“生信综述”的着力点均是当时迫切需要解决的单细胞测序技术热点问题,才得以不花费半毛钱发表一系列高分文章。而且,因为是热点科学问题,这些文章截止到目前的引用率都很高,后面肯定还会持续升高。如果说单细胞测序是一个制高点,倒不如说是起点,因为此类技术在未来还会有很多,希望本篇推文能给大家带来一些思考,欢迎有推荐类似生信文章的小伙伴通过后台与我们联系。
1.单细胞 RNA-seq:单细胞RNA测序介绍
在人体组织中,细胞类型、状态和相互作用是非常多种多样的。为了更好地了解这些组织和存在的细胞类型,scRNA-seq提供了对在单个细胞水平上的基因表达
这种前沿方法可用于:
scRNA-seq是解决一些更常见研究的流行方法,主要包括:
在 scRNA-seq 之前,转录组分析是使用 Bulk RNA-seq ,这是一种直接比较 细胞表达平均值的 方法。如果想要查看比较转录组学(例如来自不同物种的相同组织的样本)或者在疾病研究中量化表达特征,这种方法可能是一个不错的选择。如果您 不期望或不关心 样本中的 细胞异质性 ,它还具有发现疾病生物标志物的潜力。
虽然Bulk RNA-seq 可以探索不同条件(例如治疗或疾病)之间基因表达的差异,但无法充分捕获到细胞水平的差异。例如,在下图中,如果进行Bulk分析(左),我们将无法检测到基因 A 和基因 B 表达之间的正确关联。但是,如果我们按细胞类型或细胞状态对细胞进行正确分组,我们可以看到基因之间的正确关联。
尽管 scRNA-seq 能够在细胞水平上捕获表达,但样本生成和文库制备更加昂贵,而且分析 更加复杂且难以解释 。scRNA-seq 数据分析的复杂性包括:
我们将在下面更详细地探讨每一个复杂性:
来自 scRNA-seq 实验的表达数据代表了数千个细胞的数万或数十万个读数。数据输出要大得多,需要更多的内存来分析、更大的存储需求和更多的时间来运行分析。
对于基于液滴的 scRNA-seq 方法,测序深度较浅,通常每个细胞只能检测 10-50% 的转录组。这导致细胞显示许多基因的计数为零。然而,在特定细胞中,基因的零计数可能意味着该基因 没有被表达, 或者只是 没有检测到 转录本。在细胞中,表达水平较高的基因往往具有较少的零。由于这个特性,许多基因在任何细胞中都不会被检测到,基因表达在细胞之间会有很大的变化。
生物学差异的无用来源可能导致细胞之间的基因表达比实际生物细胞类型/状态更相似/不同,这可能会掩盖细胞类型的标识。
生物学差异的无用来源(除非实验研究的一部分)包括:
技术差异来源可能导致细胞间的基因表达因技术差异而变的更加相似或不同,而不是生物细胞的类型/状态变化造成的,这会模糊细胞类型的一致性。
技术差异的来源包括:
如果其中有 任何 答案是 'No' ,那么就有批次效应。
关于批次的做好做法:
虽然scRNA-seq是一种 功能强大且有见地 的可以从单细胞水平分析基因表达的方法,但仍 存在许多挑战和变异来源 ,这可能会使数据分析变得复杂或有限。
总体而言,我们建议关注以下内容:
参考文献: