企业管理

0

新技术 | 单细胞多组学 SHARE-seq 及生物发现

头像
小财

背景介绍

6月17日,bioRxiv新上线了一篇单细胞多组学文章,运用 SHARE-seq (RNA+chromatin accessibility) 研究了上皮组织分化过程的基因表达调控特征。

原文链接 https://www.biorxiv.org/content/10.1101/2020.06.17.156943v1

作者里有三位PI。

Jason D. Buenrostro —— 测序技术

AP@Harvard,Broad Institute。在 William Greenleaf (Stanford) 实验室做 Ph.D. 学生期间,发明了基于Tn5转座酶研究染色质开放程度的ATAC-seq技术 (Buenrostro J, et al., 2015a),并用 single-cell ATAC-seq 研究了细胞间异质性 (Buenrostro J, et al., 2015b)

主要因为Tn5转座酶可以实现 "Tagmentation" ("Fragmentation" 打断未被蛋白保护的双链DNA + "Tagging" 加上PCR tag),ATAC-seq 相比其他检测染色质开放程度的技术们 (例如 DNase-seq, Song L, et al., 2010),有更简化实验流程和更好的建库效果。

ATAC-seq问世后,自然而然的新课题就是,想办法在单细胞里同时测RNA,挖掘更多信息,解决生物问题。也就是今天写的这篇bioRxiv文章了。

Aviv Regev —— 分析&计算

她是单细胞基因组学领域里无人不晓的大佬,HCA-cofounder,Broad core member。前不久宣布离开波士顿,落户加州,加入Genentech,在产业界继续发展。这篇看来是挂在 MIT 和 Broad 的最后之一了。

Ya-Chieh Hsu —— 生物问题

台湾华裔,Professor@Harvard,Broad Institute。从事干细胞领域研究,上皮组织的生物专家。


单细胞 RNA+ATAC 技术

单细胞 RNA+ATAC-seq 已经成为多组学技术的代表。先说结论:SHARE-seq 与以往几个技术 (sci-CAR、Paired-seq、SNARE-seq) 相比,实验流程更科学、DNA/RNA捕获率更高。下面展开。

首先,要明白评价单细胞组学技术的2个最重要指标:

1) "捕获率"

简单地理解,捕获率就是“测到的片段/细胞里本来有的片段”(DNA或RNA),翻译一下就是“测量值/真实值”。在可接受的成本范围内,捕获率越高,测量结果越接近真实。

2) "通量"

通量就是细胞数。一方面,细胞越多,统计显著性越强。另一方面,增加细胞数,可以补偿基因捕获率低造成的分析误差,因为当细胞数足够多,总有一些细胞里测到了目标片段。

实现高通量,说白了就是每个细胞要有特异性标签,能被区分,两个常见方法:

① Combinatorial Indexing —— 用DNA序列的组合来区分细胞,如果一个细胞带上3个index,每个index都有96种序列(96孔板),那么一共可以标记 96^3 = 8.8\times10^5个细胞。

② Droplet-based indexing —— 机器分出成千上万的小液滴,每个小液滴里含有一个细胞、一个种着带有特异序列index的bead,适当反应可以把目标DNA连在bead上。

下面,简单说一下几个 单细胞 RNA+ATAC 技术:

p.s. 你看!一作全是华人。

1)sci-CAR (Cao et al., 2018)

最早的(2018年)高通量单细胞RNA+ATAC。① 这个技术致命的问题是,一个单细胞,还没扩增,先分两份(split),分别拿去扩增DNA或RNA;换句话说,还没开始做实验,先丢一半原料,捕获率必然低。② 第二轮indexing在split之后,此时细胞结构已经被破坏,所以最多只能实现2轮indexing,通量有系统性限制。③ 先做逆转录(RT)再做Tn5 insertion,似乎会降低Tn5 insertion效果(下面几个技术都是先Tn5)

sci-CAR 操作流程 (Cao et al., 2018)

2)Paired-seq (Zhu et al., 2019)

思路和sci-CAR没有本质区别。加index的方法是ligation(效率较低);可以实现多轮加index,经过三轮后,剩下大概25%的细胞依然完整。split DNA、cDNA之前有扩增。比较有意思的想法是,split后通过不同的限制性内切酶获得特异的端部序列(扩增引物对应序列),从而区分DNA和RNA。

Paired-seq 操作流程 (Zhu et al., 2019)

3)SNARE-seq (Chen et al., 2019)

基于droplet,建库流程比上述两个技术简单。

SNARE-seq 操作流程 (Chen et al., 2019)

4)SHARE-seq (本文的新技术)

前半部分和Paired-seq相似:Tn5 insertion → RT (cDNA上带有biotin修饰)→ 96孔板 3轮,通过PCR加index。接下来,使用链霉亲和素磁珠(结合biotin)将cDNA从所有DNA中分离出来(这一步使得理想情况下可以获得全部DNA和cDNA,是实现高捕获率的关键)。最后cDNA、DNA分别建库测序。

SHARE-seq 操作流程 (Ma et al., 2020)

相比之下,SHARE-seq捕捉到的ATAC-seq fragment in peak 和 RNA-seq UMI 数目显著高于其他三项技术。

几个技术捕获率对比 (Ma et al., 2020)
附:SHARE-seq Validations (Ma et al., 2020)

数据分析 & 生物发现

注:“一”~“四” 是分析的步骤,“1)”~“5)” 是有意思的结果。

研究小鼠上皮组织。共有34774个细胞通过质控,进入分析。

一、聚类&分细胞类型

SHARE-seq RNA/ATAC 聚类(不同颜色是基于RNA定义的细胞类型,而ATAC图中这些颜色/细胞类型依然能够分开)

1)RNA和ATAC分出的细胞类型有很高一致性

每个RNA cluster(纵向)中的细胞在每个ATAC cluster(横向)中的分布

2)某些细胞类型可以更清晰地被RNA/ATAC之一所定义

RNA/ATAC cluster 之间的相关性(相关性越高,两个cluster越相似,越难区分)

二、RNA和ATAC相关性

通过基因表达(RNA)- 染色质开放程度(ATAC)协方差算出显著相关的基因和其远端顺式调控序列组合,称为“peak-gene association”。在小鼠上皮组织中,分析得到63110个显著的peak-gene association(TSS±50kb范围内,p<0.05,FDR=0.1)。Peak-gene association集中出现(>10个)的区域被定义为“Domains Of Regulatory Chromatin” (DORCs)。

P.s. 这里又做了一个validation,说明SHARE-seq的高捕获率和足够多的细胞数对于检测“peak-gene association”是非常必要的。

A. 分析示意图 B. 细胞数与捕获率对于peak-gene association检出的影响(downsample的捕获率与sci-CAR捕获率一致)

3)DORC 在 super-enhancer、lineage-specific gene 富集

拥有x个peak-gene association的(D. 全部 / E. super-enhancer)基因数目
(基于RNA的)细胞类型(纵向)特异的 DORCs(横向)

三、RNA和ATAC的差异

通过ATAC数据构建上皮组织几种细胞类型的分化轨迹。

ATAC数据重构上皮组织几种细胞类型的分化轨迹

4)DORC开放与RNA表达(an open question)

作者分析了DORC的开放程度和对应基因表表达,发现一些DORC(如Wnt3)显著地先开放,后表达,并把开放先于表达的细胞称为正发生lineage-priming的细胞。

分化轨迹中 Wnt3 基因的DORC开放程度、RNA表达及二者之差(Residuals)

作者还想把这个“lineage-priming”概念说在更多的DORC上:

This pattern of peak activation in enhancers prior to expression is apparent across many but not all genes, which we refer to as the“lineage-priming module” defined by sharing similar residuals

然而分析结果并没有给出一个好看的“lineage-priming module”聚类。如下图,DORC聚出的同一类的 Residual 随时间变化的差异也是挺大的,看不出明显的pattern。

DORC开放程度(左边为层次聚类结果)、RNA表达及二者之差(Residuals)

“DORC开放先于RNA表达”这种现象中多少是有生物意义的,多少是巧合?“RNA表达先于DORC开放”的现象也存在,其中的一些会不会在细胞分化中甚至更重要?DORC开放与RNA表达谁是因谁是果?这个文章目前不能解答。

比较有趣的是,为了进一步研究染色质开放的基因表达调控的机制,作者想到分析TF motif 在DORC中的富集程度,以及DORC score 和 TF表达量之间的相关性。画二者散点图,发现Lef1Hoxc13 二者显著在DORC中富集,且表达量与对应DORC score 显著相关。这符合以往对于Wnt3 通路激活的研究:Lef1(a lineage-priming TF)表达,随后Hoxc3 表达,二者(可能通过激活DORC)促进Wnt3 的表达。

散点图

四、染色质开放程度变化趋势

作者定义了一种描述染色质开放程度变化趋势的量“chromatin potential”,这个概念第一次听说,也被作者写到了标题里,也是只有高质量高通量单细胞双组学数据才能算好的呢!(掌声)

5) Chromatin potential 比 RNA volocity 更细致地描绘细胞分化路径

根据定义,显然啊,毕竟前者包含了DNA→RNA的基因表达调控信息,后者通过RNA splicing计算,只涉及RNA层面的加工过程 (La Manno et al., 2018)

A. Chromatin potential 计算思路与结果 B. RNA velocity 结果

评价

最初被 SHARE-seq 这个技术吸引。仔细看才发现这篇不仅是技术,还有教科书一样的分析计算和上皮组织细胞分化领域的专业insight。

对于DORC和RNA表达之间关系的阐述感觉并没有很solid,或许这个关系本身就很复杂,有各种反馈调节,不能一刀切(谁先谁后/谁导致谁)。

作者很会起标题,抓人眼球、诠释自己重要性(只有我的技术能算chromatin potential)。为了突出chromatin potential、证明算出来的是合理的,还需要继续深挖生物含义,进行lineage tracing 等实验验证。

这么斥巨资的大制作,肯定奔着CNS。祝愿早日补好实验,完善逻辑和故事,然后ONLINE!


参考文献

Ma et al., 2020, bioRxiv. "Chromatin potential identified by shared single cell profiling of RNA and chromatin."

Chen et al., 2019, Nature Biotechnology. "High-throughput sequencing of the transcriptome and chromatin accessibility in the same cell."

Zhu et al., 2019, Nature Structural & Molecular Biology. "An ultra high-throughput method for single-cell joint analysis of open chromatin and transcriptome."

Cao et al., 2018, Science. "Joint profiling of chromatin accessibility and gene expression in thousands of single cells."

Rosenberg et al., 2018, Science. "Single-cell profiling of the developing mouse brain and spinal cord with split-pool barcoding."

La Manno et al., 2018, Nature. "RNA velocity of single cells."



本文转自 知乎,原文链接:https://zhuanlan.zhihu.com/p/150606161,如需转载请自行联系原作者
头像
丢弃