科研 | Mol. Cell:R-Deep:基于蛋白质组学梯度超速离心鉴定RNA结合蛋白
编译:思越,编辑:Emma、江舜尧。
原创微文,欢迎转发转载。
在转录过程中,RNA分子与RNA结合蛋白(RBPs)相互作用形成核糖核蛋白(RNP)复合物。然而,对RNA结合蛋白的鉴定和功能研究仍然是RNA生物学研究的主要挑战。在本文中,作者提出“RNA依赖(R-DeeP)”的概念,将RNA依赖蛋白质定义为相互作用网络依赖于RNA的蛋白。作者基于密度梯度超速离心,进行了全蛋白组无偏倚筛选,可以发现直接、间接及无法与RNA结合的蛋白,从而有可能发现更多RNA参与的生物学过程,并以CTCF是R-DeeP作为一个示例。最后,作者建立了数据库用于鉴定具有RNA依赖的蛋白质(http://R-DeeP.dkfz.de)。

论文ID
实验设计
作者基于R-DeeP的概念,结合密度梯度超速离心与定量质谱,在加或不加RNase破坏RNA的两种情况下,绘制特定蛋白在不同组分的分布图,如果某个蛋白分布发生了显著变化,说明该蛋白与RNA处于同一个复合物中,并通过CLIP实验验证筛选的准确性。并通过CORUM数据库研究了蛋白质相互作用网络。最后以CTCF作为例子,发现部分染色质高级结构的建立依赖于RNA组分(图形概要)。
实验结果
1. R-DeeP:全蛋白质组的RNA依赖蛋白筛选
首先,作者定义了“RNA依赖”的概念:如果一个蛋白质的相互作用依赖于RNA而不一定直接与RNA结合,那么它就是“RNA依赖”的。“RNA依赖”在概念上不同于“RNA结合”,RNA依赖蛋白不仅包括那些直接RNA结合的蛋白,而且包括间接与RNA相互作用的蛋白(图1A)。这一概念允许RNA依赖性蛋白质和复合物的发现,尽管它们的结合方式不仅限于传统的定义。
在RNA存在或缺失的情况下,依赖RNA的蛋白质和复合物在蔗糖浓度梯度下有望迁移到不同的位置。作者通过5%-50% 蔗糖密度梯度离心将HeLa S3细胞裂解液分成25份,采用免疫印迹法或质谱法测定各组分的蛋白质含量。每一种蛋白质在梯度上都有特定的分布,RNase处理后某蛋白在密度梯度上的位移显示了该蛋白的RNA依赖性(图1A)。
作者开发了一个统计分析来识别RNA依赖的蛋白质,基于每个蛋白质在梯度中的高斯拟合分布,其中位移的描述包括以下几个指标以确保结果的准确性:(1)在空白组和RNase处理组中的中心位置;(2)蛋白移位量,用高斯拟合曲线下面积表示;(3)位移的距离和方向;(4)空白组和RNase处理组曲线在各子最大值处的高度差;(5)差异的统计学意义(图1A)。总体而言,同一样本中的蛋白质水平是不同的,而在两次重复之间,每种蛋白质水平基本保持一致(图1B)。通过归一化后,当比较成对的重复时,每一组分的每一蛋白质的量与所有蛋白质都有很好的相关性,表明了该方法具有一定的重复性(图1C)。而在空白组和RNase处理组中,蛋白质的分布在移位上存在显著差异(图1D)。最终,通过该分析确定了每个蛋白质的拟合峰位置,并分类为左移位、右移位、沉淀型。定量质谱分析鉴定出1784种RNA依赖蛋白,其中537种尚未报道(图1E、F)。
为了进一步研究蛋白质亚类的特性,作者研究了其等电点(PI)、低复杂结构域(LCD)含量、氨基酸组成和蛋白质结构域差异(图1G)。四个移位组的平均等电点从右移、非移位、左移位到沉淀持续增加,且新鉴定的RNA依赖蛋白具有更长的LCD,并富集更多的无序氨基酸和正电荷氨基酸。

图1 R-DeeP:全蛋白质组的RNA依赖蛋白筛选
(A)在5%-50% 蔗糖密度梯度上制备未经处理的或经RNase处理的HeLa S3细胞裂解物。超速离心之后进行分离,然后进行质谱法和蛋白印迹分析以验证筛选效果;(B)RNase处理组和对照组间蛋白质数量的热图展示;(C)标准化后蛋白质片段的数量分布;(D)蛋白质移位热图;(E)对照和RNase处理样本中每个位移的最大位置;(F)根据移位和先验分类,使用R-DeeP对蛋白进行分类;(G)分类蛋白质的等电点分布
2. R-DeeP的准确性验证
为了验证R-Deep筛选的结果,作者首先以HNRNPU和RPS3等已知RBPs为阳性对照,发现与先前质谱验证的结果一样,通过密度梯度和WB验证了HNRNPU 和RPS3的分布特征(图2A),接着使用已知的非RNA结合蛋白ASNS和PSMA1作为阴性对照,发现也具有同样的效能(图2B)。接着,作者通过CLIP实验验证RNA和RNA结合蛋白的结合情况,结果发现HNRNPU和CTCF与RNA结合,而ASNS和PSMB1没有检测到与RNA的相互作用。此外,作者验证了部分通过R-DeeP新验证出的蛋白,发现REEP4、HMGN1、CASP7和THYN1在RNase处理后发生了显著变化(图2C),并通过CLIP分析验证了这些蛋白质与RNA的结合能力,进一步验证了R-DeeP的可靠性。

图2 R-DeeP的准确性验证
(A)HNRNPU 的质谱法和WB分析;(B)ASNS的质谱法和WB分,(C)REEP4,HMGN1,CASP7和THYN1通过梯度离心得到数量分布;(D)HNRNPU(阳性对照)、ASNS(阴性对照)、REEP4、HMGN1、CASP7和THYN1的CLIP分析
3. R-DeeP分析蛋白质互作网络
接着,作者通过对比CORUM数据库研究了蛋白质相互作用网络及其对RNA的依赖性。将CORUM数据库中列出的2710种蛋白质与RNA的关系进行了分类(图3A),通过对比R-DeeP筛选的RNA依赖蛋白和CORUM数据库分类的蛋白,发现RNA依赖蛋白中,44%没有表现出RNA依赖性,而在RNA非依赖性类别中,有15%的蛋白质表现出RNA依赖性(图3B)。此外,作者假设R-DeeP可以对蛋白质复合物进行分析,因为存在RNA时亚基应该共享一个共同的峰。对多种蛋白质复合物的分析证实了这一假设:对于mSIN3A复合物的所有五种亚基,分数在18.6±0.4左右的对照样品中存在一个共同峰,该复合物的所有蛋白质都是RNA依赖性的(图3C)。在非移位蛋白中,MCM复合体亚基在分数为11.2±0.2处共享一个共同的峰(图3D)。总之,R-DeeP数据集可重建基于共分离的蛋白质复合物,而RNase处理后的峰位置进一步提供了关于基于表观大小或共分离的剩余相互作用信息。

图3 R-DeeP分析蛋白质互作网络
(A)CORUM数据库中的人类蛋白质分类;(B)CORUM中定义的蛋白类别与R-DeeP筛选的蛋白类别比例;(C)mSIN3A蛋白复合物的STRING蛋白互作分析和R-DeeP分析;(D)MCM蛋白复合物的STRING蛋白互作分析和R-DeeP分析
4. RNase处理后的蛋白互作网络
为了确定RNase处理后每个蛋白质的相互作用状态,作者使用已知分子量的参考蛋白对蔗糖密度梯度进行了校正。发现这些蛋白质在梯度中的分子量和位置具有很好的关联性(图4A)。并通过将RNase处理的样本中蛋白质的位置与参考蛋白质进行比较,根据蛋白质的表观分子量将蛋白质分类为“小”(小于公布的分子量)、“单体”(与公布的分子量匹配)、“复合物”(远大于预期)或“沉淀”四类(图4A)。对于UPF复合体,RNase处理后,大多数亚基成为单体(图4B),而RFC复合体的所有亚基仍然处于复合体中(图4C)。

图4 RNase处理后的蛋白互作网络
(A)参考蛋白的表观分子量和梯度离心中最多蛋白分数的关系图;(B)UPF复合物的RNA依赖位移;(C)RFC 复合物的RNA依赖位移
5. RNA依赖移位的定量分析
作者通过建立的参考蛋白定量特征,确定了每个蛋白质位移的比例,并归类为RNA不依赖、部分依赖和完全RNA依赖蛋白。根据给定峰值位置的蛋白质含量和RNase处理后的变化来计算位移系数,通过位移系数归类为RNA不依赖(无移位)和部分依赖(部分移位)或完全依赖RNA(完全移位)(图5A)。且部分位移的蛋白质(如NPM3)都有一个较小的移位对照峰和一个较大的非移位对照峰(图5B),较小的峰对应于蛋白质的RNA依赖部分,较大的对照峰代表该蛋白的RNA非依赖性部分。而完全位移的蛋白质(如HNRNPU)显示出峰的大幅度变化(图5C)。此外,一些已知的参与剪接或染色质组成的RNA结合蛋白仅显示部分移位的特征(图5D),且部分移位的蛋白质平均等电点比完全移位的蛋白质要低得多(图5E)。总之,通过定量分析表明,完全移位蛋白与经典的RNA结合蛋白相似,而部分移位蛋白可能具有更广泛的结构域和功能。

图5 RNA依赖移位的定量分析
(A)RNase处理峰与对照峰移位的相关关系;(B)部分移位蛋白NPM3的R-DeeP分析;(C)完全移位蛋白HNRNPU的R-DeeP分析;(D)对已知RBP:剪接因子LSM8、SF3B6、SYF1和染色质因子SMC4的R-DeeP分析;(E)完全移位和部分移位蛋白的等电点分布图
6. CTCF与染色质相互作用的RNA依赖性
CTCF是与染色质的相互作用的转录因子。作者对所有的CTCF进行了R-DeeP筛选,发现所有的CTCF似乎都是 RNA 依赖的,并通过WB验证(图6A),提示RNA可以介导CTCF与染色质的相互作用。接着作者通过实验去证明该假设。CTCF芯片和qPCR实验发现,CTCF在其特定结合位点的富集可达800倍,经RNaseA处理后显著降低(图6B)。RNase A在分离前对细胞核的处理导致CTCF从染色质中显著解离,而组蛋白H3仍然与其结合(图6C)。在HeLa细胞中,对CTCF的免疫荧光染色和DNA的DAPI染色显示CTCF和染色质都发生了程度不同的重排(图6D),通过计算荧光信号的相关性,RNaseA处理导致了明显的共定位减少(图6E)。总之,CTCF与染色质的结合需要RNA,部分染色质高级结构的建立依赖于RNA组分。

图6 CTCF与染色质相互作用的RNA依赖性
(A)CTCF的质谱分析(左图)和WB分析(右图);(B)对非CTCF相互作用和CTCF相互作用区域的Chip和qPCR分析;(C)核质和染色质组分中CTCF和组蛋白H3的Western blot分析;(D)对照和RNaseA处理HeLa细胞中CTCF(红色)、DNA(绿色)和actin(灰色)共聚焦图像;(E)未对照和RNaseA处理的HeLa细胞中CTCF和DNA荧光信号的皮尔逊相关系数。
讨论
这篇文章为我们介绍了一种不需要引入标记且能在组学层面鉴定RNA依赖蛋白或复合物的方法R-DeeP,可以发现间接与RNA结合的蛋白,从而有可能发现更多RNA参与的生物学过程。R-DeeP 产生的定量数据不仅确定了每个蛋白质的RNA依赖性,而且还确定了蛋白质中RNA依赖性的比例。R-DeeP数据集可重建基于共分离的蛋白质复合物,而RNase处理后的峰位置进一步提供了关于基于表观大小或共分离的剩余相互作用信息。通过引入RNA依赖的概念,阐明RNA对蛋白质复合物的影响,促进新的RNA功能的发现,并为蛋白质组范围内、特异地和定量地鉴定其相互作用依赖于RNA的蛋白质和复合物提供了资源(图7)。

图7 R-DEEP数据库:RNA依赖蛋白数据库
目前R-Deep数据库提供了4765种蛋白质的RNA依赖性分析。除了峰值和移位信息、图形视图和下载界面,数据库还提供与其他蛋白质数据库链接的蛋白质详细信息,并整合了对每个蛋白质的CORUM复合物分析。

