利用数据库数据进行定制化的生信分析
让您的文字更出彩
|
转录组测序(RNA-Seq)转录组测序(RNA-Seq)的研究对象是特定细胞在某一功能状态下所能转录出来的所有mRNA的总和。新一代高通量测序技术能够全面快速的获得某一物种特定组织或器官在某一状态下的几乎所有转录本序列信息,从而准确地分析基因表达差异、基因结构变异、筛选分子标记(SNPs或SSR)等生命科学重要问题。 A workflow for RNA-seq Ruairi J, Genomics Research, 2018 我们的优势1. 八年转录组测序分析经验,自主研发了多个生物学领域内认可的软件,如差异可变剪接算法ASD、CASH等,检出率和准确度超过同类软件; 2. 不依赖已有物种信息,可研究非模式物种,针对不同平台的数据,制定多套流程; 3. 整合了众多学术界公认的转录组相关数据库,从本质上提高后期分析的广度和精度。 样本要求组织样品: 1. 动物组织≥1g; 2. 植物组织≥2g; 3. 细胞样品≥1×106个; 4. 全血≥2mL; 5. 菌体≥106个或≥30mg。 RNA样品: 1. 样品需求量: RNA≥10 μg; 2. 样品浓度:RNA样品≥100 ng/μl; 3. 样品纯度:OD260/OD280在1.8-2.2之间,OD260/OD230≥2,28S/18S≥1,动物样品RIN≥7.0,植物样品RIN≥6.5,RNA无明显降解。 实验流程
1. 客户样本:保证细胞量在106个以上,否则则需风险建库; 2. RNA提取:经典试剂盒快速提取法; 3. RNA质控:凝胶电泳质控→Nanodrop质控→Agilent2200质控; 4. 文库构建:polyA建库; 5. 上机测序:建议选择NovaSeq测序平台,双端测序,通量大,碱基精度高,且成本低,速度快。推荐数据量:6Gb。 数据分析流程结果示例1、原始数据质控以原始数据为研究对象,采用Fastp软件对于低质量序列,未检测序列,接头序列进行过滤,并对于过滤前后数据的碱基质量、GC含量、长度分布、接头留存和Duplication比率等指标进行分析。图1中部分展示了raw data质控结果。 碱基质量结果图 注:左图横坐标代表碱基位点,纵坐标代表碱基质量值,不同颜色曲线代表不同碱基在每条read上的质量值;右图横坐标代表碱基位点,纵坐标代表碱基含量比值,不同颜色曲线代表不同位点各碱基含量。 2、RNA基因组比对(RNA Mapping)采用Hisat2/Mapsplice/Star/Tophat2等算法进行基因组比对,得到基因组比对的bam文件,并基于bam文件进行信息统计,得到基因组比对率、reads在基因结构和染色体上的分布结果。图2部分展示了RNA基因组比对结果。 reads在基因结构和染色体上的分布情况 Miao et al., Mol Cell Endocrinol, 2015 注:左图为reads在不同基因结构(如外显子、内含子、基因间区、5’-UTR和3’-UTR)上的分布情况;右图为reads在染色体上的分布情况,横坐标表示染色体编号,纵坐标表示百分比,灰色柱子表示每条染色体上碱基数占基因组的比例,绿色柱子表示比对到染色体上reads的碱基数占基因组的比例。 3、表达量统计(Expression)采用HTSeq以及基因组注释的gff3文件,根据单端或双端测序类型,选择RPKM或FPKM的标化方式对基因表达量进行统计。基于统计结果,分析得到样本间相关性、 RPKM/FPKM密度和丰度等分析结果,反映单个样本基因表达水平分布和离散程度,以及不同样本整体基因表达水平的差异。 基因表达量分析 注:左图为不同样本RPKM密度图,横坐标表示log10(RPKM),纵坐标表示每个log10(RPKM)值对应的基因数占比;右图为不同样本基因表达箱线图,横坐标表示不同样本名称,纵坐标表示样本中每个基因log10(RPKM)分布情况。 4、差异基因筛选(Dif Gene Analysis)采用DESeq2/DESeq/EBSeq/EdgeR/Limma等算法进行差异筛选,得到满足差异倍数(Fold Change)以及FDR阈值的差异基因,并基于差异筛选结果以及样本的FPKM或RPKM,进行火山图分析(Volcano Plot)以及聚类图分析(Heatmap)。 差异基因的火山图和聚类图 liu et al., Nature, 2016 注:左图为差异基因的火山图,红色表示显著差异基因,蓝色表示非显著差异基因;右图为基因表达聚类图,横坐标为样品分组,纵坐标为基因,红色表示高表达,绿色表示低表达。 5、功能分析(GO Analysis)为了明确差异基因的相关功能,我们往往需要对差异基因进行GO富集分析。NovelBio团队在数据库上投入了大量时间和人力,采用NCBI/UNIPROT/SWISSPROT/AMIGO等GO数据库,对于差异基因进行功能分析,从而得到差异基因所显著性富集的功能条目(GO Term)。 基因功能分析 He et al., Cancer Sci, 2017 注:该图从生物学进程(Biological Process, BP)、分子功能(Molecular Function, MF)和细胞组分(Cellular Component, CC)3个层面展示了差异基因显著富集的前15个功能条目。横坐标为-Log2(P-value)/-Log10(P-value),纵坐标为Go-Term条目名称。 6、信号通路分析(Pathway Analysis)通过对差异基因进行Pathway富集分析,寻找不同样品间差异基因相关的信号通路,有利于研究者进行深入的机制研究。NovelBio团队整合了一系列生物学领域内公认的通用数据库(KEGG、NCBI、EMBL等),深入优化所需算法,对差异基因进行信号通路分析,从而得到差异基因所显著性富集的信号通路条目。 Pathway富集性分析 He et al., Cancer Sci, 2017 注:该图展示了差异基因富集的25条Pathway条目。横坐标为Pathway条目名称,纵坐标为富集度(Enrichment),红色表示显著性条目,蓝色表示非显著性条目。 7、GO-Tree分析采用GO数据库中GO-term的上下级层级从属关系,进行GO-Tree绘制,得到显著性差异功能的功能簇以及层级从属关系。 GO Tree Miao et al., Mol Cell Endocrinol, 2015 注:该图展示了差异基因显著富集的GO Terms内在从属关系。红色代表上调基因显著富集的功能条目;绿色代表下调基因显著富集的功能条目,黄色代表上调和下调基因都显著富集的功能条目。 8、Path-Act-Network分析采用KEGG数据库记载的信号通路上下游调控关系,进行Path-Act-Network绘制,得到宏观上的显著性信号通路的上下游调控关系。 Path-Act-Network Miao et al., Mol Cell Endocrinol, 2015 注:该图展示了差异基因显著富集pathway之间的上下游调控关系。红色表示上调基因显著富集的pathway;绿色表示下调基因显著富集的pathway。 1、共表达网络分析(Co-Exp-Network Analysis)对已知注释信息进行深入的分析挖掘之后,研究者往往希望能够找到更多的创新点。NovelBio团队基于GO Analysis和Pathway Analysis得到的显著性条目,以及研究者感兴趣条目,以这些条目中基因的表达值为研究目标,进行共表达网络和K-Core分析,从而得到基因间的相关性和基因的核心度,再以Co-Expression.txt和K-Core为研究对象,采用Cytoscape进行图形化展示,得到Co-Expression-Network。 共表达网络 Miao X et al., Scientific reports, 2016 注:相同颜色的圆点表示具有相似共表达能力的基因,圆点的大小表示该基因的K-core程度。 2、基因间相互作用关系网络(Gene-Act-Network Analysis)研究中,常常会发现差异基因过多,并且所属信号通路也很复杂,难以将相关基因联系起来并找到“核心”基因。NovelBio团队基于GO Analysis和Pathway Analysis得到的显著性条目,以研究者感兴趣的相关表型基因为研究对象,采用KEGG数据库基因间关系注释,帮助研究者绘制Gene-Act-Network,快速定位“核心”基因。 基因互作网络 Sun L et al,Sci Rep. 2016 注:红色圆点表示上调mRNAs,绿色圆点表示下调mRNAs。 3、韦恩分析韦恩图的典型之处就在于它用一些重叠的部分来展示集合之间可能存在的关系。以各分组间的基因为研究对象,采用韦恩作图分析的方法,可找出各分组间共有或者特有的差异表达基因并进行深入分析。 维恩分析 Chen et al., BMC Genomics, 2014 注:该图表示上调基因(左)和下调基因(下)的韦恩分析图,数字分别代表处于不同交集内的基因个数。 4、趋势分析在趋势型结果中,研究者常常希望对差异基因随着时间/逻辑趋势的不同进行分析,而两两之间的比较显然不足以满足这样的要求。NovelBio团队为研究者提供了定制化的趋势分析流程思路,以各差异分组间的韦恩基因的FPKM值为研究对象,采用STEM算法,进行趋势分析,得到按照样本逻辑顺序所在趋势。 趋势分析 Chen et al., BMC Genomics, 2014 注:研究者基于趋势分析的众多结果,归纳、整合,最终锁定了几类变化趋势类型,进而更有针对性的开展后续工作。该研究中最终归纳出了6种显著性趋势,研究者选择了基因个数最多的两种趋势,对这些基因进行GO等深入分析。 5、加权基因共表达网络分析(WGCNA)分析WGCNA分析是用来描述不同样品之间基因关联模式的系统生物学方法。基于加权的表达相关性,进行层级聚类分析,并根据设定标准切分聚类结果,获得不同的基因模块,采用聚类树的分枝和不同颜色来鉴定高度协同变化的基因集。如果有表型信息,还可以计算基因模块与表型相关性,鉴定性状相关的模块,并根据基因集的内连性和基因集与表型之间的关联鉴定候补生物标记基因或治疗靶点。 WGCNA分析 Wan et al., Exp Eye Res. 2018 注:左图表示基因聚类和模块鉴定的对应关系,高度共表达的基因群在聚类中处于相似分枝中;右图表示模块和表型相关性热图结果,方框内上面的数字是模块ME和表型数据相关性,下面括号内的数字为相关性的P值。 文献示例[1] Ju L, Han J, Zhang X, et al. Obesity-associated inflammation triggers an autophagy-lysosomal response in adipocytes and causes degradation of perilipin 1. Cell Death Dis. 2019 Feb 11;10(2):121. (IF=5.683) [2] He H, Chen E, Lei L, et al. Alteration of the tumour suppressor SARDH in sporadic colorectal cancer: a functional and transcriptome profiling-based study. Mol Carcinog. 2019 Jan 29. (IF=3.851) [3] Zhang C, Wang JJ, He X, et al. Characterization and Beige Adipogenic Potential of Human Embryo White Adipose Tissue-Derived Stem Cells. Cell Physiol Biochem. 2018 Dec 14;51(6):2900-2915. (IF=5.5) [4] Chen E, Yang F, He H, et al. Alteration of tumor suppressor BMP5 in sporadic colorectal cancer: a genomic and transcriptomic profiling based study. Molecular Cancer. 2018 Dec 20; 17(1):176-188. (IF=7.776) [5] Ge X, Chen J, Li L, et al. Midostaurin potentiates rituximab antitumor activity in Burkitt's lymphoma by inducing apoptosis. Cell Death Dis. 2018 Dec 18;10(1):8-19. (IF=5.638) [6] Miao N, Bian S, Lee T, et al. Opposite Roles of Wnt7a and Sfrp1 in Modulating Proper Development of Neural Progenitors in the Mouse Cerebral Cortex. Front Mol Neurosci. 2018 Jul 17; 11:247-260. (IF=3.903) [7] Heng S, Yan W, Zongyou P, et al. Gefitinib for Epidermal Growth Factor Receptor Activated Osteoarthritis Subpopulation Treatment. EBioMedicine. 2018 Jun 11;32:223-233. (IF=6.183) [8] He c,et al. Phosphorylation of ETS-1 is a critical event in DNA polymerase iota-induced invasion and metastasis of esophageal squamous cell carcinoma. Cancer Sci. 2017 Sep 14. (IF=3.974) [9] Wei, J. et al. The GARP Complex Is Involved in Intracellular Cholesterol Transport via Targeting NPC2 to Lysosomes. Cell Rep. 2017 Jun;19(13):2823-2835.(IF=8.032) [10] Wu, W. et al. CASH: a constructing comprehensive splice site method for detecting alternative splicing events. Brief Bioinform. 2017 Feb;1-13. doi:10.1093/bib/bbx034 (IF=5.134) [11] Chen J, et al. Network analysis-based approach for exploring the potential diagnostic biomarkers of acute myocardial infarction. Front Physiol. 2016 Dec 9;7:615. (IF=3.394) [12] Liu Z,et al.Autism-like behaviours and germline transmission in transgenic monkeys overexpressing MeCP2. Nature. 2016 Feb 4;530(7588):98-102. (IF=41.577) [13] Hu, Y. et al. Interactions of OsMADS1 with floral homeotic genes in rice flower development. Mol. Plant 2015 Sep;8(9):1366-1384 (IF=8.827) [14] Wang F, et al. Alternative splicing of the androgen receptor in polycystic ovary syndrome. Proc Natl Acad Sci U S A. 2015 Apr 14;112(15):4743-8. (IF=9.681) |