金华皮肤科

性状外显子组测序技术手册

2022-01-14 22:41:42 来源:金华皮肤科 咨询医生

遗传学物质小组的遗传学小组数占多近正因如此遗传学小组遗传学小组的1%数,但大多近与结核病关的的连续性状设于遗传学物质四区。通过遗传学物质小组化学合成可检验有约8万个连续性状,正因如此遗传学小组化学合成可检验300万个连续性状,因此,与正因如此遗传学小组化学合成相对来说,遗传学物质小组化学合成不数费用低,近据库阐明也极其恰当。遗传学物质小组化学合成电子技术以其工商业、有效的劣势广泛理应中用孟德尔不育、罕见综合症及比较恰当结核病的研究工作,并于2010年被Science华尔街日报选为简介有所突破之一。

一、电子技术简介

随着社不会家庭水平的更很高,生物肥胖问题也越来越多的受到社不会各界的关注。传统习俗的遗传学结核病研究工作方式而是使用显带分析工序、核型分析工序、FISH、遗传学标记、PCR-DNA化学合成等传统习俗试验性工序来寻想到与结核病关的的DNA连续性状,这些工序则有各的基本特征,但都依赖于工作量大、成本低、分辨率低等一系列的限制。下一代很生物信息学化学合成电子技术的显现借助于来,为遗传学结核病的研究工作透过了正因如此新的思路。

2009年,遗传学小组定向捕捉物件的显现借助于来使遗传学物质小组化学合成成为可能。2009年9月底,第一篇关于遗传学物质小组化学合成的原理解析篇文章于Nature华尔街日报上刊登。来自华盛顿大学的JayShendure通过对四名Freeman-Sheldon综合症病症的遗传学物质小组化学合成,想到到了已知的细菌感染遗传学MYH3。随后,该团队将这种电子技术理应中用安德森综合症的研究工作,通过对病症编序列方式四区遗传学小组的捕捉及广度化学合成,检验借助于单个候选遗传学DHODH,并经Sanger化学合成解析其他病症中的依赖于该遗传学的特异性。

遗传学物质小组的遗传学小组数占多近正因如此遗传学小组遗传学小组的1%数,但大多近与结核病关的的连续性状设于遗传学物质四区。通过遗传学物质小组化学合成可检验有约8万个连续性状,正因如此遗传学小组化学合成可检验300万个连续性状,因此,与正因如此遗传学小组化学合成相对来说,遗传学物质小组化学合成不数费用低,近据库阐明也极其恰当。遗传学物质小组化学合成电子技术以其工商业、有效的劣势广泛理应中用孟德尔不育、罕见综合症及比较恰当结核病的研究工作,并于2010年被Science华尔街日报选为简介有所突破之一。近两年遗传学物质小组研究工作关的的SCI篇文章已刊登千余篇,已对近百种结核病展开了研究成果工作,研究工作结果推动了生物临床的研究工作。

二、电子技术劣势

• 直接对复合物编序列方式遗传学小组顺利进行遗传学小组测定,想到借助于影响复合物构件的连续性状。• 很高广度化学合成,可推测少用连续性状及kHz略低于1%的罕见连续性状。• 针对遗传学物质小组周边化学合成,有约占多近遗传学小组的1%,有效增大费用、长周期、工作量。

三、理技术的发展举例来说

结核病

遗传学方式而

细菌感染遗传学

Freeman-Sheldon综合症

AD

MYH3

Kabuki 综合症

AD

MLL2

Schinzel-Giedion 综合症

AR

SETBP1

Sensenbrenner 综合症

AR

WDR35

Fowler 综合症

AR

FLVCR2

Perrault 综合症

AR

HSD17B4

Hajdu-Cheney 综合症

AD

NOTCH2

成骨不正因如此

AR

SERPINF1

安德森综合症

AR

DHODH

Brown-Vialetto-van Laere 综合症

AR

C20orf54

滴磷酸脂酶过多人格迟钝综合症

AR

PIGV

的王室连续性β-脂复合物过少滴症

AD

ANGPTL3

色素连续性视网膜炎

AR

DHDDS

非综合症连续性耳聋

AR

GPSM2

原发连续性肺脏连续性水肿

AD

GJC2

肌萎缩连续性侧坎硬化

AD

VCP

非综合症的人格迟钝

AR

TECR

Van Den Ende-Gupta 综合症

AR

SCARF2

自身免疫连续性淋巴小一个组织增生症(ALPS)

AR

FADD

脑共济失调

AD

TGM6

逆向连续性痤疮

AD

NCSTN

四、方案设计

相对来说传统习俗化学合成,遗传学物质化学合成能够不断的获得所有遗传学物质周边的遗传学近据,在大幅提高成本的同时总体增大了研究工作成本;相对来说正因如此遗传学小组化学合成,遗传学物质化学合成能够在较短实验长周期、减缓近据库分析工序量及实验改装成的基础上有针对连续性的获取大以外正因如此遗传学小组化学合成所能获取的近据。基于遗传学物质小组化学合成更佳连续同类产品,该工序目前为止在国际上仍未被广泛的理应中用不育和乳癌症研究工作中的。

1. 单遗传学结核病研究工作方案

首先才可要按照结核病特异性对代代成员顺利进行合理筛查,一致其病危情况下并顺利进行该结核病研究工作的故事情节调查。在想到借助于该结核病仍未有一些研究工作故事情节和关的的细菌感染遗传学报道,可通过传统习俗PCR化学合成工序对已知的结核病关的连续性状顺利进行解析和初筛;确认所研究工作的检验中的未推测关的的遗传学连续性状,那么可以挑选一个或近个相同结核病代代的发起人成员顺利进行遗传学物质小组化学合成。每个代代中的的病危幼体举例来说来说3-5个检验,正常人幼体举例来说来说1-2名作为对照顺利进行研究工作。按照结核病模型(AD,AR等)及仪器的代代近据对化学合成获取的结果顺利进行分析工序,缩小候选连续性状的范围,经过多种注释、筛选后掺入掉对动态无影响的连续性状及公共近据库库中的的少用连续性状,再理技术的发展于传统习俗PCR化学合成顺利进行检验三反解析及关的的动态研究工作,最后确定结核病关的连续性状。

单遗传学不育研究工作举例来说:

a. 代代图:

b. 分析工序思路:1). 隐连续性纯合特异性细菌感染:两个病症包涵相同的纯合特异性,子女为杂合感染者。2). 复合杂合特异性细菌感染:两个病症具相同的特异性,即在一个遗传学下有两个有所不同的杂合连续性状,而子女分别为这两个杂合特异性的感染者。3). 显连续性方式而(预科班特异性):想到两个病症数有的杂合特异性,而子女不带有该特异性。

c. 分析工序结果示意:

若检验为;还有检验,由于检验在在很难滴缘关系,遗传学故事情节相差较大,化学合成获取的结果也较易分析工序。为了极其准确的获取有价参近的结果,理技术的发展于;还有检验顺利进行遗传学物质小组化学合成承诺的检验近目比代代检验要多一些。一般劝告有近做30个病危幼体检验以上的平行化学合成分析工序。对大量病危幼体的化学合成近据库顺利进行多检验分析工序,从而确定候选结核病关的连续性状,再用传统习俗PCR化学合成在其他的相同结核病病危幼体和正常人人群中的做进一步解析。

2. 比较恰当结核病及乳癌症的研究工作方案

对于比较恰当结核病,首先理应该自由选择具遗传学连续性很低的病例作为研究工作取向,一般才可要满足所列几个基本特征:a.与结核病关的;b. 很高度遗传学;c. 在病症中的表现较早,特异性一致,很高外显率;d.结核病的胃癌机制类似于。整体的研究工作思路一般是通过适量检验的遗传学物质化学合成(病危和肥胖幼体各50例)想到到与结核病很高度关联的低频特异性,然后根据这一结果选用合适的芯片,在大检验里顺利进行大规模解析。从而获得准确度更很高的结核病关的连续性状位点。接着可以针对这些位点顺利进行生态学动态研究工作,从而获取有意义的结果,开发借助于结核病诊断及治疗的关的产品等。

在各种环境因素的作用下,机体某些体巨噬细胞DNA上频发的连续性状损害或改变了某些不可忽视的生态学反复,体巨噬细胞可能不会因此异常增生而演进为巨噬细胞。由于巨噬细胞具参近得注意,同旁边小一个组织里可能带有有所不同时期的巨噬细胞以及正常人体巨噬细胞,因此它的遗传学连续性状情况下相对来说之下其遗传学结核病来说极其比较恰当。对于小一个组织的遗传学物质小组化学合成研究工作,其最关键的工序在于检验的举例来说来说。目前为止最少用的情况下是分别取同一乳癌症病症的乳癌小一个组织和乳癌旁小一个组织顺利进行比较,检验近目劝告有近20对以上。化学合成后成对的检验顺利进行分析工序后再顺利进行有所不同病人在在的多检验分析工序,借以来发掘关的的遗传学连续性状。由于产生的可能有近遗传学特异性,遗传学表有约水平连续性状,表观遗传学连续性状等多个方面,在来进行NGS研究工作的时候,并不一定不会理技术的发展于多种试验性工序相结合的工序,例如转录小组化学合成、正因如此遗传学小组化学合成、甲基化化学合成等,相互顺利进行印证,多近据库整合分析工序可以进一步的更很高近据库的可靠连续性,提高科学研究篇文章档次。

{nextpage}

五、捕捉的平台

目前为止主流的捕捉的平台,各的平台的基本特征如下。

捕捉的平台

Illumina TruSeq Exome Enrichment Kit

Roche SeqCap EZ Human Exome Library

Agilent SureSelect Human All Exon

捕捉量

62M

64M

51M

捕捉周边

遗传学物质及旁翼四区,

以外UTR及miRNA

遗传学物质四区及miRNA

遗传学物质四区

探针

95 mer DNA

90-105 mer DNA

120 mer RNA

探针近量

340,427

2,100,000

655,872

对中用近据库库的覆盖率

97.2% CCDS

96.4% RefSeq

93.2% Gencode

77.6% miRBase

99.8% CCDS

98.4% RefSeq

96.7% Gencode

98.67% miRBase

1.22% of human genomic regions,

> 700 human miRNAs,

> 300 additional human non-coding RNAs

六、计划流程

1、 检验侦测

中用建库的DNA仪器标准为仪器浓度小于60ng/μl,截面积小于20μl,OD260/OD280为1.7-2.0。通过所列三种方式顺利进行检验侦测:

• 使用荧光表征的工序对DNA仪器顺利进行表征;• NanoDrop侦测OD260/OD280;• 凝胶电泳侦测DNA的状态,是构成RNA、RNA污染及是否依赖于DNA降解。 2、 建库

理技术的发展TruSeq DNA Sample Prep Kits顺利进行文库制备,接续DNA量为1.2 μg。

3、 捕捉

以Illumina的捕捉的平台为例,理技术的发展TruSeq Exome Enrichment Kit捕捉遗传学物质小组及旁翼四区,以外UTR及miRNA,总捕捉范围为62M。

4、 化学合成

捕捉获取的DNA遗传学小组可于Illumina的任一化学合成仪中的顺利进行化学合成,以HiSeq2000为例,每run可运转两张flowcell,每个flowcell有近8个lane,100PE方式而下每run运转有约11天,近据库一般而言为600G。捕捉仪器经的单PCR后,摆在flowcell中的顺利进行化学合成,遗传学物质小组检验一般劝告化学合成125X,日后足够顺利进行遗传学结核病分析工序,如检验可根据情况下适量提很高化学合成广度。

{nextpage}

5、 质控

合理理技术的发展于IlluminaSP溶剂,遵循Illumina GenomeNetwork经营管理,是Illumina正因如此球最很高化学合成恒星质量的象征连续性。平外值小于99% 核苷酸准确度有约Q20,保证小于85%核苷酸准确度有约Q30,平外值clean data占多近raw data 90% 以上。对于遗传学物质小组计划,有约90%的遗传学物质周边覆盖度有约到10×以上,保证最很高的化学合成外一连续性。

a. 原始近据库

HiSeq 2000的平台一般而言的原始近据库为Fastq编解序列方式器,所列是对该编解序列方式器的详细资料概述:

@HWI-ST1203:231:C1NDLACXX:7:1101:1837:2139 1:N:0:AGTCAATTCCACTTAAAAATACAAGAGCACAAATCCACATTTATTTATTGATTTTTCGTTAGTTTAAATCCTTGAGGGGTACAGCATCACTCGGATTCTGTGTCCAA+CCCFDFFFHHHHHJJJJIJJJJJJJJIJIJIJFHJJGJEIEIGIIJIJIIGIDGGIIHI@HHEHIIIIIJ=CHABBDFFFFEEDEEDBBDDCDDCCDDCDC

对于以上Fastq遗传学小组,第一行以@开头,后面是read的ID以及其他近据;第二行象征连续性read的遗传学小组;第三行一般以“+”回应;第四行象征连续性read的恒星质量近据,与第二行的核苷酸遗传学小组相对来说之下理应。其中的,为了日后于电子计算机顺利进行存储,恒星质量参近以字节来回应,每个字节所象征连续性的ASCII序列方式减去33即为该核苷酸对理应的恒星质量参近。根据相理应的公式(Q=-10lgP),亦可计算每个核苷酸被测错的机率,其中的Q20象征连续性核苷酸被测错的机率为1%,Q30象征连续性核苷酸被测错的机率为1‰。

将以上Fastq遗传学小组的恒星质量近据转换成相理应的恒星质量参近,结果如下。在该read中的,只有一个核苷酸的恒星质量参近为28,其余核苷酸的恒星质量参近外小于30。34,34,34,37,35,37,37,37,39,39,39,39,39,41,41,41,41,40,41,41,41,41,41,41,41,41,40,41,40,41,40,41,37,39,41,41,38,41,36,40,36,40,38,40,40,41,40,41,40,40,38,40,35,38,38,40,40,39,40,31,39,39,36,39,40,40,40,40,40,41,28,34,39,32,33,33,35,37,37,37,37,36,36,35,36,36,35,33,33,35,35,34,35,35,34,34,35,35,34,35,34.

b. 恒星质量检验

核苷酸恒星质量低分

上图是遗传学化学合成获取read的恒星质量参近结果,其中的却是所有核苷酸的恒星质量参近在20以上,90%以上核苷酸的恒星质量参近在30以上。

化学合成广度分布

虽然遗传学物质小组化学合成的整体广度一般都小于100X,但由于化学合成反复中的依赖于一定的遗传学小组保守连续性,以外遗传学物质周边的化学合成覆盖度低。在顺利进行近据分析工序时,并不一定只考虑化学合成广度很高于10X的遗传学物质周边,以日后更很高分析工序结果的可靠连续性。化学合成结果中的,85%-95%的遗传学物质周边化学合成广度小于10X,保证很低的化学合成外一连续性。

c. 结果展示

英文参近

粗略估计结果

中的文概述

Sample Name

Example

检验名

Total reads

100,256,834

Reads近目

Total yield (bp)

10,125,940,234

近据库量

Read length (bp)

101.0

读长

Target regions (bp)

62,085,286

前提周边大小

Average throughput depth of target regions

163.1

平外值化学合成广度

Initial mappable reads (mapped to human genome)

100,097,762

欧拉对遗传学小组近

% Initial mappable reads (out of total reads)

99.8%

欧拉对遗传学小组百分比

Non-redundant reads (de-duplicated by Picard tools)

82,401,028

非可用性遗传学小组近

% Non-redundant reads (out of initial mappable reads)

82.3%

非可用性遗传学小组百分比

Non-redundant unique reads (uniquely mapped to human genome)

73,028,083

非可用性单一分析遗传学小组近

% Non-redundant unique reads (out of non-redundant reads)

88.6%

非可用性单一分析遗传学小组百分比

On-target reads (mapped to target regions)

50,349,303

前提周边遗传学小组近

% On-target reads (out of non-redundant unique reads)

68.9%

前提周边遗传学小组百分比

% Coverage of target regions (more than 1X)

95.1%

化学合成广度小于1×的覆盖度

Number of on-target genotypes (more than 1X)

59,032,909

化学合成广度小于1×的周边

% Coverage of target regions (more than 10X)

91.6%

化学合成广度小于10×的覆盖度

Number of on-target genotypes (more than 10X)

56,865,579

化学合成广度小于10×的周边

Mean read depth of target regions

65.4

前提周边平外值化学合成广度

Number of SNPs

78,241

SNP近目

Number of coding SNPs

20,593

编序列方式四区SNP近目

Number of synonymous SNPs

10,654

同义SNP近目

Number of nonsynonymous SNPs

9,391

非同义SNP近目

Number of Indels

8,447

InDel近目

Number of coding Indels

411

编序列方式四区InDel近目

6、 近据分析工序

a. 确定遗传学小组,原始近据库掺入及粗略估计:通过FastQC, FastX-toolkit等插件对化学合成恒星质量顺利进行检验,掺入低恒星质量reads(小于5个核苷酸恒星质量略低于Q20),这样一来的近据库作为clean data顺利进行分析工序,平外值小于99%的核苷酸恒星质量很高于Q20,小于85%的核苷酸恒星质量很高于Q30。b. Mapping:通过bwa插件将reads map到标准参考遗传学小组上(UCSC hg19),掺入很难map到参考遗传学小组和多重map的reads后顺利进行后续分析工序,大有约有99.5%的reads能顺利进行下一轮分析工序。c. 掺入完正因如此一致reads(duplicate reads):遗传学物质捕捉反复中的带有PCR扩增工序,不会其所引入完正因如此一致的DNA片段,由于这些DNA遗传学小组不会对后期的分析工序造成影响,故要理技术的发展于PICARD插件掺入近据库中的的duplicate reads,有所不同的捕捉的平台中的这类遗传学小组所占多近的百分比不一样,illumina捕捉的平台中的的duplicatereads近目有约占多近总近据库的15-20%,Agilent的平台中的的这一近参近有约为1-3%。d. 对前提周边内的遗传学小组顺利进行连续性状检借助于:理技术的发展于Samtools对化学合成结果与参考遗传学小组顺利进行分析,想到借助于仪器中的依赖于的连续性状,有近SNV,InDel等,并对其顺利进行注释及动态预测,有近dbSNP、1000G近据库库,SIFT,Polyphen-2,GERP等插件。e. 多检验分析工序:根据研究工作内容可的有所不同,将多个检验统称有所不同的小分区,对其中的的连续性状近据顺利进行简介,粗略估计连续性状在群体内显现借助于来的kHz,位置等关的近据,通过KEGG等回波通道注释分析工序其与结核病之在在的关联。f. 通报提交:有近仪器侦测与建库通报(pdf编解序列方式器)、化学合成结果通报(pdf编解序列方式器)、单检验连续性状检借助于通报(excel编解序列方式器)、多检验简介分析工序通报(excel编解序列方式器)、原始近据库(fastq、BAM等编解序列方式器)和刊登篇文章所才可的各类图表。

七、遗传学物质小组化学合成关的名词

遗传学物质小组化学合成:是所指来进行遗传学小组捕捉电子技术将正因如此遗传学小组遗传学物质周边DNA捕捉并富集后顺利进行很生物信息学化学合成的遗传学小组分析工序工序。遗传学物质化学合成相对来说之下于遗传学小组重化学合成成本低,对研究工作已知遗传学的SNP、 InDel 等具较大的劣势。

化学合成广度:化学合成获取的总核苷酸近与待测周边大小的比参近。如理技术的发展于Illumina TruSeq Exome Enrichment Kit,该溶剂盒的捕捉范围为62M,化学合成获取620M近据库量时,化学合成广度为620/62=10×。

覆盖度:所指化学合成获得的遗传学小组占多近整个待测周边的百分比。如果遗传学物质小组化学合成的覆盖度是98%,则回应仍有2%的遗传学小组周边是很难通过化学合成获得的。

Read:就是读长,就是很生物信息学化学合成时一个反理应所能辨认借助于的核苷酸近。

SNP(single nucleotide polymorphism):单残基多态连续性,幼体在在遗传学小组DNA遗传学小组同一位置单个残基连续性状(替代、抽借助于或缺失)所导致的多态连续性;有所不同物种幼体遗传学小组 DNA 遗传学小组同一位置上的单个残基依赖于差别的现象。 InDel(Insertion/Deletion):抽借助于/缺失,是所指两种互补在正因如此遗传学小组中的的差异,相对来说之下另一个互补而言,其中的一个互补的遗传学小组中的有一定近量的残基抽借助于或缺失。 CNV(copy number variation):遗传学小组拷贝近连续性状,是遗传学小组连续性状的一种形式,并不一定使遗传学小组中的大片段的DNA呈现借助于非正常人的拷贝近量。 SV(structurevariation):遗传学小组构件连续性状,DNA构件连续性状是所指在DNA上频发了大片段的连续性状。主要有近DNA大片段的抽借助于和缺失(导致 CNV的变化),DNA内外的某块周边频发重复激活、翻转颠换、易位、两条DNA之在在频发重小组(inter-chromosometrans-location)等。

TAG: