产品服务


多种多样,强大的云计算项目

UMI2_PowerScan6


双端带分子标签(UMI)单样本二代测序数据 SNPs and indels、fusion、TMB等计算。


将独特的分子标识符(UMI)添加到DNA片段中以区分由相同DNA片段产生的测序读数。UMI技术可以大大降低测序错误及突变频率偏差,这在肿瘤检测中非常重要。UMI2_PowerScan6可以直接计算两端带UMI的测序数据。操作简单灵活方便,输入测序数据fastq,输出注释好的snp、Indel报表,压缩文件包含vcf格式、矩阵表, 精选数据库注释,并根据变异分布规律,设计变异预期指数,快速准确筛选出肿瘤驱动变异。一般情况下只要Excel即可完成分析并输出诊断报告。零生物信息学基础都可以快速完成复杂的肿瘤数据分析。有生物医学基础的技术人员通常几天内能掌握分析技能,胜任肿瘤数据分析工作。输出数据可以用Excel、MATLAB、R语言等工具进行后期科研分析。UMI2_PowerScan6采用全局比对搜索,Indel检出率高于Varscan2。统计模型采用泊松分布,snp灵敏度优于Varscan2。snp、indel合并为一个文件,方便使用。

参考基因组 hg19

平台/数据

Illumina测序平台。Paired-end测序,read1、read2均带NNNNN....标签序列,标签长度可选。数据质量Q30>85%,无其他接头序列,单文件小于10G的测序数据。


使用方法

上传测序数据文件至我的云盘,支持fq、fq.gz、fastq、fastq.gz后缀文件,推荐gz压缩格式。参见如何上传文件

1、点击选择文件按钮选择一对Paired-end样本测序文件,例如SRR2496717_R1.fastq.gz,SRR2496717_R2.fastq.gz。

2、点击计算参数按钮设置参数

3、点击提交云计算按钮

4、我的云计算下载结果

5、解压后用excel等软件进行分析。

7、我的云计算  查看报告 诊断报告PDF格式输出。

(1)输入样本信息  输入病人、肿瘤类型、采样日期等信息。

(2)报告设置  设置报告参数,增加报告内容。

(3)勾选数据,生成PDF报告  浏览器读取filename.report.txt,列出的报告已经参考美国foundation Medicine公司流程进行筛选,列表包含高可信somatic、有药物信息位点。勾选认可的突变作为First Somatic Mutations,通常选FREQ 0.05以上的mutation。剩余的突变如果Hotscore值大于等于0.1作为Second Somatic Mutations,这些可以作为可能复发突变。

TMB计算方法:First Somatic Mutations个数除于bed文件区间长度。例如勾选了6个突变,计算中使用的bed区间总长为1.2M,那么TMB=5。

肿瘤药物说明:本平台在civicdb数据库中自动注释了SNP、indel突变关联的药物信息。

本平台采用异步并行计算,可提交1000+计算请求,并可退出网站等待结果。


计算参数说明
target-positions:  选项为区间文件,一般后缀为bed,符合bed格式即可,本平台设CosmicAllGene.bed为默认。CosmicAllGene基因列表
umi-location:read1或read2,默认read2。UMI标签在相应的读数,仅支持一端读数带标签。
umi-length:UMI采用的长度。
min-qual:10~40的整数,默认30。最小碱基质量值,小于的忽略。
max-depth:1~500000的整数,默认20000,最大测序深度。
min-coverage:1~10000的整数,默认100,最小测序深度,小于的忽略。
min-var:1~1000的整数,默认2,突变最小的reads支持数。
min-var-freq:0~1的小数,默认0.001,突变最小的频率。
var-prob:0~1的小数,默认0.95,突变最小的可信度。
strandbias:0~0.5的小数,默认0.45,正链偏离0.5的量,值越大,结果越多。
min-average-qual:10~40的小数,默认30,设置位点碱基质量平均值的最小值。


 

输出结果

输出结果压缩包中包含如下文件

filename.xlsx

(1)筛选报告:根据相关算法筛选跟肿瘤相关度高的变异。

(2)完整报告:按计算参数得到的全部变异。

(3)PharmGKB:种系突变在PharmGKB数据库注释的肿瘤化学药物信息。

filename.sample.xlsx     样本覆盖度相关信息。

filename.vcf          PowerScan6输出的vcf格式突变文件

filename.hg19_multianno.vcf       Annovar注释后vcf格式文件

filename.sv.html          genefuse输出有药物靶点的融合突变。


filename.xlsx 筛选报告说明

Chr:染色体号
Start:起始位点    
End:终止位点   
Ref:参考序列
Alt:突变序列,算法取起始位点位置上最多的突变,包括snp、indel,当同时有snp、indel,indel*2>snp时取indel。
Func:基因功能区
Gene:基因名称   
ExonicFunc:基因功能编码区变化
Transcript: 第一个转录本号
CHGVS:第一个转录本碱基变化
PHGVS:第一个转录本氨基酸变化
FREQ:突变频率
AAChange:氨基酸变化
Hotscore:根据突变在肿瘤数据库中出现的概率,赋予分值,分数越高出现概率越高,作为先验概率相关值。   
cosmic81:cosmic检索号及简要描述。    
gnomAD_genome_ALL:gnomAD全球人类突变频率
FATHMM prediction:根据隐马尔科夫模型预测蛋白结构变化,分值越大致病性越高,高于0.5认为有害,无预测分值取0。
CLINSIG:该变异在ClinVar数据库中的临床意义
CLNDBN:该变异所引起的疾病名称
CLNACC:该变异编号和版本号
Drugs:靶向药物信息


完整数据表格内容

Chr:染色体号
Start:起始位点    
End:终止位点   
Ref:参考序列
Alt:突变序列,算法取起始位点位置上最多的突变,包括snp、indel,当同时有snp、indel,indel*2>snp时取indel。
Func.refGene:基因功能区
Gene.refGene:基因名称 
GeneDetail.refGene:基因描述   
ExonicFunc.refGene:基因功能编码区变化   
AAChange.refGene:氨基酸变化   
avsnp150:snp号,版本150。    
cosmic81:cosmic检索号及简要描述。   
cosmic_url :cosmic数据库链接,如果有多个检索号,取第一个。
ICGC_Id:ICGC ID号   
ICGC_Occurrence:统计信息。    
Hotscore:根据突变在肿瘤数据库中出现的概率,赋予分值,分数越高出现概率越高,作为先验概率相关值。  
Bscore:根据贝叶斯法则设计的打分,可以做为筛选肿瘤驱动突变指数。
DP:测序深度。
MN:最大突变reads支持数,Alt突变序列。
FREQ:突变频率。    
PROB:突变概率    
BI:链偏好值,(forward_reads)/depth。
AQ:位点碱基质量平均值。

其余请链接此处 输出结果注释