产品服务


多种多样,强大的云计算项目

PowerSomatic6


正常组织/肿瘤组织(Normal/Tumor)成对样本二代测序原始数据somatic SNPs and indels计算。


项目简介

PowerSomatic6根据SiNVICT、VarScan 2、mutect2算法引用的数学模型综合而成,可以灵敏准确检测有对照样本的肿瘤靶向测序数据。基于泊松分布模型,根据覆盖度、测序质量值等参数动态计算肿瘤样本变异可信度,参考对照样本位点信息,根据Fisher检验计算somatic p-value值。操作简单灵活方便,输入成对normal/tumor测序数据fastq,输出注释好的snp、Indel报表,压缩文件包含vcf格式、矩阵表, 精选数据库注释,并根据变异分布规律,设计变异预期指数,快速准确筛选出肿瘤驱动变异。一般情况下只要Excel即可完成分析并输出诊断报告。零生物信息学基础都可以快速完成复杂的肿瘤数据分析。有生物医学基础的技术人员一般几天内能掌握分析技能,胜任肿瘤数据分析工作。输出数据可以用Excel、MATLAB、R语言等工具进行后期科研分析。

本算法计算卫生部2017全国肿瘤体细胞基因突变高通量测序检测生物信息学分析室间质量评价数据可以得满分

参考基因组 hg19

平台/数据

Illumina各测序平台、BGISEQ系列产品。Paired-end测序,reads>70bp,数据质量Q30>85%,无接头序列。


使用方法   tumor/normal测试数据

上传测序数据文件至我的云盘,支持fq、fq.gz、fastq、fastq.gz后缀文件,推荐gz压缩格式。参见如何上传文件

注:如果初次使用平台,请在我的云盘里新建一个以上文件夹,把文件上传至文件夹内。

1、点击对照文件按钮选择一对正常样本测序文件,例如SRR2496716_1.fastq.gz,SRR2496716_2.fastq.gz,仅支持Paired-end成对文件。

2、点击肿瘤文件按钮选择一对肿瘤样本测序文件,例如SRR2496717_1.fastq.gz,SRR2496717_2.fastq.gz,仅支持Paired-end成对文件。

3、点击计算参数按钮设置参数

4、点击提交云计算按钮

5、我的云计算下载结果

6、解压后用excel打开filename.xlsx进行分析。

本平台采用异步并行计算,可提交1000+计算请求,并可退出网站等待结果。

技术支持微信号:17817883996


计算参数说明

target-positions:选项为区间文件,一般后缀为bed。符合bed格式即可,本平台设CosmicAllGene.bed为默认。CosmicAllGene基因列表

max-depth:1~500000的整数,默认20000,设置最大测序深度。

min-qual:10~40的整数,默认30。最小碱基质量值,值越小输出越多,精度越低。

min-coverage-normal:1~10000的整数,默认40。正常样本最小覆盖度,小于的位点忽略。

min-coverage-tumor:1~10000的整数,默认40。肿瘤样本最小覆盖度,小于的位点忽略。

min-var-tumor:1~1000的整数,默认2。肿瘤样本突变最小reads支持数。

min-freq-for-tumor:0~1的小数,默认0.001,肿瘤样本突变最小频率。

var-prob-tumor:0~1的小数,默认0.95。肿瘤样本突变最小可信度,小于的忽略。

strandbias-normal:0~1的小数,默认0.49。正常样本正链偏离0.5的量,值越大,结果越多。

strandbias-tumor:0~1的小数,默认0.45。肿瘤样本正链偏离0.5的量,值越大,结果越多。

max-var-normal:1~1000的整数,默认20。识别somatic时,正常样本允许最大reads支持数。

max-frac-normal:0~1的小数,默认0.01。识别somatic时,正常样本允许最大频率。

somatic-p-value:0~1的小数,默认0.05。识别somatic最大pvalue值,如果要获得高可信度somatic,可以设为0.01或0.001。

min-var-somatic:1~1000的整数,默认3。somatic最小的reads支持数。

tumor-purity: 0~1的小数,默认1.0,肿瘤样本纯度。

是否删除PCR重复的数据: 是否,默认否。


输出结果

输出结果压缩包中包含如下文件

filename.xlsx文件包含如下表格

(1)完整数据         格式转换成tab间隔并添加Hotscore、Bscore值

(2)somatic数据        从filename.txt提取标记为somatic的文件

(3)筛选数据           从filename.somatic.txt排序提取肿瘤驱动突变,Bscore分值TOP100

filename.vcf         PowerSomatic6输出的vcf格式突变文件

filename.hg19_multianno.vcf       Annovar注释后vcf格式文件


筛选数据表

Chr:染色体号
Start:起始位点    
End:终止位点   
Ref:参考序列
Alt:突变序列,算法取起始位点位置上最多的突变,包括snp、indel,当同时有snp、indel,indel*2>snp时取indel。
Func:基因功能区
Gene:基因名称   
ExonicFunc:基因功能编码区变化
Transcript: 第一个转录本号
CHGVS:第一个转录本碱基变化
PHGVS:第一个转录本氨基酸变化
FREQ:突变频率
AAChange:氨基酸变化
Hotscore:根据突变在肿瘤数据库中出现的概率,赋予分值,分数越高出现概率越高,作为先验概率相关值。   
cosmic81:cosmic检索号及简要描述。    
gnomAD_genome_ALL:gnomAD全球人类突变频率
FATHMM prediction:根据隐马尔科夫模型预测蛋白结构变化,分值越大致病性越高,高于0.5认为有害,无预测分值取0。
CLINSIG:该变异在ClinVar数据库中的临床意义
CLNDBN:该变异所引起的疾病名称
CLNACC:该变异编号和版本号
Drugs:靶向药物信息


somatic数据、完整数据表格内容

Chr:染色体号
Start:起始位点    
End:终止位点   
Ref:参考序列
Alt:突变序列,算法取起始位点位置上最多的突变,包括snp、indel,当同时有snp、indel,indel*2>snp时取indel。
Func.refGene:基因功能区
Gene.refGene:基因名称 
GeneDetail.refGene:基因描述   
ExonicFunc.refGene:基因功能编码区变化   
AAChange.refGene:氨基酸变化   
avsnp150:snp号,版本150。    
cosmic81:cosmic检索号及简要描述。   
cosmic_url :cosmic数据库链接,如果有多个检索号,取第一个。
ICGC_Id:ICGC ID号   
ICGC_Occurrence:统计信息。    
Hotscore:根据突变在肿瘤数据库中出现的概率,赋予分值,分数越高出现概率越高,作为先验概率相关值。  
Bscore:根据贝叶斯法则设计的打分,可以做为筛选肿瘤驱动突变指数,分值越高,表示导致肿瘤的可能性越大。
SOMATIC:标识somatic与Germline。
SPV:somatic p_value值,Fisher's Exact Test。
DP:测序深度。
MN:最大突变reads支持数,Alt突变序列。
FREQ:突变频率。    
PROB:突变概率。    
BI:链偏好值,(forward_reads)/depth。
AQ:位点碱基质量平均值。
NDP:对照样本测序深度。
NMN:对照样本最大突变reads支持数,Alt突变序列。
NFREQ:对照样本突变频率。    
NPROB:对照样本突变概率。   
NBI:对照样本链偏好值,(forward_reads)/depth。
NAQ:对照样本位点碱基质量平均值。

其余请链接此处 输出结果注释