产品服务


多种多样,强大的云计算项目

UMI2_PowerSomatic8


双端带分子标签(UMI)成对样本二代测序数据somatic SNPs and indels、CNV、TMB、MSI、fusion等计算。


将独特的分子标识符(UMI)添加到DNA片段中以区分由相同DNA片段产生的测序读数。UMI技术可以大大降低测序错误及突变频率偏差,这在肿瘤检测中非常重要。UMI2_PowerSomatic8可以直接计算双端带UMI的测序数据。UMI2_PowerSomatic8有PowerSomatic8一样强大的功能,可以计算snp、Indel、微卫星不稳定性(MSI)、somatic CNV、药物相关fusion genes,可以通过自主开发的分析平台直接输出snp、Indel、TMB、MSI检测报告。操作简单灵活方便,输入成对normal/tumor测序数据fastq、fastq.gz,输出注释好的snp、Inde、MSI报表,压缩文件包含vcf格式、矩阵表, 精选数据库注释,并根据变异分布规律,设计变异预期指数,快速准确筛选出肿瘤驱动变异。一般情况下只要Excel即可完成分析。零生物信息学基础都可以快速完成复杂的肿瘤数据分析。有生物医学基础的技术人员一般几天内能掌握分析技能,胜任肿瘤数据分析工作。输出数据也可以用Excel、MATLAB、R语言等工具进行后期科研分析。

参考基因组 hg19

平台/数据

Illumina测序平台。Paired-end测序,read1、read2带NNNNN....标签序列,标签长度可选。normal、tumor均采用同样的UMI,并一样的测序方法,数据质量Q30>85%,无其他接头序列,单文件小于10G的测序数据。


使用方法

上传测序数据文件至我的云盘,支持fq、fq.gz、fastq、fastq.gz后缀文件,推荐gz压缩格式。参见如何上传文件

1、点击对照文件按钮选择一对正常样本测序文件,例如normal_R1.fastq.gz,normal_R2.fastq.gz,仅支持Paired-end成对文件。

2、点击肿瘤文件按钮选择一对肿瘤样本测序文件,例如tumor_R1.fastq.gz,tumor_R2.fastq.gz,仅支持Paired-end成对文件。

3、点击计算参数按钮设置参数

4、点击提交云计算按钮

5、我的云计算下载结果

6、解压后用excel导入或打开filename.somatic.txt、filename.report.txt进行分析。

7、我的云计算  查看报告 诊断报告PDF格式输出。

(1)输入样本信息  输入病人、肿瘤类型、采样日期等信息。

(2)报告设置  设置报告参数,增加报告内容,如增加MSI、CNV等结果。

(3)勾选数据,生成PDF报告  列出的报告已经根据贝叶斯法则打分并按分值从大到小排列,排序越前表示导致肿瘤的可能性越大。勾选认可的突变作为First Somatic Mutations,剩余的突变如果Hotscore值大于等于0.1作为Second Somatic Mutations,这些可以作为可能复发突变。

TMB计算:First Somatic Mutations个数除于bed文件区间长度。例如勾选了6个突变,计算中使用的bed区间总长为1.2M,那么TMB=5。

MSI分类:可以计算所有符合设定参数微卫星位点somatic变化,根据探针捕获区域自主分类MSI-H、MSI-L、MSS。

肿瘤药物说明:本平台在civicdb数据库中自动注释了SNP、indel突变关联的药物信息,如果有CNV、fusion gene,请到  https://civicdb.org/ 人工注释,得到的结果添加在报告设置文本框内。

本平台采用异步并行计算,可提交1000+计算请求,并可退出网站等待结果。

技术支持微信号:17817883996


计算参数说明

target-positions:选项为区间文件,一般后缀为bed。符合bed格式即可,本平台设CosmicAllGene.bed为默认,同时可以上传自己的bed文件。CosmicAllGene基因列表

umi-location:read1或read2,默认read2。UMI标签在相应的读数,仅支持一端读数带标签。

umi-length:UMI采用的长度。

min-qual:10~40的整数,默认30。最小碱基质量值,值越小输出越多,精度越低。

min-coverage-tumor:1~10000的整数,默认40。肿瘤样本最小覆盖度,小于的位点忽略。

min-var-tumor:1~1000的整数,默认2。肿瘤样本突变最小reads支持数。

min-freq-for-tumor:0~1的小数,默认0.001,肿瘤样本突变最小频率。

var-prob-tumor:0~1的小数,默认0.95。肿瘤样本突变最小可信度,小于的忽略。

somatic-p-value:0~1的小数,默认0.05。识别somatic最大pvalue值。

min-var-somatic:1~1000的整数,默认3。somatic最小的reads支持数。

tumor-purity: 0~1的小数,默认1.0,肿瘤样本纯度。

msi-somatic-pvalue:  0~1的小数,默认0.05。识别MSI somatic最大pvalue值。

msi-min-homopolymer: 1~1000的整数,默认5。最小碱基序列数。

msi-min-microsates:1~1000的整数,默认3,最小微卫星数。

cnv-max-segment-size: 100~10000的整数,默认200,计算单位最长区域。

cnv-data-ratio:0~10的小数,默认1.0,normal/tumor 数据比率。

cnv-amp-threshold:0~1的小数,默认0.4,识别cnv amp的阈值。

cnv-del-threshold:0~1的小数,默认0.40,识别cnv del的阈值。


输出结果

输出结果压缩包中包含如下文件

filename.xlsx

(1)筛选报告:被鉴定为somatic 变异的输出报告列表

(2)CNV报告数据:somatic 拷贝数变异列表

(3)MSI报告数据:肿瘤微卫星不稳定数据列表

(4)somatic:被鉴定为somatic 变异的详细注释列表

(5)完整数据:符合参数所有变异包括germline、LOH、somatic详细列表

filename.vcf         PowerSomatic6输出的vcf格式突变文件

filename.hg19_multianno.vcf       Annovar注释后vcf格式文件

filename.SV.html              检测到肿瘤药物关联的fusion genes


筛选报告表头说明

Chr:染色体号
Start:起始位点    
End:终止位点   
Ref:参考序列
Alt:突变序列,算法取起始位点位置上最多的突变,包括snp、indel,当同时有snp、indel,indel*2>snp时取indel。
Func:基因功能区
Gene:基因名称   
ExonicFunc:基因功能编码区变化
Transcript: 第一个转录本号
CHGVS:第一个转录本碱基变化
PHGVS:第一个转录本氨基酸变化
FREQ:突变频率
AAChange:氨基酸变化
Hotscore:根据突变在肿瘤数据库中出现的概率,赋予分值,分数越高出现概率越高,作为先验概率相关值。   
cosmic81:cosmic检索号及简要描述。    
gnomAD_genome_ALL:gnomAD全球人类突变频率
FATHMM prediction:根据隐马尔科夫模型预测蛋白结构变化,分值越大致病性越高,高于0.5认为有害,无预测分值取0。
CLINSIG:该变异在ClinVar数据库中的临床意义
CLNDBN:该变异所引起的疾病名称
CLNACC:该变异编号和版本号
Drugs:靶向药物信息


完整数据表头说明

Chr:染色体号
Start:起始位点    
End:终止位点   
Ref:参考序列
Alt:突变序列,算法取起始位点位置上最多的突变,包括snp、indel,当同时有snp、indel,indel*2>snp时取indel。
Func.refGene:基因功能区
Gene.refGene:基因名称 
GeneDetail.refGene:基因描述   
ExonicFunc.refGene:基因功能编码区变化   
AAChange.refGene:氨基酸变化   
avsnp150:snp号,版本150。    
cosmic81:cosmic检索号及简要描述。   
cosmic_url :cosmic数据库链接,如果有多个检索号,取第一个。
ICGC_Id:ICGC ID号   
ICGC_Occurrence:统计信息。    
Hotscore:根据突变在肿瘤数据库中出现的概率,赋予分值,分数越高出现概率越高,作为先验概率相关值。  
Bscore:根据贝叶斯法则设计的打分,可以做为筛选肿瘤驱动突变指数,分值越高,表示导致肿瘤的可能性越大。
SOMATIC:标识somatic与Germline。
SPV:somatic p_value值,Fisher's Exact Test。
DP:测序深度。
MN:最大突变reads支持数,Alt突变序列。
FREQ:突变频率。    
PROB:突变概率。    
BI:链偏好值,(forward_reads)/depth。
AQ:位点碱基质量平均值。
NDP:对照样本测序深度。
NMN:对照样本最大突变reads支持数,Alt突变序列。
NFREQ:对照样本突变频率。    
NPROB:对照样本突变概率。   
NBI:对照样本链偏好值,(forward_reads)/depth。
NAQ:对照样本位点碱基质量平均值。

其余请链接此处 输出结果注释


MSI表头说明

Chr:染色体号
Location:位点
Func.refGene:基因功能区
Gene.refGene:基因名称
left_flank:左侧序列
repeat_times:重复次数
repeat_unit_bases:重复单位碱基
right_flank:右侧序列
difference:tumor and normal difference
P_value:Soamtic MSI  χ2  P_value
FDR:False Discovery Rate 
rank:分级排序


CNV表头说明

chrom:染色体号    
chr_start:起始位置    
chr_stop:终止位置    
num_positions:参与计算位点数    
gene:基因名称    
function:基因功能区    
normal_depth:正常对照样本平均测序深度    
tumor_depth:肿瘤样本平均测序深度    
adjusted_log_ratio:肿瘤样本与对照样本测序深度比率以2为底的对数值
gc_content:碱基GC含量
region_call:变化类型