本手册主要介绍phred\phrap-基因组的序列装配软件包。Phred是phred\phrap软件包的一部分,主要是用来分析和装配基因组中大片段序列。phred\phrap软件包由华盛顿大学分子生物技术学院的Phil Green和Brent Ewing开发,主要用于学术科研活动。Phred能处理测序仪直接生成的色谱图,并且产生相关的信息。该手册只对Phred 作简要的介绍, 并不能替代Phred 的官方说明文档(http:\\www.phred.org),给实际应用提供一个快速参考.
数据来源(source data) 最主要的数据来源是测序仪生成的峰图(trace files)。峰图在计算机上可以用色谱图(chromatograms)表示: (图1 测序仪生成的色谱图,chromatograms)
不同的测序仪会给出不同的色谱文件,Phred能够识别三种格式的色谱文件,SCF, ABI和预先处理的ESD格式。
Phred参数文件(Phred Parameter File) 使用phred首先就得配置化学物质参数文件(Phred Parameter File)。phred\phrap软件包中phredpar.dat文件,就是有关测序仪每个色谱峰所代表的化学物质的参数配置文件。用户可以直接编辑它,需要时也可以加入新的化学物质的描述信息。文件格式如下: (图2 Phred参数文件(Phred Parameter File)的格式)
其中: 1. primer ID 代表:染色物质的ID 号(编号),此ID 号应该和色谱中染料的ID 号一致(如果您不知道如何确定Primer ID号,不必担心,Phred程序会给出提示的)。 2. chemistry 代表发生的化学反应,可供选择的选项有“primer,terminator,unknown”。 3. dye 代表染料的类型,有rhodamine, d-rhodamine, big-dye, energy-transfer, bodipy,unknown等选项供选择。 4. machine 代表测序仪型号。phred(版本 0.020425.c)现在可识别的仪器有: ABI_373_377, ABI_3100, ABI_3700, Beckman_CEQ_2000, LI-COR_4000, and MolDyn_MegaBACE。 phredpar.dat 文件必须放在所有用户均可访问的目录, 并且可以通过 PHRED_PARAMETER_FILE环境变量来自定义其存放位置。 例如,在Unix系统中: export PHRED_PARAMETER_FILE=\usr\local\etc\phredpar.dat 在Windows系统中: set PHRED_PARAMETER_FILE=\usr\local\etc\phredpar.dat
Phred输入参数(Phred input parameters) 输入参数表示色谱图文件在计算机里面的路径,有以下两种设置方式: -id <directory> ## -id选项表示所有色谱文件的所在目录。 -if <text file> ## -if 选项表示每个色谱文件的绝对路径。
Phred输出参数(Phred output parameters) 输出参数用来设置输出文件的格式。输出参数分为base calling, quality, SCF, PHD和poly六大类(每类对应一个选项族),其不同组合能够产生几种完全不同的输出格式。 Base calling 选项族主要是关于输出的DNA序列,可供选择的选项有如下几种: -st <fasta/xbap > ## -st设定输出文件格式,能被识别的格式有fasta和xbap,默认设置为fasta格式。 -s ## -s 在当前目录下创建序列文件,并且沿用色谱图(chromatogram)文件名,贯于.sep的后缀。 -sd <directory> ## -sd 在指定目录下创建序列文件,并且沿用色谱图(chromatogram)文件名,贯于.seq的后缀。 -sa <file> ## -sa 创建单个序列文件,包括所有处理过的色谱图(chromatograms)的结果。
Quality 选项族主要是DNA序列的测序质量信息输出的相关选项,有如下几种: -qt <fasta/xbap/mix> ## -qt 各种输出文件格式的测序质量,fasta 选项对应修整过后的FASTA(trimmed FASTA,在“phred processing options”中设定)格式,xbap 选项对应XBAP 格式,mix选 项对应未修整过后的FASTA(untrimmed FASTA,这也是默认的FASTA格式);在设定选 项时请参照“phred processing options”中的对应选项。 -q ## -q 在当前目录下创建测序质量文件,并且沿用色谱图(chromatogram)文件名,附加“ .qual ”后缀。 -qd <directory> ## -qd在指定目录下创建测序质量文件,并且沿用色谱图(chromatogram)文件名,附加“. qual”后缀。 -qa <file> ## -qa 创建单个测序质量文件,包括所有的处理过的色谱图(chromatogram)的结果。 -qr <file> ## -qr 创建一个柱状图文件,统计每一个色谱图(chromatogram)中高质量碱基(high quality bases)的数目。 SCF选项族设置Phred产生基于色谱图(chromatogram)SCF格式的文件,这些文件可以用于那些不能识别ABI和ESD格式的程序。有如下几种: -c ## -c 在当前目录下创建SCF文件,并且沿用色谱图(chromatogram)文件名。 -cd <directory> ## -cd在指定目录下创建SCF文件,并且沿用色谱图(chromatogram)文件名。 -cp <1/2> ## -cp编码色谱图(chromatogram)中每个色谱峰值的比特数 -cv <1/2/3> ## -cv 用SCF1,SCF2或者SCF3格式输出SCF文件。 -cs ## -cs 确保色谱图(chromatogram)中最大的峰度值代表SCF文件中最高值。PHD选项族设置Phred程序基于色谱图(chromatogram)产生PHD格式的文件,这些文件可供人直接阅读,并且含有base calling和quality(测序质量)的信息。有如下几种: -p ## -p 在当前目录下创建PHD文件,并且沿用色谱图(chromatogram)文件名,附加.phd..l 的后缀。
-pd <directory> ## -pd在指定目录下创建PHD文件,并且沿用色谱图(chromatogram)文件名,附加 .phd..l 的后缀。 poly 选项族设置Phred 程序产生poly 文件(poly files)。这些文件包含了色谱图(chromatogram)中的每个峰值,可用于检测多态性碱基(polymorphic bases)。有如下几种: -d ## -d 在当前目录下创建测序质量文件,并且沿用色谱图(chromatogram)文件名,附加 .poly 的后缀。 -dd <directory> ## -dd在指定目录下创建测序质量文件,并且沿用色谱图(chromatogram)文件名,附加 . poly 的后缀。 其他不能归为上述几类但与输出相关的选项有: -raw <name> ## -raw 当处理单个文件时,以name为标题。 -log ## -log在当前目录下生成“phred.log”日志文件。 -v <n> ## -v 设置增加输出的冗余(increase verbosity of output by n)。 -tag ## -tag 做一些公共的标记(tag)以便于程序解析文档。 -h ## -h 显示一个简要的帮助。 -doc ## -doc 显示phred的全部文档(documentation)。 -V ## -V 显示phred的版本信息。
Phred处理选项(Phred processing options) Phred处理选项是为经验丰富的用户提供的,可以改变phred的处理流程。可供配置的选项如下: -nocall ## -nocall 不用base calling算法对色谱图(chromatogram)的峰值进行检测,输出的序列是由色谱图(chromatogram)中的峰值直接转换而来,这会影响到一些碱基修整和输出选项(This affects the base trimming and output options)。
-nonorm ## -nonorm 设置phred 不对色谱图(chromatogram)中的峰值进行标准化处理(normalization)。如果进行标准化处理,就会用每个核苷酸信号的中值(medium value)来代替峰值(peak)。这个选项不推荐使用,除非base calling算法由于有很多的峰值噪声而失效。 -nosplit ## -nosplit 设置phred不对色谱图(chromatogram)中已压缩的峰值进行分割处理。默认情况下,phred对相连的G , C峰(merged CC and GG peaks)进行识别并分割开来。 -nocmpqv ## -nocmpqv 设置phred不对色谱图(chromatogram)中的峰值进行压缩处理。默认情况下,phred会降低相连的G , C峰(merged CC and GG peaks)的测序质量分值,因此如果这个打开该选项会影响输出文件中的测序质量。 -ceilqv <value> ## -ceilqv 为每个碱基设定最高的测序质量值,当碱基的测序质量值超过该值时用该值替代。 -beg_pred <position> ## -beg_pred 设定开始进行峰值预测的位置。该位置应该落在一个非常好的区域(region)中,在此区域(region)中每个峰值间的间隔都很均一(even)。 -exit_nomatch ## 如果在Phred参数文件(Phred Parameter File)中没发现相对应的primer ID则停止执行。 -process _nomatch ## 如果在Phred参数文件(Phred Parameter File)中没发现相对应的primer ID则搜索Phred参数文件(Phred Parameter File)中的“_no_matching_string_”条目并用该条目来识别色谱图中的峰,如果还是没有定义则停止执行。 以下的选项是针对phred 修整(trimming)碱基的设定。这些选项在定位高测序质量区(high quality regions)非常有用,并且能裁减掉一些低质量的区域。可供选择的选项如下: -trim <enzyme sequence> ## -trim 查找并定位色谱图(chromatogram)中的高测序质量区(high quality regions)。如果提供了限制性酶的序列,phred会从该酶切位点的开始位置开始进行修整,推荐将酶切序列置为空(enzyme sequence 即用空的双引号"")。 -trim_alt <enzyme sequence> ## -trim_alt 同-trim 一样定位高测序质量区(high quality regions),不过使用的是“最大分值区域”(“Maximum Score Subsequence”)的算法。推荐使用。“Maximum Score Subsequence”大体思路是将每个碱基的错误概率(由机器提供)减去一个cutoff(默认的为0.05),所得的结果再相加直到分值最大为止,可见不一定序列越长就分值越高,关键是看每个碱基的测序质量。 -trim_cutoff <value> ## 在用最大分值区域”(“Maximum Score Subsequence”)的算法时设定一个错误阈值。默认的为0.05。 -trim_fasta ## 修整后的序列和质量分值写入FASTA格式的文件中。 -trim_scf ## 修整后的序列和质量分值写入SCF格式的文件中。 -trim_phd ## 修整后的序列和质量分值写入PHD格式的文件中。 -trim_out ## 修整后的序列和质量分值写入FASTA SCF PHD三种格式的文件中。
phred的质量分值(Phred quality determination) 为了确定最后的质量分值,phred分析四种碱基的在色谱图(chromatogram)中的峰轨迹(trace),利用各种识别方法尽量识别每个峰轨迹(trace),同时兼顾全局的峰轨迹(trace)的识别;言下之意就是说可能某个峰轨迹(trace)用某种方法可以很好的识别但如果这造成全局其他的峰轨迹(trace)不能得到很好的识别,这样的方法不可取。选定了某种方法后,这样在保证全局的识别情况下必然会有单个的峰轨迹(trace)被认为是错误 的需要校正,这样就可以统计出碱基测序错误的频度,比如说每100 个碱基就有一个错误。然后就可以用这个错误频度来度量测序的质量了。公式如下: Q = -10 log10 (P)
公式中的Q代表了碱基的测序质量值,P代表了每个碱基出错的概率。例如,如果每100个碱基就有一个错误,那么P=0.01,这样Q就为20;如果P=0.001, Q为30。注意当P为错误阈值(cutoff,默认为0.05)时,Q近似为13,所以13就可用作背景来估计总体的质量值。 |