技術情報

バリデーション

目的

現在の改良されたBasecallersを用いると、簡単な方法で読み取る配列の長さを拡大することができます。しかしながら、新しいBasecallersを商品として販売する前には、そのBasecallersの予測される品質スコアと実際に得られる品質スコアが一致しているかバリデーションする必要があります。このバリデーション(品質スコアマッピングとして知られる)により、その新しいBasecallerから出力されたデータは正確であり、発生する問題はBasecallersのプログラム設定によるものではないことを保証します。

Peak Traceを用いると、簡単に読み取る配列の長さを伸ばすことができます。ここでは、ABI社のKBとPeak Traceを用いバリデーション(品質スコアマッピングを用いて)を行うことで、Peak Traceで出力されたデータが正確であることを示します。

方法

本研究では、2つの175kBの鮭のBACクローン由来のpUCサブクローンより回収した2203塩基配列を用いて、ABI社のKBvl.2とNucleics社のPeakTraceを比較しました。

最初に間違った塩基配列や混合した配列を除去するために、Nucleics社のQualTraceQCを用いて、その2203塩基配列のデータを解析しました。

続いて、確実に類似した塩基配列を比較できるように、PeakTraceとKBの両ソフトウェアで読み取れる配列を含むようにして解析を行いました(その配列にはPeakTraceで解析すると10個以上のQ20 +塩基が付加されます)。

次は、BLAST(NCBI)を用いて、それぞれのBACクローンのコンセンサス配列と解析した塩基配列を並べて比較しました。BACクローンの塩基配列を並べて比較しました。BACクローンの塩基配列と一致しなかった塩基配列についてはこれ以上解析ができないので排除しました(一致しなかった配列のほとんどは大腸菌K12のゲノムDNAの汚染によるものでした)。

以上の4つのスクリーニング基準を満たした塩基配列数は合計1643でした。そして、BLASTにより並べたその塩基配列を用いて、EwingとGreenの研究内容(参考文献1)を参考に、前1643塩基配列数または観測されたエラーを計算しました。つまり、各アライン塩基に対して、正確・不正確なBasecallの合計を記録するようにしました(観測された品質スコアあるいはQ)。アライン塩基の合計および各Basecaller品質スコア予測の精度も測定するため、それらを各Basecallerの予測されるエラー率(予測Qスコア)と比較しました(Qスコアマッピングとして実行)。

図1. KBとPeakTrace(PT)ベースコーラ―の比較結果(同一トレースファイル使用)

図2. KBベースコーラ―によるBLASTアライメント; 1%エラーリード(解読)長:1275塩基

図3. PeatTraceベースコーラ―によるBLASTアライメント; 1%エラーリード(解読)長:1486塩基

結果

Qスコアマッピングの結果を図4に示しました。結果は、KBよりPeakTraceのほうが正確に実際のエラー率を予測するということが分かりました。特にこの精度の向上は、KBで予測されていた塩基配列の品質を大きく上回るQ20からQ30までの中間品質スコアで非常に顕著です。

 

  KB PeakTrace
アライメントされた解読塩基数 1379 1540
最初のエラーがある解読塩基 1084 1251
1%エラー解読塩基数 1275 1486

表1. KBとPeakTraceベースコーラ―のBLASTアライメント比較結果(図2,3)

 

図4. KBとPeakTraceの予測品質の比較(Observed vs Predicted)

 

  KB PeakTrace
Q20+塩基数 796 955
アラインされた塩基数 868 1031

表2. KBとPeakTraceで解析し、BLASTを用いてアラインした平均塩基配列数

 

結論

PeakTraceで読み取る塩基配列の長さは19%増加し、Q20+の塩基配列については20%の増加が見られました(表2)。本研究での各Basecallerのデータ集積は、塩基配列1000番目から1050番目までの塩基配列間でKBの最適化による解析が停止したので、PeakTraceを使用する際は、既定の実行モジュール時間を2~3分延長してからデータを収集することをお勧めします(すなわち塩基配列1200番目から1300番目の間に解析を中止するということです)。このようなセッティングで解析される結果を見ると、PeakTraceのパフォーマンスがKBと比べ大いに向上していることが分かります。

参考文献

1.Ewing B. & Green P.(1998). Base-calling of automated sequencer traces using phred.Ⅱ.Error probabilities. Genome Res.8(3):186-194