Questions:
1.Genomon-fusion のインストールが成功したことを確認したいので,サンプルデータとその結果があれば教えてください.
2.True Positive が高い fusion はどういうものですか?
3.同じ遺伝子の複数のExon intron junction における fusion が見つかりましたが...?
4.Chain Self はフィルターしたほうがよいですか?
5.Fusionの候補 が特定の染色体領域に集中しているのですが...?
サンプルのシーケンスファイル(FASTQ)と結果ファイルのセットをご用意しています.
インプットのfastqファイルはこちらからダウンロードしてください.
http://genomon.hgc.jp/data/RNA/MCF-7.tar.gz
結果ファイルはこちらからダウンロードしてください.ローカルのPCに落としてExcelで開くことをお奨めします.
http://genomon.hgc.jp/data/RNA/MCF-7.fusion.txt.gz
# まずは input ディレクトリに移動します.ディレクトリがない場合は作ってください. cd RNAseq/data/input # サンプルデータ(.fastq)のダウンロード wget http://genomon.hgc.jp/data/RNA/MCF-7.tar.gz # 解凍します. tar xzvf MCF-7.tar.gz # コマンドを実行します.こんな感じに bash ./my_mapRNA_preprocess.sh /home/genomon/RNAseq/data/input/MCF-7 /home/genomon/RNAseq/data/output/MCF-7 MCF-7 # 続きはコマンドのマニュアルに従って実施してください.
作成した結果ファイル(/home/genomon/RNAseq/data/output/MCF-7/fusion/MCF-7.fusion.txt)と,ダウンロードした結果ファイルで,検出できたFusion Geneが同じであることを確認してください.
1つ1つのカラムを見ていくと,細かい数値での違いがでてきます.これは意味的に変わらない差分です.データ量が多い場合には、有意であることが推定できるデータ量しか使用しないためです.
2組の切断点が、ちょうどある遺伝子の exon-intron 境界付近にある候補は本物の可能性が高いです.fusion gene は通常、ゲノムにおける構造異常により、2対の遺伝子が隣り合った位置関係におかれることで生じるものです.DNAのレベルでは、intron 同士で切断点が結合していることが多いのですが、転写物としては、splicing により intron 領域が除かれ、2対の遺伝子の exon と intron の境界(exon junction)の端同士が結合した状態で存在しているものが多数を占めます.
本手法は、exon junction の情報を利用せずに、fusion gene の候補を検出しておりますが、それにもかかわらず、2つの exon junction が結合している fusion が検出された場合は、やはり本物の可能性が強いということです.
こちらは、どちらかというと本物の可能性が高いです.単一のゲノムレベルの構造異常から、splicing の変化により、複数の fusion transcript が見られることがあります.特に発現量が大きい fusion gene についてはその傾向が顕著に表れやすいです.同一の遺伝子の組の複数の exon junction からなる fusion transcript が検出された場合は、exon junction の fusion であることに加えて、splicing isoform が検出されているということで、より正答率が高まります.
他の fusion 検出手法の中でも、いくつかの方法では除いているようです.我々の検証実験に基づく経験でも、Chain Self と付与されている候補は false positive の可能性がより高いという傾向が出ております.しかし、Chain Self とのアノテーションが付与されているものでも、本物の fusion gene のこともあります.(例えば、MCF-7 における、RS6KB1-VMP1).以上のことから、とりあえずは、Chain Self に含まれる候補も含めてリストを確認したのちに、正答率と感度の兼ね合いを考慮して Chain Self の取り扱いについて考えていただければと思います.
chromothripsis により、特定の染色体の限定された領域に集中して起こった、ゲノム構造異常による結果であると考えられます. 近年、癌ゲノムにおいて限定された領域に集中して起こっている複雑な染色体の構造異常が生じることが観察されることがサンガー研究所のグループによって発見され.こういった現象は chromothripsis と名付けられております.多数の構造異常の中で、fusion transcript を発生するものにより、生じた現象であると考えられます. 特にこうした集中的に fusion gene が検出される領域が、複数の染色体を伴う場合は、コピー数の高度増幅を伴う場合も多いので、コピー数データなどとも比較してみると良いでしょう.