結果ファイルの見方,マッピングしたBAMファイルの見方,スパコンジョブの成否の確認方法を説明します.
Links inside this page:
How to Read The Result File
How to Confirm The Result of the Submitted Job
結果ファイルの読み方を説明します.
結果ファイルは『Commandを実行するときに指定したアウトプット/fusion』ディレクトリに出力されます.
出力ファイル名は『Commandを実行するときに指定したタグ.fusion.txt』になります.
アウトプットを /home/genomon/data/output/MCF-7,タグを MCF-7 にした場合,
/home/genomon/data/output/MCF-7/fusion/MCF-7.fusion.txt という出力ファイルが結果ファイルになります.
出力ファイルサンプルです.各カラムの説明をします.
# final junction gene (first) gene (second) known edge (first) known edge (second) chain self contig contig1 contig2 pairNum extended contig1 extended contig2 inframe pair gene region1 gene region2 chr17:+59926617-chr20:-60639507 TAF4(NM_003185),ENST00000436129,ENST00000252996,uc002ybs.3 BRIP1(NM_032043).5.start,ENST00000259008.5.start,uc002izk.2.5.start TAF4(NM_003185).1.end,ENST00000436129.3.end,ENST00000252996.1.end,uc002ybs.3.1.end CCAGAGTGGTTTTTTCAGGGGAGTCTGGGGGCAGCTGGAAGTTCTGGA --- GGAGAGTTGAGTTTTACAGTCTTTCCTGAATCAACTTTTGCATCCAAATTGTGTACTTCTGTTCCAAAGCAATGACGTTTTCTAATCTGCTGTGTAGTTTCTAAGGGTCGAATTCTTTTCTTCTCTA GGAGAGTTGAGTTTTACAGTCTTTCCTGAATCAACTTTTGCATCCAAATTGTGTACTTCTGTTCCAAAGCAATGACGTTTTCTAATCTGCTGTGTAGTTTCTAAGGGTCGAA CTGGGGGCAGCTGGAAGTTCTGGATGTTGGTCGGGTTCTGAGGCGGCTGCGGCAAGCGGGGGGCCAGCACGGTGGGCG 9 TACAGTCTTTCCTGAATCAACTTTTGCATCCAAATTGTG[uc002izk.2;ENST00000259008;BRIP1(NM_032043)] CTGGGGGCAGCTGGAAGTTCTGGATGTTGGTCGGGTTCTGAGGCGGCTGCGGCAAGCGGGGGGCCAGCACGGTGGGCGTCAGGGTGGCCCGAATCCCGCTGGTGGTGGCCGTGGGCGTCCGG[uc002ybs.3;TAF4(NM_003185);ENST00000436129;ENST00000252996] uc002izk.2-uc002ybs.3,uc002izk.2-TAF4(NM_003185),uc002izk.2-ENST00000436129,uc002izk.2-ENST00000252996,ENST00000259008-uc002ybs.3,ENST00000259008-TAF4(NM_003185) uc002izk.2:coding,ENST00000259008:coding,BRIP1(NM_032043):coding uc002ybs.3;coding,TAF4(NM_003185);coding,ENST00000436129;coding,ENST00000252996;coding chr17:+61882535-chr20:-45369288 --- DDX42(NM_007372).7.end,DDX42(NM_203499).6.end,ENST00000389924.6.end,ENST00000457800.5.end --- CTCCGGCATAAGCTCAATCTTCGGCCAGGGTGGGTATATGGTGGTCAG --- GGAAGAGGAAGACAATCTAGAATATGATAGTGACGGAAATCCAATTGCACCTACCAAAAAAATCATTGATCCTCTTCCCCCCATTGATCATTCAGAGATTGACTATCCACCATTTGAAAAAAACTTTTACAATGAGCA GGAAGAGGAAGACAATCTAGAATATGATAGTGACGGAAATCCAATTGCACCTACCAAAAAAATCATTGATCCTCTTCCCCCCATTGATCATTCAGAGATT GCCAGGGTGGGTATATGGTGGTCAGCTTTCACCATGAAGACAAAGACAAGGGGACGGTGGAACAAGATGGAAGGTGGCTGGATCCATGGATACCTTCATG 10 AAGAGGAAGACAATCTAGAATATGATAGTGACGGAAATC[uc002jbv.3;uc002jbu.3;ENST00000457800;ENST00000389924;ENST00000359353;DDX42(NM_203499);DDX42(NM_007372)] --- --- uc002jbv.3:coding,uc002jbu.3:coding,ENST00000457800:coding,ENST00000389924:coding,ENST00000359353:5UTR,DDX42(NM_203499):coding,DDX42(NM_007372):coding --- chr17:-59445688-chr20:+49411710 BCAS4(NM_017843),BCAS4(NM_198799),BCAS4(NM_001010974),ENST00000358791 BCAS3(NM_001099432).23.start,BCAS3(NM_017679).22.start,ENST00000407086.22.start,ENST00000390652.23.start BCAS4(NM_017843).0.end,BCAS4(NM_198799).0.end,BCAS4(NM_001010974).0.end,ENST00000358791.0.end GGGTCACGCTCCTGTCAAAGGTACCTCGGCCCCAGGCTCGGGGGTCAG --- CTCGGCCATGGCGTCGGCAAGTCGCTCCCGGAGGCCCTCCTCCGTGTGCTCCATGGAGGACATGTGCCGCAGCCCGAAGCCCTCAGGCCAGCTCCCGCACACCTCCAGCAGGGTCACGCTCCTGTCAAAGGTACCTCGGCCCCAGGATC CTCGGCCATGGCGTCGGCAAGTCGCTCCCGGAGGCCCTCCTCCGTGTGCTCCATGGAGGACATGTGCCGCAGCCCGAAGCCCTCAGGCC CTCGGCCCCAGGATCGGGGGTCAGGAAGAGCGCGAGCTCGCGCGCCCCGCTGCGCATGGGCTCCGGCTGATCAGCGTCCACGAGCAGCATCAGGAGGGCGACGGGGTCCGGCTGG 39 CAGAGTCTCGATGCTTCCCTCTCGCTGAAGTTCTGTTCC[uc002izc.4;uc002iyy.4;uc002iyv.4;uc002iyu.4;ENST00000407086;ENST00000390652;BCAS3(NM_017679);BCAS3(NM_001099432)] CTCGGCCCCAGGCTCGGGGGTCAGGAAGAGCGCGAGCTCGCGCGCCCCGCTGCGCATGGGCTCCGGCTGATCAGCGTCCACGAGCAGCATCAGGAGGGCGACGGGGTCCGGCTGGCGGAGGC[uc002xvs.3;uc002xvr.3;uc002xvq.3;uc002xvp.1;ENST00000358791;ENST00000355583;ENST00000262591;BCAS4(NM_198799);BCAS4(NM_017843);BCAS4(NM_001010974)] uc002iza.4-ENST00000463943,uc002iyz.4-ENST00000463943,uc002iyy.4-ENST00000463943,uc002iyw.4-ENST00000463943,uc002iyv.4-ENST00000463943,uc002iyu.4-ENST00000463943 uc002izc.4:noncoding,uc002izb.4:noncoding,uc002iza.4:coding,uc002iyz.4:coding,uc002iyy.4:coding,uc002iyw.4:coding,uc002iyv.4:coding,uc002iyu.4:coding uc002xvs.3;coding,uc002xvr.3;coding,uc002xvq.3;coding,uc002xvp.1;coding,ENST00000485049;noncoding,ENST00000463943;coding,ENST00000445038;coding,ENST00000371608;coding,ENST00000358791;coding
final junction :
fusion transcriptにおけるbreak pointのペア.plus(+), minus(-)はbreak pointがゲノム座標に対してそれぞれ右側,左側にあることを意味している.
gene (first), gene (second) :
break point上の遺伝子(first, second).
known edge (first), known edge (second) :
break pointの5bp付近にexom-intron境界があるか?あればそれに対応する遺伝子名が記載される(first, second).
chain self :
break pointのペアがUSCS databaseのchain self annotationが付与されている領域のペアと対応しているか?もし対応していたら”chain self”と記載.
contig :
fusion境界をまたぐリードとそのペアリードをアセンブルして得られたcontig 配列.
contig1, contig2 :
上記contig配列を, fusion境界で分割したもの,contig1, contig2がbreak point1, 2に対応.
contig1 contig2 配列を Blat に貼り付けるとこのようにアライメントされます.
pairNum :
fusion transcriptをサポートするリードペアの本数.
extended contig1, extended contig2 :
contig1, contig2をtranscriptome databaseの配列と比較することにより,fusion transcriptの配列を推定したもの.最大200bpの長さ.プライマー配列のデザインのために用いる.
inframe pair :
fusion transcriptがinframeであれば,対応する遺伝子IDを記載.
gene region1, gene region2 :
coding, intron, UTR領域など
成功 or 失敗を確認をすることを推奨します.
qacct2 というコマンドを使用します.
# Usage: qacct2 -o ユーザ名 -b 開始時間(yyyyMMddhhmm) -e 終了時間(yyyyMMddhhmm) -l -f # オプション説明 # -o コマンドを実行したユーザ名を記述してください # -b 指定した時間以降のジョブの結果を検索します. # -e 指定した時間以前のジョブの結果を検索します. # -l 結果をリスト出力してくれます. # -f エラーとなったリストだけ出力してくれます. # e.g. ユーザgenomon が2012/07/01/ 00:00 ~ 2012/07/02/ 00:00 の間のジョブで結果がエラーのジョブのみ確認する. qacct2 -o genomon -b 201207010000 -e 201207020000 -l -f | owner| jobid| task|slot| pe_id| granted_pe|ext|fail| qname| host|jobname | end_time| clock| mmem|rmem| r_q| r_cpu|qdel|fail_txt | Rq| Rm|Ropt | | genomon|1938906|undefined| 1| NONE| NONE| 1| 0| mjobs.q|c369i|my_blat.sh |20120701-11:20| 266| 3.0G| 4G| NONE| NONE|NONE|N/A | mjobs.q| 4G|-l s_vmem=4G,mem_req=4 | | genomon|1938901|undefined| 1| NONE| NONE|152| 100| mjobs.q|c628i|my_blat.sh |20120701-10:45| 4449| 4.0G| 4G| NONE| NONE|NONE|assumedly | mjobs.q| 8G|-l s_vmem=8G,mem_req=8 | | genomon|1938928|undefined| 1| NONE| NONE| 1| 0| mjobs.q|c722i|my_blat.sh |20120701-09:52| 0| 0.0G| 2G| NONE| NONE|NONE|N/A | mjobs.q| 2G|-l s_vmem=2G,mem_req=2 | # 確認ポイント # ext or fail が 0(正常)で終了していない.
正常終了していない場合はログを確認します.
ログディレクトリは『RNAseq/log/Commandを実行するときに指定したタグ』ディレクトリに下記フォーマットのファイル名で出力されます.
ログファイル : <jobname>.o<jobid> (my_blat.sh.o.1938906)
エラーログファイル : <jobname>.e<jobid> (my_blat.sh.e.1938906)
# ログディレクトリに移動 cd RNAseq/log/<TAG> # 異常終了したログを確認 ls *1938906 # 確認するべきログファイルはこちら my_blat.sh.o.1938906 my_blat.sh.e.1938906