Genomonは Genomon License のもとで配布されているパイプランソフトウェアです. ヒトゲノム解析センター(HGC)のスーパーコンピュータ にのみ対応しています. ライセンスの元で自由に使用・改変・再配布が可能です.このインストールマニュアルはHGCのスーパーコンピュータ上で行うことを前提として記載しております.
Links inside this page:
SYSTEM PREFERENCES
DOWNLOAD GENOMON
DIRECTORY STRUCTURE
DOWNLOAD & INSTALL SOFTWARE ON HGC SUPER COMPUTER
スーパーコンピュータにログインします.~/.bash_profile を開いてください.
$ vi ~/.bash_profile
下記のパラメータを追加してください.すでに$PATHなどのパラメータが存在する場合は,上書きしないように注意して追加してください.LANGのexport と umaskは推奨設定です.他のプログラムに影響がある場合は設定しなくてもかまいません. 2行目のpython2.6のPATHへの追加は必ずおこなってください.pythonは2.6以上が必須です.下記の設定をおこなうとpythonはバージョン2.6.5で起動されます.
1 LANG=en_US; export LANG
2 export PATH=/usr/local/package/python2.6/2.6.5/bin:$PATH
3 export R_LIBS=~/.R
4 umask 027
5
ログアウトして再度ログインしてください.毎回ログインするたびに自動で環境変数が設定されます.
再ログインしたらpythonのパスが下記と同じであることをご確認ください.バージョン2.6.5のpythonが起動されるように設定されています.
$ which python
/usr/local/package/python2.6/2.6.5/bin/python
Genomonプロジェクトを下記URL(github)からローカルマシンにダウンロードします.拡張子が.tar.gzのファイルをダウンロードしてください.ダウンロードしたGenomon-genomon-${ユニークキー}.tar.gz をスーパーコンピュータ上のホームディレクトリ配下の任意のディレクトリにアップロードします.
Genomon ダウンロードページ: https://github.com/Genomon/genomon/downloads
ローカルマシンのOSがwindowsの場合は,winSCP を使用してのアップロードをお勧めします.
インストール完了後のディレクトリ構成です.インストールする各種のフリーのソフトウェアはgenomonディレクトリ以下にインストールします.
1. スーパーコンピュータにログインします.Genomonプロジェクトをアップロードしたディレクトリに移動して,ファイルを解凍します.ファイルを解凍したら名前を変更して,アップロードした.tar.gzファイルを消してしまいましょう.
$ cd ${Genomonをアップロードしたディレクトリ}
$ tar xzvf Genomon-genomon-${ユニークキー}.tar.gz
$ mv Genomon-genomon-${ユニークキー} genomon
$ rm Genomon-genomon-${ユニークキー}.tar.gz
2. genomon/scriptディレクトリに移動してください.genomon/script ディレクトリ以下のソースファイルに実行権限を与えます.完了後にgenomon/installディレクトリに移動してください
$ cd genomon/script
$ chmod 740 *
$ cd ../install
※ここからはGenomonパイプラインが呼び出すオープンソフトウェアやデータセットのインストールの方法が記載されています.
各ソフトウェアのライセンスについてご理解のうえダウンロードしてください.Genomonとは別ライセンスになります.
3. UCSC が公開しているhg19 FASTAファイルをダウンロードしてgenomon/ref/hg19 ディレクトリに配置します.
(genomon/install ディレクトリにいることを確認してから,コマンドを開始してください.)
$ wget -nc http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr1.fa.gz
$ wget -nc http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr2.fa.gz
$ wget -nc http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr3.fa.gz
$ wget -nc http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr4.fa.gz
$ wget -nc http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr5.fa.gz
$ wget -nc http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr6.fa.gz
$ wget -nc http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr7.fa.gz
$ wget -nc http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr8.fa.gz
$ wget -nc http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr9.fa.gz
$ wget -nc http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr10.fa.gz
$ wget -nc http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr11.fa.gz
$ wget -nc http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr12.fa.gz
$ wget -nc http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr13.fa.gz
$ wget -nc http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr14.fa.gz
$ wget -nc http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr15.fa.gz
$ wget -nc http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr16.fa.gz
$ wget -nc http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr17.fa.gz
$ wget -nc http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr18.fa.gz
$ wget -nc http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr19.fa.gz
$ wget -nc http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr20.fa.gz
$ wget -nc http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr21.fa.gz
$ wget -nc http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr22.fa.gz
$ wget -nc http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chrX.fa.gz
$ wget -nc http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chrY.fa.gz
$ wget -nc http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chrM.fa.gz
$ gunzip chr*.fa.gz
$ cat chr1.fa chr2.fa chr3.fa chr4.fa chr5.fa chr6.fa chr7.fa chr8.fa chr9.fa chr10.fa chr11.fa chr12.fa chr13.fa chr14.fa chr15.fa chr16.fa chr17.fa chr18.fa chr19.fa chr20.fa chr21.fa chr22.fa chrX.fa chrY.fa chrM.fa > hg19.fasta
$ mv hg19.fasta ../ref/hg19
$ rm chr*.fa
ただしくhg19.fastaが作成できたか確認しましょう.md5sumの結果が下記と同じであれば大丈夫です.
$ md5sum ../ref/hg19/hg19.fasta
$ 7c1739fd43764bd5e3b9b76ce8635bf0 ../ref/hg19/hg19.fasta
4. BWA(Burrows-Wheeler Aligner) をダウンロードしgenomon/binディレクトリに配置します.ソースをコンパイルします.3.でダウンロードした,hg19.fastaにリンクを張ります.BWAが使用するhg19.fastaのindexを作成します.(genomon/install ディレクトリにいることを確認してから,コマンドを開始してください.)
$ wget -nc http://sourceforge.net/projects/bio-bwa/files/bwa-0.5.10.tar.bz2
$ tar xjvf bwa-0.5.10.tar.bz2
$ rm -r ../bin/bwa-0.5.10
$ mv bwa-0.5.10 ../bin
$ cd ../bin/bwa-0.5.10
$ make
$ cd ../../script
$ mkdir ../ref/hg19_bwa-0.5.10
$ ln ../ref/hg19/hg19.fasta ../ref/hg19_bwa-0.5.10/hg19.fasta
$ qsub bwa_index.sh bwa-0.5.10
5. Picard をダウンロードしgenomon/binディレクトリに配置します.(genomon/install ディレクトリにいることを確認してから,コマンドを開始してください.)
$ wget -nc http://sourceforge.net/projects/picard/files/picard-tools/1.39/picard-tools-1.39.zip
$ wget -nc http://sourceforge.net/projects/picard/files/picard-tools/1.39/README.txt
$ unzip picard-tools-1.39.zip
$ rm -r ../bin/picard-tools-1.39
$ mv picard-tools-1.39 ../bin
$ mv README.txt ../bin/picard-tools-1.39.README.txt
6. GATK(The Genome Analysis Toolkit) をダウンロードしgenomon/binディレクトリに配置します.(genomon/install ディレクトリにいることを確認してから,コマンドを開始してください).
$ wget -nc ftp://ftp.broadinstitute.org/pub/gsa/GenomeAnalysisTK/GenomeAnalysisTK-1.4-21-g30b937d.tar.bz2
$ tar xjvf GenomeAnalysisTK-1.4-21-g30b937d.tar.bz2
$ rm -r ../bin/GenomeAnalysisTK-1.4-21-g30b937d
$ mv GenomeAnalysisTK-1.4-21-g30b937d ../bin
7. SAMtools をダウンロードしgenomon/binディレクトリに配置します.ソースをコンパイルします.(genomon/install ディレクトリにいることを確認してから,コマンドを開始してください.)
$ wget -nc http://sourceforge.net/projects/samtools/files/samtools/0.1.15/README
$ wget -nc http://sourceforge.net/projects/samtools/files/samtools/0.1.15/samtools-0.1.15.tar.bz2
$ tar xjvf samtools-0.1.15.tar.bz2
$ rm -r ../bin/samtools-0.1.15
$ mv samtools-0.1.15 ../bin
$ mv README ../bin/samtools-0.1.15.README
$ cd ../bin/samtools-0.1.15
$ make
8. bedtools をダウンロードしgenomon/binディレクトリに配置します.ソースをコンパイルします.(genomon/install ディレクトリにいることを確認してから,コマンドを開始してください.)
$ wget -nc http://bedtools.googlecode.com/files/BEDTools.v2.14.3.tar.gz
$ tar xzvf BEDTools.v2.14.3.tar.gz
$ rm -r ../bin/BEDTools-Version-2.14.3
$ mv BEDTools-Version-2.14.3 ../bin
$ cd ../bin/BEDTools-Version-2.14.3
$ make
9. cutadapt をダウンロードしgenomon/binディレクトリに配置します.ソースをコンパイルします.(genomon/install ディレクトリにいることを確認してから,コマンドを開始してください.)
$ wget -nc http://cutadapt.googlecode.com/files/cutadapt-1.0.tar.gz
$ tar xzvf cutadapt-1.0.tar.gz
$ rm -r ../bin/cutadapt-1.0
$ mv cutadapt-1.0 ../bin
$ cd ../bin/cutadapt-1.0
$ python setup.py build_ext -i
10. ANNOVAR をダウンロードします.ANNOVARのダウンロードにはユーザ登録(User License Agreement)が必要です.ANNOVARのホームページにてユーザ登録(User License Agreement)が完了した後に,登録したメールアドレスにANNOVARをダウンロードするためのリンクが記載されたメールが届きます.そのリンクを使用してANNOVARをダウンロードします.ダウンロード後はANNOVARのPerlを使用して各種データ(snp131など)をダウンロードします.ANNOVARもgenomon/binディレクトリに配置します.(genomon/install ディレクトリにいることを確認してから,コマンドを開始してください.)
$ wget -nc ${メールで受け取ったダウンロードリンク}
$ tar xzvf annovar.tar.gz (wgetでダウンロードしたannovar)
$ ./annovar/annotate_variation.pl -buildver hg19 -downdb gene annovar/humandb
$ ./annovar/annotate_variation.pl -buildver hg19 -downdb -webfrom annovar mce46way annovar/humandb/
$ ./annovar/annotate_variation.pl -buildver hg19 -downdb segdup annovar/humandb/
$ ./annovar/annotate_variation.pl -buildver hg19 -downdb -webfrom annovar ljb_all annovar/humandb/
$ ./annovar/annotate_variation.pl -buildver hg19 -downdb -webfrom annovar 1000g2010nov_all annovar/humandb/
$ ./annovar/annotate_variation.pl -buildver hg19 -downdb -webfrom annovar snp131 annovar/humandb/
$ ./annovar/annotate_variation.pl -buildver hg19 -downdb -webfrom annovar avsift annovar/humandb/
$ ./annovar/annotate_variation.pl -buildver hg19 -downdb -webfrom annovar ljb_pp2 annovar/humandb/
$ ./annovar/annotate_variation.pl -buildver hg19 -downdb -webfrom annovar ljb_phylop annovar/humandb/
$ ./annovar/annotate_variation.pl -buildver hg19 -downdb -webfrom annovar ljb_mt annovar/humandb/
$ ./annovar/annotate_variation.pl -buildver hg19 -downdb -webfrom annovar ljb_lrt annovar/humandb/
$ ./annovar/annotate_variation.pl -buildver hg19 -downdb -webfrom annovar esp5400_all annovar/humandb/
$ rm -r ../bin/annovar
$ mv annovar ../bin
11. Exonをキャプチャした範囲(領域)が書いてあるBEDファイルをアップロードしてください.SureSelect50MやTrueSeqのキャプチャしている範囲(領域)が記載されているBEDファイルです. OSがwindowsの場合は,winSCP を使用してのアップロードをお勧めします. 下記のディレクトリにファイルをアップロードしてください.
※BEDファイルにヘッダー行がある場合は削除してください.また,chr1~chrM以外の染色体の行を削除してください.hg19.fastaをchr1.fa~chrM.faで作成しているため,chr1~chrM以外の範囲のゲノムはマッピングされません.
1 header=sample ← Headerがあればその行を削除します
2 chr1 10000 11000
3 chr2 10000 11000 chr1~chrM は残します
4 chrX 10000 11000
5 chrY 10000 11000
6 chrM 10000 11000
7 chr19_gl000nnn_random 20000 21000 ← chr_xxxx_random の行は削除します
8 chrUn_gl0002nn 30000 31000 ← chrUn_xxxx の行は削除します
※BEDファイルのフォーマットは、タブ区切り(TSV形式)としてください.
タブ区切りの項目は、Chr△Start△End△Other1△Other2(空でも可)△strandの順に設定してください.△はタブを表す.
chr1 10000 11000 A_XX_XXXXXXX 0000 +
chr2 10000 11000 A_XX_XXXXXXX 0000 -
chrX 10000 11000 A_XX_XXXXXXX +
chrY 10000 11000 A_XX_XXXXXXX -
chrM 10000 11000 A_XX_XXXXXXX 0000 +
12. GATK(The Genome Analysis Toolkit) のrealignmentを実行するのに必要なhg19.dictファイルを作成します. この項目を実施する前にCONFIGURATIONファイル(exon_pipeline.confg)の設定を行ってください。設定方法はこちら
$ cd genomon/script scriptディレクトリでコマンドを実行します.
$ python realign_gatk_setup.py
$
$
$ job id : 477616 failed =0 exit_status=0 statusが0で正常終了したことを確認してください.
$
$ ls -l ../ref/hg19_bwa-0.5.10/hg19.dict ファイルができていれば完成です.
13. Bioconductor のDNAcopy パッケージをダウンロードしgenomon/bin ディレクトリに配置します.(genomon/install ディレクトリにいることを確認してから,コマンドを開始してください).
$ mkdir -p ~/.R
$ export R_LIBS=~/.R
$ wget -nc http://www.bioconductor.org/packages/2.10/bioc/src/contrib/DNAcopy_1.30.0.tar.gz
$ cp DNAcopy_1.30.0.tar.gz ~/.R
$ R CMD INSTALL DNAcopy_1.30.0.tar.gz
$
$ R
> library(DNAcopy)
>