HOW TO INSTALL GENOMON


Genomonは Genomon License のもとで配布されているパイプランソフトウェアです. ヒトゲノム解析センター(HGC)のスーパーコンピュータ にのみ対応しています. ライセンスの元で自由に使用・改変・再配布が可能です.このインストールマニュアルはHGCのスーパーコンピュータ上で行うことを前提として記載しております.


SYSTEM PREFERENCES


スーパーコンピュータにログインします.~/.bash_profile を開いてください.

$ vi ~/.bash_profile

下記のパラメータを追加してください.すでに$PATHなどのパラメータが存在する場合は,上書きしないように注意して追加してください.LANGのexport と umaskは推奨設定です.他のプログラムに影響がある場合は設定しなくてもかまいません. 2行目のpython2.6のPATHへの追加は必ずおこなってください.pythonは2.6以上が必須です.下記の設定をおこなうとpythonはバージョン2.6.5で起動されます.

 

1 LANG=en_US; export LANG

2 export PATH=/usr/local/package/python2.6/2.6.5/bin:$PATH

3 export R_LIBS=~/.R

4 umask 027

5

 

ログアウトして再度ログインしてください.毎回ログインするたびに自動で環境変数が設定されます.

再ログインしたらpythonのパスが下記と同じであることをご確認ください.バージョン2.6.5のpythonが起動されるように設定されています.

$ which python

/usr/local/package/python2.6/2.6.5/bin/python


DOWNLOAD GENOMON


Genomonプロジェクトを下記URL(github)からローカルマシンにダウンロードします.拡張子が.tar.gzのファイルをダウンロードしてください.ダウンロードしたGenomon-genomon-${ユニークキー}.tar.gz をスーパーコンピュータ上のホームディレクトリ配下の任意のディレクトリにアップロードします.

Genomon ダウンロードページ: https://github.com/Genomon/genomon/downloads

ローカルマシンのOSがwindowsの場合は,winSCP を使用してのアップロードをお勧めします.


DIRECTORY STRUCTURE


インストール完了後のディレクトリ構成です.
インストールする各種のフリーのソフトウェアはgenomonディレクトリ以下にインストールします.

bin
インストールしたソフトウェアが格納されます.
input_org
FASTQファイルを格納します.FASTQファイルのスタート位置です.
input
スクリプト「FASTQファイルをマッピング指定のディレクトリに配置する」を実行すると,マッピングを実行するためのサブディレクトリを作成しFASTQファイルを格納します.詳細は マニュアルページ をみてください.
output
マッピングの結果が格納されるディレクトリです.
result
データ解析の結果が格納されるディレクトリです.
db
Exonのキャプチャ領域が記載されているBEDファイルや,BAMファイルを分割する(処理の並列化)ために必要なファイルを格納します.
install
Genomonや各種ソフトウェアをインストールするために使用する作業用ディレクトリです.
log
Genomonの実行ログを格納します.
ref
hg19のリファレンスゲノムを配置します.
script
Genomonパイプラインを実行するためのスクリプトを格納します.
sys
プログラムに必要なファイルを格納します.
tmp
java で使用する一時ファイル出力ディレクトリです.

DOWNLOAD & INSTALL SOFTWARE ON HGC SUPER COMPUTER


1. スーパーコンピュータにログインします.Genomonプロジェクトをアップロードしたディレクトリに移動して,ファイルを解凍します.ファイルを解凍したら名前を変更して,アップロードした.tar.gzファイルを消してしまいましょう.

$ cd ${Genomonをアップロードしたディレクトリ}

$ tar xzvf Genomon-genomon-${ユニークキー}.tar.gz

$ mv Genomon-genomon-${ユニークキー} genomon

$ rm Genomon-genomon-${ユニークキー}.tar.gz

2. genomon/scriptディレクトリに移動してください.genomon/script ディレクトリ以下のソースファイルに実行権限を与えます.完了後にgenomon/installディレクトリに移動してください

$ cd genomon/script

$ chmod 740 *

$ cd ../install


※ここからはGenomonパイプラインが呼び出すオープンソフトウェアやデータセットのインストールの方法が記載されています.
各ソフトウェアのライセンスについてご理解のうえダウンロードしてください.Genomonとは別ライセンスになります.

3. UCSC が公開しているhg19 FASTAファイルをダウンロードしてgenomon/ref/hg19 ディレクトリに配置します.
(genomon/install ディレクトリにいることを確認してから,コマンドを開始してください.)

$ wget -nc http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr1.fa.gz

$ wget -nc http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr2.fa.gz

$ wget -nc http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr3.fa.gz

$ wget -nc http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr4.fa.gz

$ wget -nc http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr5.fa.gz

$ wget -nc http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr6.fa.gz

$ wget -nc http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr7.fa.gz

$ wget -nc http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr8.fa.gz

$ wget -nc http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr9.fa.gz

$ wget -nc http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr10.fa.gz

$ wget -nc http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr11.fa.gz

$ wget -nc http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr12.fa.gz

$ wget -nc http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr13.fa.gz

$ wget -nc http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr14.fa.gz

$ wget -nc http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr15.fa.gz

$ wget -nc http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr16.fa.gz

$ wget -nc http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr17.fa.gz

$ wget -nc http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr18.fa.gz

$ wget -nc http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr19.fa.gz

$ wget -nc http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr20.fa.gz

$ wget -nc http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr21.fa.gz

$ wget -nc http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr22.fa.gz

$ wget -nc http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chrX.fa.gz

$ wget -nc http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chrY.fa.gz

$ wget -nc http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chrM.fa.gz

$ gunzip chr*.fa.gz

$ cat chr1.fa chr2.fa chr3.fa chr4.fa chr5.fa chr6.fa chr7.fa chr8.fa chr9.fa chr10.fa chr11.fa chr12.fa chr13.fa chr14.fa chr15.fa chr16.fa chr17.fa chr18.fa chr19.fa chr20.fa chr21.fa chr22.fa chrX.fa chrY.fa chrM.fa > hg19.fasta

$ mv hg19.fasta ../ref/hg19

$ rm chr*.fa

ただしくhg19.fastaが作成できたか確認しましょう.md5sumの結果が下記と同じであれば大丈夫です.

$ md5sum ../ref/hg19/hg19.fasta

$ 7c1739fd43764bd5e3b9b76ce8635bf0 ../ref/hg19/hg19.fasta

4. BWA(Burrows-Wheeler Aligner) をダウンロードしgenomon/binディレクトリに配置します.ソースをコンパイルします.3.でダウンロードした,hg19.fastaにリンクを張ります.BWAが使用するhg19.fastaのindexを作成します.(genomon/install ディレクトリにいることを確認してから,コマンドを開始してください.)

$ wget -nc http://sourceforge.net/projects/bio-bwa/files/bwa-0.5.10.tar.bz2

$ tar xjvf bwa-0.5.10.tar.bz2

$ rm -r ../bin/bwa-0.5.10

$ mv bwa-0.5.10 ../bin

$ cd ../bin/bwa-0.5.10

$ make

$ cd ../../script

$ mkdir ../ref/hg19_bwa-0.5.10

$ ln ../ref/hg19/hg19.fasta ../ref/hg19_bwa-0.5.10/hg19.fasta

$ qsub bwa_index.sh bwa-0.5.10

5. Picard をダウンロードしgenomon/binディレクトリに配置します.(genomon/install ディレクトリにいることを確認してから,コマンドを開始してください.)

$ wget -nc http://sourceforge.net/projects/picard/files/picard-tools/1.39/picard-tools-1.39.zip

$ wget -nc http://sourceforge.net/projects/picard/files/picard-tools/1.39/README.txt

$ unzip picard-tools-1.39.zip

$ rm -r ../bin/picard-tools-1.39

$ mv picard-tools-1.39 ../bin

$ mv README.txt ../bin/picard-tools-1.39.README.txt

6. GATK(The Genome Analysis Toolkit) をダウンロードしgenomon/binディレクトリに配置します.(genomon/install ディレクトリにいることを確認してから,コマンドを開始してください).

$ wget -nc ftp://ftp.broadinstitute.org/pub/gsa/GenomeAnalysisTK/GenomeAnalysisTK-1.4-21-g30b937d.tar.bz2

$ tar xjvf GenomeAnalysisTK-1.4-21-g30b937d.tar.bz2

$ rm -r ../bin/GenomeAnalysisTK-1.4-21-g30b937d

$ mv GenomeAnalysisTK-1.4-21-g30b937d ../bin

7. SAMtools をダウンロードしgenomon/binディレクトリに配置します.ソースをコンパイルします.(genomon/install ディレクトリにいることを確認してから,コマンドを開始してください.)

$ wget -nc http://sourceforge.net/projects/samtools/files/samtools/0.1.15/README

$ wget -nc http://sourceforge.net/projects/samtools/files/samtools/0.1.15/samtools-0.1.15.tar.bz2

$ tar xjvf samtools-0.1.15.tar.bz2

$ rm -r ../bin/samtools-0.1.15

$ mv samtools-0.1.15 ../bin

$ mv README ../bin/samtools-0.1.15.README

$ cd ../bin/samtools-0.1.15

$ make

8. bedtools をダウンロードしgenomon/binディレクトリに配置します.ソースをコンパイルします.(genomon/install ディレクトリにいることを確認してから,コマンドを開始してください.)

$ wget -nc http://bedtools.googlecode.com/files/BEDTools.v2.14.3.tar.gz

$ tar xzvf BEDTools.v2.14.3.tar.gz

$ rm -r ../bin/BEDTools-Version-2.14.3

$ mv BEDTools-Version-2.14.3 ../bin

$ cd ../bin/BEDTools-Version-2.14.3

$ make

9. cutadapt をダウンロードしgenomon/binディレクトリに配置します.ソースをコンパイルします.(genomon/install ディレクトリにいることを確認してから,コマンドを開始してください.)

$ wget -nc http://cutadapt.googlecode.com/files/cutadapt-1.0.tar.gz

$ tar xzvf cutadapt-1.0.tar.gz

$ rm -r ../bin/cutadapt-1.0

$ mv cutadapt-1.0 ../bin

$ cd ../bin/cutadapt-1.0

$ python setup.py build_ext -i

10. ANNOVAR をダウンロードします.ANNOVARのダウンロードにはユーザ登録(User License Agreement)が必要です.ANNOVARのホームページにてユーザ登録(User License Agreement)が完了した後に,登録したメールアドレスにANNOVARをダウンロードするためのリンクが記載されたメールが届きます.そのリンクを使用してANNOVARをダウンロードします.ダウンロード後はANNOVARのPerlを使用して各種データ(snp131など)をダウンロードします.ANNOVARもgenomon/binディレクトリに配置します.(genomon/install ディレクトリにいることを確認してから,コマンドを開始してください.)

$ wget -nc ${メールで受け取ったダウンロードリンク}

$ tar xzvf annovar.tar.gz (wgetでダウンロードしたannovar)

$ ./annovar/annotate_variation.pl -buildver hg19 -downdb gene annovar/humandb

$ ./annovar/annotate_variation.pl -buildver hg19 -downdb -webfrom annovar mce46way annovar/humandb/

$ ./annovar/annotate_variation.pl -buildver hg19 -downdb segdup annovar/humandb/

$ ./annovar/annotate_variation.pl -buildver hg19 -downdb -webfrom annovar ljb_all annovar/humandb/

$ ./annovar/annotate_variation.pl -buildver hg19 -downdb -webfrom annovar 1000g2010nov_all annovar/humandb/

$ ./annovar/annotate_variation.pl -buildver hg19 -downdb -webfrom annovar snp131 annovar/humandb/

$ ./annovar/annotate_variation.pl -buildver hg19 -downdb -webfrom annovar avsift annovar/humandb/

$ ./annovar/annotate_variation.pl -buildver hg19 -downdb -webfrom annovar ljb_pp2 annovar/humandb/

$ ./annovar/annotate_variation.pl -buildver hg19 -downdb -webfrom annovar ljb_phylop annovar/humandb/

$ ./annovar/annotate_variation.pl -buildver hg19 -downdb -webfrom annovar ljb_mt annovar/humandb/

$ ./annovar/annotate_variation.pl -buildver hg19 -downdb -webfrom annovar ljb_lrt annovar/humandb/

$ ./annovar/annotate_variation.pl -buildver hg19 -downdb -webfrom annovar esp5400_all annovar/humandb/

$ rm -r ../bin/annovar

$ mv annovar ../bin

11. Exonをキャプチャした範囲(領域)が書いてあるBEDファイルをアップロードしてください.SureSelect50MやTrueSeqのキャプチャしている範囲(領域)が記載されているBEDファイルです. OSがwindowsの場合は,winSCP を使用してのアップロードをお勧めします. 下記のディレクトリにファイルをアップロードしてください.

$ genomon/db/xxxxxxxx.bed

※BEDファイルにヘッダー行がある場合は削除してください.また,chr1~chrM以外の染色体の行を削除してください.hg19.fastaをchr1.fa~chrM.faで作成しているため,chr1~chrM以外の範囲のゲノムはマッピングされません.

 

1 header=sample ← Headerがあればその行を削除します

2 chr1 10000 11000

3 chr2 10000 11000 chr1~chrM は残します

4 chrX 10000 11000

5 chrY 10000 11000

6 chrM 10000 11000

7 chr19_gl000nnn_random 20000 21000 ← chr_xxxx_random の行は削除します

8 chrUn_gl0002nn 30000 31000 ← chrUn_xxxx の行は削除します

 

※BEDファイルのフォーマットは、タブ区切り(TSV形式)としてください.
タブ区切りの項目は、Chr△Start△End△Other1△Other2(空でも可)△strandの順に設定してください.△はタブを表す.

 

chr1 10000 11000 A_XX_XXXXXXX 0000 +

chr2 10000 11000 A_XX_XXXXXXX 0000 -

chrX 10000 11000 A_XX_XXXXXXX      +

chrY 10000 11000 A_XX_XXXXXXX      -

chrM 10000 11000 A_XX_XXXXXXX 0000 +

 

12. GATK(The Genome Analysis Toolkit) のrealignmentを実行するのに必要なhg19.dictファイルを作成します.
この項目を実施する前にCONFIGURATIONファイル(exon_pipeline.confg)の設定を行ってください。設定方法はこちら

$ cd genomon/script     scriptディレクトリでコマンドを実行します.

$ python realign_gatk_setup.py

$

$

$ job id : 477616 failed =0 exit_status=0 statusが0で正常終了したことを確認してください.

$

$ ls -l ../ref/hg19_bwa-0.5.10/hg19.dict ファイルができていれば完成です.

13. Bioconductor のDNAcopy パッケージをダウンロードしgenomon/bin ディレクトリに配置します.(genomon/install ディレクトリにいることを確認してから,コマンドを開始してください).

$ mkdir -p ~/.R

$ export R_LIBS=~/.R

$ wget -nc http://www.bioconductor.org/packages/2.10/bioc/src/contrib/DNAcopy_1.30.0.tar.gz

$ cp DNAcopy_1.30.0.tar.gz ~/.R

$ R CMD INSTALL DNAcopy_1.30.0.tar.gz

$

Rを実行してlibrary(DNAcopy)が使用できるかチェックしてください。エラーにならなければOKです.
SYSTEM PREFERENCES のマニュアルに従い、R_LIBSを必ずexportしておいてください.

$ R

> library(DNAcopy)

>

^ Go to Top