How To Install Genomon-exome


Genomon-exomeは Genomon License のもとで配布されているパイプランソフトウェアです. ヒトゲノム解析センター (HGC) のスーパーコンピュータ にのみ対応しています. ライセンスの元で自由に使用・改変・再配布が可能です.このインストールマニュアルはHGCのスーパーコンピュータ上で行うことを前提として記載しております.

System Preferences


スーパーコンピュータにログインします.~/.bash_profile を開いてください.

				vi ~/.bash_profile
				

下記のパラメータを追加してください.すでに$PATHなどのパラメータが存在する場合は,上書きしないように注意して追加してください.LANGのexport と umaskは推奨設定です.他のプログラムに影響がある場合は設定しなくてもかまいません. 2行目のpython2.6のPATHへの追加は必ずおこなってください.pythonは2.6以上が必須です.下記の設定をおこなうとpythonはバージョン2.6.5で起動されます.

				# 言語を英語にしましょう.
				LANG=en_US; export LANG
				# hgc のスパコンが shirokane1 の場合はこちら.shirokane1 か shirokane2 のどちらかのPATHを設定してください.
				export PATH=/usr/local/package/python2.6/2.6.5/bin:$PATH
				# hgc のスパコンが shirokane2 の場合はこちら
				export PATH=/usr/local/package/python2.7/2.7.2/bin:$PATH
				# ここにRライブラリをインストールすることになります.
				export R_LIBS=~/.R

ログアウトして再度ログインしてください.毎回ログインするたびに自動で環境変数が設定されます.

再ログインしたら python のパスが下記と同じであることをご確認ください.バージョン2.6.5 or 2.7.2のpythonが起動されるように設定されています.

				which python
				# hgc のスパコンが shirokane1 の場合こちらが表示されます
				/usr/local/package/python2.6/2.6.5/bin/python
				# hgc のスパコンが shirokane2 の場合こちらが表示されます
				/usr/local/package/python2.7/2.7.2/bin/python

Download Genomon-exome


Genomon-exome プロジェクトを下記URL (github) からローカルマシンにダウンロードします.拡張子が.tar.gz (or .zip)のファイルをダウンロードしてください.ダウンロードした exome_for_HGC-RB_${バージョン}.tar.gz (or zip)をスーパーコンピュータ上のホームディレクトリ配下の任意のディレクトリにアップロードします.ローカルマシンのOSがwindowsの場合は,winSCP を使用してのアップロードをお勧めします.

Genomon-exome ダウンロードページ: https://github.com/Genomon/exome_for_HGC

スーパーコンピュータにログインします.Genomonプロジェクトをアップロードしたディレクトリに移動して,ファイルを解凍します.ファイルを解凍したら名前を変更しましょう.

		# Genomon Exome をアップしたディレクトリに移動します.
		cd ${Genomonをアップロードしたディレクトリ}
		# 解凍します.
		tar xzvf exome_for_HGC-RB_${バージョン}.tar.gz  # もしくは unzip exome_for_HGC-RB_${バージョン}.zip
		# ディレクトリ名を短くしましょう.
		mv exome_for_HGC-RB_${バージョン} exome

exome/scriptディレクトリに移動してください.exome/script ディレクトリ以下のソースファイルに実行権限を与えます.完了後にexome/binディレクトリに移動してください

			cd exome/script
			chmod 740 *
			cd ../install

Writting The Setup Configuration File


exome/script/exon_pipeline.config の設定ファイルを書き換えます.
基本的にはUSER_NAMEをスパコンのユーザ名に変更すればOKです.

exon_pipeline.config

		[user-info]
		name=USER_NAME  # USER_NAMEをスパコンのユーザ名に変更してください
		
		[directory-path] 
		project=/home/USER_NAME/exome  # USER_NAMEをスパコンのユーザ名に変更してください
		script=script
		ref=ref
		input=data/input
		output=data/output
		result=data/result
		db=db
		sys=sys
		tmp=tmp
		log=log
		inhousedata=
		summarydata=
		
		[data-file]
		hg19fasta=ref/hg19_bwa-0.5.10/hg19.fasta
		dbsnprod=
		
		# PCRアダプタ配列の除去を行うときは,read1,read2に除去するアダプタを記載してください
		# 2種類以上のアダプタの除去が必要な場合はカンマ (,) 区切りでアダプタを記載してください
		# read1=ATGCAT,AACC
		[adapter] 		
		read1=NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN  # read1はペアエンドの First Pair のFASTQファイルが対象です
		read2=NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN  # read2はペアエンドの Second Pair のFASTQファイルが対象です
		
		[bin] # インストールしたソフトウェアのバージョンが異なる場合は変更してください
		bwa=bin/bwa-0.5.10/bwa
		picard=bin/picard-tools-1.39
		samtools=bin/samtools-0.1.15/samtools
		bedtools=bin/BEDTools-Version-2.14.3/bin
		cutadapt=bin/cutadapt-1.0/cutadapt
		annovar=bin/annovar
		javatools=
		python2.6=/usr/local/package/python2.6/2.6.5/bin/python  # shirokane2の場合は /usr/local/package/python2.7/2.7.2/bin/python になります.
		java6=/usr/local/package/java/current6/bin/java
		maq=/usr/local/bin/maq
		R=/usr/local/bin/R
		gatk=bin/GenomeAnalysisTK-1.4-21-g30b937d
		gatk1_0=
		
		[db]
		inhouseflg=0
		inhouse_version=v1
		cosmicflg=0
		cosmic_version=v57
		
		[ngsdb]
		dbname=
		hostname=
		port=
		user=
		password=

exome/copy_number/script/copynum.env の設定ファイルを書き換えます.
こちらはCopy Number データ解析用の設定ファイルです.

		WORKDIR=${HOME}/exome
		
		HG19REF=${WORKDIR}/ref/hg19_bwa-0.5.10/hg19.fasta
		INTERVALDIR=${WORKDIR}/db/interval_list_hg19_nongap
		BAITINFO=${WORKDIR}/db/SureSelect50M.bed # Exonをキャプチャした範囲(領域)が書いてあるBEDファイルを指定してください.
		
		BEDTOOLS=${WORKDIR}/bin/BEDTools-Version-2.14.3/bin
		SAMTOOLS=${WORKDIR}/bin/samtools-0.1.15
		ANNOPATH=${WORKDIR}/bin/annovar
		PERL=/usr/local/bin/perl
		R=/usr/local/bin/R
		PYTHON=/usr/local/package/python2.6/2.6.5/bin/python
		
		LOGDIR=${WORKDIR}/copy_number/log
		COMMAND_CN=${WORKDIR}/copy_number/script
		UTIL=${COMMAND_CN}/utility.sh

exome/eb_call/script/config.sh の設定ファイルを書き換えます.
こちらはEmpirical Baysian mutation Calling 用の設定ファイルです.

		# path to the reference genome
		PATH_TO_REF=${HOME}/exome/ref/hg19/hg19.fasta
		
		# path to samtols
		PATH_TO_SAMTOOLS=${HOME}/exome/bin/samtools-0.1.18
		
		# path to R
		PATH_TO_R=/usr/local/bin
		
		# mapping quality threshould
		TH_MAPPING_QUAL=30
		
		# base quality threshould
		TH_BASE_QUAL=15
		
		# mapping quality threshould
		TH_MAPPING_QUAL_REF=30
		
		# base quality threshould
		TH_BASE_QUAL_REF=15
		
		# minimum depth in tumor
		MIN_TUMOR_DEPTH=8
		
		# minimum depth in normal
		MIN_NORMAL_DEPTH=8
		
		# minimum number of variant reads in tumor
		MIN_TUMOR_VARIANT_READ=4
		
		# minimum amount of tumor allele frequency
		MIN_TUMOR_ALLELE_FREQ=0.08
		
		# maximum amount of normal allele frequency
		MAX_NORMAL_ALLELE_FREQ=0.1
		
		# minimum value for the minus logarithm of p-value
		MIN_MINUS_LOG10_PV=3

		# interval list for multi-job operation
		INTERVAL=${HOME}/exome/db/interval_list_hg19_nongap

		# log dir
		LOGDIR=${HOME}/exome/log/ebcall

		# path to annovar
		ANNOPATH=${HOME}/exome/bin/annovar

Directory Structure


インストール完了後のディレクトリ構成です.
インストールする各種のオープンソフトウェアやデータセットは exome ディレクトリ以下にインストールします.

Download & Install Data Set on HGC Super Computer


※ここではGenomon-exome パイプラインが呼び出すデータセットのダウンロードの方法が記載されています.
各データセットのライセンスについてご理解のうえダウンロードしてください.Genomon-exomeとは別ライセンスになります.

UCSC が公開しているhg19 FASTAファイルをダウンロードしてexome/ref/hg19 ディレクトリに配置します.
(exome/ref/hg19 ディレクトリにいることを確認してから,コマンドを開始してください.)

			# hg19 FASTAファイルをダウンロードします.
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr1.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr2.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr3.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr4.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr5.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr6.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr7.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr8.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr9.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr10.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr11.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr12.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr13.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr14.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr15.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr16.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr17.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr18.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr19.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr20.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr21.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr22.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chrX.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chrY.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chrM.fa.gz
			# 解凍します.
			gunzip chr*.fa.gz
			# 1つのファイルにまとめます.
			cat chr1.fa chr2.fa chr3.fa chr4.fa chr5.fa chr6.fa chr7.fa chr8.fa chr9.fa chr10.fa chr11.fa chr12.fa chr13.fa chr14.fa chr15.fa chr16.fa chr17.fa chr18.fa chr19.fa chr20.fa chr21.fa chr22.fa chrX.fa chrY.fa chrM.fa > hg19.fasta 
			# 正しくhg19.fastaが作成できたか確認しましょう.md5sumの結果が下記と同じであれば大丈夫です.
			md5sum hg19.fasta
			7c1739fd43764bd5e3b9b76ce8635bf0 hg19.fasta

次にExonをキャプチャした範囲(領域)が書いてあるBEDファイルをアップロードしてください.SureSelect50MやTrueSeqのキャプチャしている範囲(領域)が記載されているBEDファイルです. OSがwindowsの場合は,winSCP を使用してのアップロードをお勧めします. 下記のディレクトリにファイルをアップロードしてください.

			exome/db/xxxxxxxx.bed
		

※BEDファイルにヘッダー行がある場合は削除してください.また,chr1~chrM以外の染色体の行を削除してください.hg19.fastaをchr1.fa~chrM.faで作成しているため,chr1~chrM以外の範囲のゲノムはマッピングされません.

			header=sample         # Headerがあればその行を削除します
			chr1    10000   11000 
			chr2    10000   11000 # chr1~chrM は残します
			chrX    10000   11000 
			chrY    10000   11000 
			chrM    10000   11000 
			chr19_gl000nnn_random  20000   21000  # chr_xxxx_random の行は削除します
			chrUn_gl0002nn  30000   31000         #chrUn_xxxx の行は削除します

※BEDファイルのフォーマットは、タブ区切り (TSV形式)としてください.
タブ区切りの項目は、Chr△Start△End△Other1△Other2 (空でも可)△strandの順に設定してください.△はタブを表す.

			chr1    10000   11000    A_XX_XXXXXXX  0000  +
			chr2    10000   11000    A_XX_XXXXXXX  0000  -
			chrX    10000   11000    A_XX_XXXXXXX        +
			chrY    10000   11000    A_XX_XXXXXXX        -
			chrM    10000   11000    A_XX_XXXXXXX  0000  +

Download & Install Software on HGC Supter Computer


※ここではGenomon-exome パイプラインが呼び出すデータセットのダウンロードの方法が記載されています.
各データセットのライセンスについてご理解のうえダウンロードしてください.Genomon-exomeとは別ライセンスになります.

ダウンロードするソフトウェアはすべて exome/bin ディレクトリ内で行ってください.

			# Change directory
			cd ${Installディレクトリ}/exome/bin

BWA (Burrows-Wheeler Aligner) をダウンロード&解凍します.

			# download bwa
			wget http://sourceforge.net/projects/bio-bwa/files/bwa-0.5.10.tar.bz2
			tar xjvf bwa-0.5.10.tar.bz2
			# bwa のディレクトリ内に移動してソースをコンパイルします.
			cd bwa-0.5.10
			make
			# exome/bin ディレクトリに戻りましょう.
			cd ..
			# hg19.fasta のリンクを bwaディレクトリの中に作成します.
			mkdir ../ref/hg19_bwa-0.5.10
			ln ../ref/hg19/hg19.fasta ../ref/hg19_bwa-0.5.10/hg19.fasta
			# script ディレクトリに移動して,BWAが使用するhg19.fastaのindex を作成します.
			cd ../script
			qsub bwa_index.sh bwa-0.5.10
			# 失敗する場合はメモリ使用量を増やして再実行してみてください.
			qsub -l s_vmem=4G,mem_req=4 bwa_index.sh bwa-0.5.10

Picard をダウンロード&解凍します.

			# download picard
			wget http://sourceforge.net/projects/picard/files/picard-tools/1.39/picard-tools-1.39.zip
			wget http://sourceforge.net/projects/picard/files/picard-tools/1.39/README.txt
			# 解凍します.
			unzip picard-tools-1.39.zip
			# readme ファイルの名前を変えます.わかりづらくなるので.
			mv README.txt picard-tools-1.39.README.txt

GATK (The Genome Analysis Toolkit) をダウンロード&解凍します.

			# download GATK
			wget ftp://ftp.broadinstitute.org/pub/gsa/GenomeAnalysisTK/GenomeAnalysisTK-1.4-21-g30b937d.tar.bz2
			# 解凍します
			tar xjvf GenomeAnalysisTK-1.4-21-g30b937d.tar.bz2

SAMtools をダウンロード&解凍します.

			# download samtools-0.1.15
			wget -nc http://sourceforge.net/projects/samtools/files/samtools/0.1.15/README
			wget -nc http://sourceforge.net/projects/samtools/files/samtools/0.1.15/samtools-0.1.15.tar.bz2
			# 解凍します
			tar xjvf samtools-0.1.15.tar.bz2
			mv README samtools-0.1.15.README
			# samtools内 のディレクトリ内に移動してソースをコンパイルします.
			cd samtools-0.1.15
			make
			
			# download samtools-0.1.18 for EBCall
			wget -nc http://sourceforge.net/projects/samtools/files/samtools/0.1.18/README
			wget -nc http://sourceforge.net/projects/samtools/files/samtools/0.1.18/samtools-0.1.18.tar.bz2
			# 解凍します
			tar xjvf samtools-0.1.18.tar.bz2
			mv README samtools-0.1.18.README
			# samtools内 のディレクトリ内に移動してソースをコンパイルします.
			cd samtools-0.1.18
			make
			

bedtools をダウンロード&解凍します.

			# download bedtools
			wget -nc http://bedtools.googlecode.com/files/BEDTools.v2.14.3.tar.gz
			# 解凍します
			tar xzvf BEDTools.v2.14.3.tar.gz
			# bedtools のディレクトリ内に移動してソースをコンパイルします.
			cd BEDTools-Version-2.14.3
			make

cutadapt をダウンロード&解凍します.

			# download cutadapt
			wget -nc http://cutadapt.googlecode.com/files/cutadapt-1.0.tar.gz
			# 解凍します
			tar xzvf cutadapt-1.0.tar.gz
			# cutadapt のディレクトリ内に移動してソースをコンパイルします.
			cd cutadapt-1.0
			python setup.py build_ext -i

ANNOVAR をダウンロードします.ANNOVARのダウンロードにはユーザ登録 (User License Agreement) が必要です.ANNOVARのホームページにてユーザ登録 (User License Agreement) が完了した後に,登録したメールアドレスにANNOVARをダウンロードするためのリンクが記載されたメールが届きます.そのリンクを使用してANNOVARをダウンロードします.ダウンロード後はANNOVARのPerlを使用して各種データ (snp131など) をダウンロードします.ANNOVARもgenomon/binディレクトリに配置します.

			# download annovar
			wget -nc ${メールで受け取ったダウンロードリンク}
			# 解凍します.
			tar xzvf annovar.tar.gz (wgetでダウンロードしたannovar)
			# annotation をつけるためのDBをダウンロードします.
			./annovar/annotate_variation.pl -buildver hg19 -downdb gene annovar/humandb/
			./annovar/annotate_variation.pl -buildver hg19 -downdb -webfrom annovar mce46way annovar/humandb/
			./annovar/annotate_variation.pl -buildver hg19 -downdb segdup annovar/humandb/
			./annovar/annotate_variation.pl -buildver hg19 -downdb -webfrom annovar ljb_all annovar/humandb/
			./annovar/annotate_variation.pl -buildver hg19 -downdb -webfrom annovar 1000g2010nov_all annovar/humandb/
			./annovar/annotate_variation.pl -buildver hg19 -downdb -webfrom annovar snp131 annovar/humandb/
			./annovar/annotate_variation.pl -buildver hg19 -downdb -webfrom annovar avsift annovar/humandb/
			./annovar/annotate_variation.pl -buildver hg19 -downdb -webfrom annovar ljb_pp2 annovar/humandb/
			./annovar/annotate_variation.pl -buildver hg19 -downdb -webfrom annovar ljb_phylop annovar/humandb/
			./annovar/annotate_variation.pl -buildver hg19 -downdb -webfrom annovar ljb_mt annovar/humandb/
			./annovar/annotate_variation.pl -buildver hg19 -downdb -webfrom annovar ljb_lrt annovar/humandb/
			./annovar/annotate_variation.pl -buildver hg19 -downdb -webfrom annovar esp5400_all annovar/humandb/

GATK (The Genome Analysis Toolkit) の realignment を実行するのに必要な hg19.dict ファイルを作成します.
この項目を実施する前にCONFIGURATIONファイル (exon_pipeline.confg) の設定を行ってください.設定方法はこちら

			# scriptディレクトリでコマンドを実行します.
			cd exome/script
			python realign_gatk_setup.py
			# statusが0で正常終了したことを確認してください.
			job id : 477616 failed =0 exit_status=0
			ls -l ../ref/hg19_bwa-0.5.10/hg19.dict  # ファイルができていれば完成です.

Bioconductor のDNAcopy パッケージをダウンロードしexome/bin ディレクトリに配置します.(exome/bin ディレクトリにいることを確認してから,コマンドを開始してください).

			mkdir -p ~/.R
			export R_LIBS=~/.R
			wget -nc http://www.bioconductor.org/packages/2.10/bioc/src/contrib/DNAcopy_1.30.0.tar.gz
			cp DNAcopy_1.30.0.tar.gz ~/.R
			R CMD INSTALL DNAcopy_1.30.0.tar.gz
Rを実行して library(DNAcopy) が使用できるかチェックしてください.エラーにならなければOKです.
System Preferences のマニュアルに従い、R_LIBS を必ず export してください.
			R
			library(DNAcopy)
^ Go to Top