Genomon-exomeは Genomon License のもとで配布されているパイプランソフトウェアです. ヒトゲノム解析センター (HGC) のスーパーコンピュータ にのみ対応しています. ライセンスの元で自由に使用・改変・再配布が可能です.このインストールマニュアルはHGCのスーパーコンピュータ上で行うことを前提として記載しております.
Links inside this page:
System Preferences
Download Genomon-exome
Writting The Setup Configuration File
Directory Structure
Download Data Set on HGC Super Computer
Download Software on HGC Super Computer
スーパーコンピュータにログインします.~/.bash_profile を開いてください.
vi ~/.bash_profile
下記のパラメータを追加してください.すでに$PATHなどのパラメータが存在する場合は,上書きしないように注意して追加してください.LANGのexport と umaskは推奨設定です.他のプログラムに影響がある場合は設定しなくてもかまいません. 2行目のpython2.6のPATHへの追加は必ずおこなってください.pythonは2.6以上が必須です.下記の設定をおこなうとpythonはバージョン2.6.5で起動されます.
# 言語を英語にしましょう. LANG=en_US; export LANG # hgc のスパコンが shirokane1 の場合はこちら.shirokane1 か shirokane2 のどちらかのPATHを設定してください. export PATH=/usr/local/package/python2.6/2.6.5/bin:$PATH # hgc のスパコンが shirokane2 の場合はこちら export PATH=/usr/local/package/python2.7/2.7.2/bin:$PATH # ここにRライブラリをインストールすることになります. export R_LIBS=~/.R
ログアウトして再度ログインしてください.毎回ログインするたびに自動で環境変数が設定されます.
再ログインしたら python のパスが下記と同じであることをご確認ください.バージョン2.6.5 or 2.7.2のpythonが起動されるように設定されています.
which python # hgc のスパコンが shirokane1 の場合こちらが表示されます /usr/local/package/python2.6/2.6.5/bin/python # hgc のスパコンが shirokane2 の場合こちらが表示されます /usr/local/package/python2.7/2.7.2/bin/python
Genomon-exome プロジェクトを下記URL (github) からローカルマシンにダウンロードします.拡張子が.tar.gz (or .zip)のファイルをダウンロードしてください.ダウンロードした exome_for_HGC-RB_${バージョン}.tar.gz (or zip)をスーパーコンピュータ上のホームディレクトリ配下の任意のディレクトリにアップロードします.ローカルマシンのOSがwindowsの場合は,winSCP を使用してのアップロードをお勧めします.
Genomon-exome ダウンロードページ: https://github.com/Genomon/exome_for_HGC
スーパーコンピュータにログインします.Genomonプロジェクトをアップロードしたディレクトリに移動して,ファイルを解凍します.ファイルを解凍したら名前を変更しましょう.
# Genomon Exome をアップしたディレクトリに移動します. cd ${Genomonをアップロードしたディレクトリ} # 解凍します. tar xzvf exome_for_HGC-RB_${バージョン}.tar.gz # もしくは unzip exome_for_HGC-RB_${バージョン}.zip # ディレクトリ名を短くしましょう. mv exome_for_HGC-RB_${バージョン} exome
exome/scriptディレクトリに移動してください.exome/script ディレクトリ以下のソースファイルに実行権限を与えます.完了後にexome/binディレクトリに移動してください
cd exome/script chmod 740 * cd ../install
exome/script/exon_pipeline.config の設定ファイルを書き換えます.
基本的にはUSER_NAMEをスパコンのユーザ名に変更すればOKです.
exon_pipeline.config
[user-info] name=USER_NAME # USER_NAMEをスパコンのユーザ名に変更してください [directory-path] project=/home/USER_NAME/exome # USER_NAMEをスパコンのユーザ名に変更してください script=script ref=ref input=data/input output=data/output result=data/result db=db sys=sys tmp=tmp log=log inhousedata= summarydata= [data-file] hg19fasta=ref/hg19_bwa-0.5.10/hg19.fasta dbsnprod= # PCRアダプタ配列の除去を行うときは,read1,read2に除去するアダプタを記載してください # 2種類以上のアダプタの除去が必要な場合はカンマ (,) 区切りでアダプタを記載してください # read1=ATGCAT,AACC [adapter] read1=NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN # read1はペアエンドの First Pair のFASTQファイルが対象です read2=NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN # read2はペアエンドの Second Pair のFASTQファイルが対象です [bin] # インストールしたソフトウェアのバージョンが異なる場合は変更してください bwa=bin/bwa-0.5.10/bwa picard=bin/picard-tools-1.39 samtools=bin/samtools-0.1.15/samtools bedtools=bin/BEDTools-Version-2.14.3/bin cutadapt=bin/cutadapt-1.0/cutadapt annovar=bin/annovar javatools= python2.6=/usr/local/package/python2.6/2.6.5/bin/python # shirokane2の場合は /usr/local/package/python2.7/2.7.2/bin/python になります. java6=/usr/local/package/java/current6/bin/java maq=/usr/local/bin/maq R=/usr/local/bin/R gatk=bin/GenomeAnalysisTK-1.4-21-g30b937d gatk1_0= [db] inhouseflg=0 inhouse_version=v1 cosmicflg=0 cosmic_version=v57 [ngsdb] dbname= hostname= port= user= password=
exome/copy_number/script/copynum.env の設定ファイルを書き換えます.
こちらはCopy Number データ解析用の設定ファイルです.
WORKDIR=${HOME}/exome HG19REF=${WORKDIR}/ref/hg19_bwa-0.5.10/hg19.fasta INTERVALDIR=${WORKDIR}/db/interval_list_hg19_nongap BAITINFO=${WORKDIR}/db/SureSelect50M.bed # Exonをキャプチャした範囲(領域)が書いてあるBEDファイルを指定してください. BEDTOOLS=${WORKDIR}/bin/BEDTools-Version-2.14.3/bin SAMTOOLS=${WORKDIR}/bin/samtools-0.1.15 ANNOPATH=${WORKDIR}/bin/annovar PERL=/usr/local/bin/perl R=/usr/local/bin/R PYTHON=/usr/local/package/python2.6/2.6.5/bin/python LOGDIR=${WORKDIR}/copy_number/log COMMAND_CN=${WORKDIR}/copy_number/script UTIL=${COMMAND_CN}/utility.sh
exome/eb_call/script/config.sh の設定ファイルを書き換えます.
こちらはEmpirical Baysian mutation Calling 用の設定ファイルです.
# path to the reference genome PATH_TO_REF=${HOME}/exome/ref/hg19/hg19.fasta # path to samtols PATH_TO_SAMTOOLS=${HOME}/exome/bin/samtools-0.1.18 # path to R PATH_TO_R=/usr/local/bin # mapping quality threshould TH_MAPPING_QUAL=30 # base quality threshould TH_BASE_QUAL=15 # mapping quality threshould TH_MAPPING_QUAL_REF=30 # base quality threshould TH_BASE_QUAL_REF=15 # minimum depth in tumor MIN_TUMOR_DEPTH=8 # minimum depth in normal MIN_NORMAL_DEPTH=8 # minimum number of variant reads in tumor MIN_TUMOR_VARIANT_READ=4 # minimum amount of tumor allele frequency MIN_TUMOR_ALLELE_FREQ=0.08 # maximum amount of normal allele frequency MAX_NORMAL_ALLELE_FREQ=0.1 # minimum value for the minus logarithm of p-value MIN_MINUS_LOG10_PV=3 # interval list for multi-job operation INTERVAL=${HOME}/exome/db/interval_list_hg19_nongap # log dir LOGDIR=${HOME}/exome/log/ebcall # path to annovar ANNOPATH=${HOME}/exome/bin/annovar
インストール完了後のディレクトリ構成です.インストールする各種のオープンソフトウェアやデータセットは exome ディレクトリ以下にインストールします.
※ここではGenomon-exome パイプラインが呼び出すデータセットのダウンロードの方法が記載されています.
各データセットのライセンスについてご理解のうえダウンロードしてください.Genomon-exomeとは別ライセンスになります.
UCSC が公開しているhg19 FASTAファイルをダウンロードしてexome/ref/hg19 ディレクトリに配置します.
(exome/ref/hg19 ディレクトリにいることを確認してから,コマンドを開始してください.)
# hg19 FASTAファイルをダウンロードします. wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr1.fa.gz wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr2.fa.gz wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr3.fa.gz wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr4.fa.gz wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr5.fa.gz wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr6.fa.gz wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr7.fa.gz wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr8.fa.gz wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr9.fa.gz wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr10.fa.gz wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr11.fa.gz wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr12.fa.gz wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr13.fa.gz wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr14.fa.gz wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr15.fa.gz wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr16.fa.gz wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr17.fa.gz wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr18.fa.gz wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr19.fa.gz wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr20.fa.gz wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr21.fa.gz wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr22.fa.gz wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chrX.fa.gz wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chrY.fa.gz wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chrM.fa.gz # 解凍します. gunzip chr*.fa.gz # 1つのファイルにまとめます. cat chr1.fa chr2.fa chr3.fa chr4.fa chr5.fa chr6.fa chr7.fa chr8.fa chr9.fa chr10.fa chr11.fa chr12.fa chr13.fa chr14.fa chr15.fa chr16.fa chr17.fa chr18.fa chr19.fa chr20.fa chr21.fa chr22.fa chrX.fa chrY.fa chrM.fa > hg19.fasta # 正しくhg19.fastaが作成できたか確認しましょう.md5sumの結果が下記と同じであれば大丈夫です. md5sum hg19.fasta 7c1739fd43764bd5e3b9b76ce8635bf0 hg19.fasta
次にExonをキャプチャした範囲(領域)が書いてあるBEDファイルをアップロードしてください.SureSelect50MやTrueSeqのキャプチャしている範囲(領域)が記載されているBEDファイルです. OSがwindowsの場合は,winSCP を使用してのアップロードをお勧めします. 下記のディレクトリにファイルをアップロードしてください.
exome/db/xxxxxxxx.bed
※BEDファイルにヘッダー行がある場合は削除してください.また,chr1~chrM以外の染色体の行を削除してください.hg19.fastaをchr1.fa~chrM.faで作成しているため,chr1~chrM以外の範囲のゲノムはマッピングされません.
header=sample # Headerがあればその行を削除します chr1 10000 11000 chr2 10000 11000 # chr1~chrM は残します chrX 10000 11000 chrY 10000 11000 chrM 10000 11000 chr19_gl000nnn_random 20000 21000 # chr_xxxx_random の行は削除します chrUn_gl0002nn 30000 31000 #chrUn_xxxx の行は削除します
※BEDファイルのフォーマットは、タブ区切り (TSV形式)としてください.
タブ区切りの項目は、Chr△Start△End△Other1△Other2 (空でも可)△strandの順に設定してください.△はタブを表す.
chr1 10000 11000 A_XX_XXXXXXX 0000 + chr2 10000 11000 A_XX_XXXXXXX 0000 - chrX 10000 11000 A_XX_XXXXXXX + chrY 10000 11000 A_XX_XXXXXXX - chrM 10000 11000 A_XX_XXXXXXX 0000 +
※ここではGenomon-exome パイプラインが呼び出すデータセットのダウンロードの方法が記載されています.
各データセットのライセンスについてご理解のうえダウンロードしてください.Genomon-exomeとは別ライセンスになります.
ダウンロードするソフトウェアはすべて exome/bin ディレクトリ内で行ってください.
# Change directory cd ${Installディレクトリ}/exome/bin
BWA (Burrows-Wheeler Aligner) をダウンロード&解凍します.
# download bwa wget http://sourceforge.net/projects/bio-bwa/files/bwa-0.5.10.tar.bz2 tar xjvf bwa-0.5.10.tar.bz2 # bwa のディレクトリ内に移動してソースをコンパイルします. cd bwa-0.5.10 make # exome/bin ディレクトリに戻りましょう. cd .. # hg19.fasta のリンクを bwaディレクトリの中に作成します. mkdir ../ref/hg19_bwa-0.5.10 ln ../ref/hg19/hg19.fasta ../ref/hg19_bwa-0.5.10/hg19.fasta # script ディレクトリに移動して,BWAが使用するhg19.fastaのindex を作成します. cd ../script qsub bwa_index.sh bwa-0.5.10 # 失敗する場合はメモリ使用量を増やして再実行してみてください. qsub -l s_vmem=4G,mem_req=4 bwa_index.sh bwa-0.5.10
Picard をダウンロード&解凍します.
# download picard wget http://sourceforge.net/projects/picard/files/picard-tools/1.39/picard-tools-1.39.zip wget http://sourceforge.net/projects/picard/files/picard-tools/1.39/README.txt # 解凍します. unzip picard-tools-1.39.zip # readme ファイルの名前を変えます.わかりづらくなるので. mv README.txt picard-tools-1.39.README.txt
GATK (The Genome Analysis Toolkit) をダウンロード&解凍します.
# download GATK wget ftp://ftp.broadinstitute.org/pub/gsa/GenomeAnalysisTK/GenomeAnalysisTK-1.4-21-g30b937d.tar.bz2 # 解凍します tar xjvf GenomeAnalysisTK-1.4-21-g30b937d.tar.bz2
SAMtools をダウンロード&解凍します.
# download samtools-0.1.15 wget -nc http://sourceforge.net/projects/samtools/files/samtools/0.1.15/README wget -nc http://sourceforge.net/projects/samtools/files/samtools/0.1.15/samtools-0.1.15.tar.bz2 # 解凍します tar xjvf samtools-0.1.15.tar.bz2 mv README samtools-0.1.15.README # samtools内 のディレクトリ内に移動してソースをコンパイルします. cd samtools-0.1.15 make # download samtools-0.1.18 for EBCall wget -nc http://sourceforge.net/projects/samtools/files/samtools/0.1.18/README wget -nc http://sourceforge.net/projects/samtools/files/samtools/0.1.18/samtools-0.1.18.tar.bz2 # 解凍します tar xjvf samtools-0.1.18.tar.bz2 mv README samtools-0.1.18.README # samtools内 のディレクトリ内に移動してソースをコンパイルします. cd samtools-0.1.18 make
bedtools をダウンロード&解凍します.
# download bedtools wget -nc http://bedtools.googlecode.com/files/BEDTools.v2.14.3.tar.gz # 解凍します tar xzvf BEDTools.v2.14.3.tar.gz # bedtools のディレクトリ内に移動してソースをコンパイルします. cd BEDTools-Version-2.14.3 make
cutadapt をダウンロード&解凍します.
# download cutadapt wget -nc http://cutadapt.googlecode.com/files/cutadapt-1.0.tar.gz # 解凍します tar xzvf cutadapt-1.0.tar.gz # cutadapt のディレクトリ内に移動してソースをコンパイルします. cd cutadapt-1.0 python setup.py build_ext -i
ANNOVAR をダウンロードします.ANNOVARのダウンロードにはユーザ登録 (User License Agreement) が必要です.ANNOVARのホームページにてユーザ登録 (User License Agreement) が完了した後に,登録したメールアドレスにANNOVARをダウンロードするためのリンクが記載されたメールが届きます.そのリンクを使用してANNOVARをダウンロードします.ダウンロード後はANNOVARのPerlを使用して各種データ (snp131など) をダウンロードします.ANNOVARもgenomon/binディレクトリに配置します.
# download annovar wget -nc ${メールで受け取ったダウンロードリンク} # 解凍します. tar xzvf annovar.tar.gz (wgetでダウンロードしたannovar) # annotation をつけるためのDBをダウンロードします. ./annovar/annotate_variation.pl -buildver hg19 -downdb gene annovar/humandb/ ./annovar/annotate_variation.pl -buildver hg19 -downdb -webfrom annovar mce46way annovar/humandb/ ./annovar/annotate_variation.pl -buildver hg19 -downdb segdup annovar/humandb/ ./annovar/annotate_variation.pl -buildver hg19 -downdb -webfrom annovar ljb_all annovar/humandb/ ./annovar/annotate_variation.pl -buildver hg19 -downdb -webfrom annovar 1000g2010nov_all annovar/humandb/ ./annovar/annotate_variation.pl -buildver hg19 -downdb -webfrom annovar snp131 annovar/humandb/ ./annovar/annotate_variation.pl -buildver hg19 -downdb -webfrom annovar avsift annovar/humandb/ ./annovar/annotate_variation.pl -buildver hg19 -downdb -webfrom annovar ljb_pp2 annovar/humandb/ ./annovar/annotate_variation.pl -buildver hg19 -downdb -webfrom annovar ljb_phylop annovar/humandb/ ./annovar/annotate_variation.pl -buildver hg19 -downdb -webfrom annovar ljb_mt annovar/humandb/ ./annovar/annotate_variation.pl -buildver hg19 -downdb -webfrom annovar ljb_lrt annovar/humandb/ ./annovar/annotate_variation.pl -buildver hg19 -downdb -webfrom annovar esp5400_all annovar/humandb/
GATK (The Genome Analysis Toolkit) の realignment を実行するのに必要な hg19.dict ファイルを作成します. この項目を実施する前にCONFIGURATIONファイル (exon_pipeline.confg) の設定を行ってください.設定方法はこちら
# scriptディレクトリでコマンドを実行します. cd exome/script python realign_gatk_setup.py # statusが0で正常終了したことを確認してください. job id : 477616 failed =0 exit_status=0 ls -l ../ref/hg19_bwa-0.5.10/hg19.dict # ファイルができていれば完成です.
Bioconductor のDNAcopy パッケージをダウンロードしexome/bin ディレクトリに配置します.(exome/bin ディレクトリにいることを確認してから,コマンドを開始してください).
mkdir -p ~/.R export R_LIBS=~/.R wget -nc http://www.bioconductor.org/packages/2.10/bioc/src/contrib/DNAcopy_1.30.0.tar.gz cp DNAcopy_1.30.0.tar.gz ~/.R R CMD INSTALL DNAcopy_1.30.0.tar.gzRを実行して library(DNAcopy) が使用できるかチェックしてください.エラーにならなければOKです.
R library(DNAcopy)