How To Install Genomon-fusion


Genomon-fusion は Genomon-fusion License のもとで配布されているパイプランソフトウェアです. ヒトゲノム解析センター(HGC)のスーパーコンピュータ にのみ対応しています. ライセンスの元で自由に使用・改変・再配布が可能です.このインストールマニュアルはHGCのスーパーコンピュータ上で行うことを前提として記載しております.

Download Genomon-fusion


Genomon-fusionプロジェクトを下記URL(github)からローカルマシンにダウンロードします.拡張子が.tar.gz か.zipのファイルをダウンロードしてください.ダウンロードしたRNAseq_for_HGC-RB_${バージョン}.tar.gz (.zip)をスーパーコンピュータ上のホームディレクトリ配下の任意のディレクトリにアップロードします.ローカルマシンのOSがwindowsの場合は,winSCP を使用してのアップロードをお勧めします.

Genomon-fusion ダウンロードページ: https://github.com/Genomon/RNAseq_for_HGC

スーパーコンピュータにログインします.Genomon-fusionプロジェクトをアップロードしたディレクトリに移動して,tar.gzファイルを解凍します.ファイルを解凍したら名前を変更しましょう.

			# Install Genomon-fusion
			cd ${Genomon-fusionをアップロードしたディレクトリ}
			tar xzvf RNAseq_for_HGC-RB_${バージョン}.tar.gz  #もしくは unzip RNAseq_for_HGC-RB_${バージョン}.zip
			mv RNAseq_for_HGC-RB_${バージョン} RNAseq

Writing The Set up Configuration File


RNAseq/script/conf/rna.env の設定ファイルを書き換えます.基本的にはGenomon-fusion のインストールディレクトリを変更すれば完了です.
インストールするソフトウェアのバージョンが異なる場合は書き換えてください.

				# ${HOME}をGenomon-fusionをインストールしたディレクトリに書き換えてください.
				WORKDIR=${HOME}/RNAseq

				REFDIR=${WORKDIR}/ref
				DBDIR=${WORKDIR}/db
				LOGDIR=${WORKDIR}/log
				TEMPDIR=${WORKDIR}/temp
				BINDIR=${WORKDIR}/bin

				# インストールするソフトウェアのバージョンが異なる場合は変更してください.
				# このマニュアルの通りにインストールする場合は変更する必要はありません.
				SAMTOOLS_PATH=${BINDIR}/samtools-0.1.18
				BOWTIE_PATH=${BINDIR}/bowtie-0.12.7
				BOWTIE_INDEX=${REFDIR}/knownGene_bowtie/knownGene
				PICARD_PATH=${BINDIR}/picard-tools-1.39
				JAVAPATH=/usr/local/package/java/current6/bin
				MAQ_PATH=/usr/local/bin/maq

				CAP3_PATH=${BINDIR}/CAP3
				FASTA_PATH=${BINDIR}/fasta-36.3.5c/bin
				BEDTOOLS_PATH=${BINDIR}/BEDTools-Version-2.14.3/bin

				BLAT_PATH=${BINDIR}/blat
				BLAT_REF=${REFDIR}/hg19/hg19.2bit
				BLAT_ALL_REF=${REFDIR}/hg19/hg19.all.2bit
				BLAT_HEADER=${REFDIR}/hg19/hg19.header
				BLAT_OOC=${REFDIR}/hg19/11.ooc

				REF_FA=${REFDIR}/hg19/hg19.fasta

				ALLGENEREF=${DBDIR}/fusion/allGenes.fasta
				INTERVAL=${DBDIR}/interval_list_hg19_nongap

				UTIL=${WORKDIR}/script/lib/utility.sh
				COMMAND_MAPPING=${WORKDIR}/script/command_mapping
				COMMAND_FUSION=${WORKDIR}/script/command_fusion

Directory Structure


全てのデータセットとソフトウェアのインストール完了後のディレクトリ構成です.

Directory structure

Download Data Set on HGC Super Computer


※ここではGenomon-fusionパイプラインが呼び出すデータセットのダウンロードの方法が記載されています.
各データセットのライセンスについてご理解のうえダウンロードしてください.Genomon-fusionとは別ライセンスになります.

まずはインストールに必要なディレクトリを作成しましょう.

			# install ディレクトリに移動したあとに makeコマンドを実施
			cd ${Installディレクトリ}/RNAseq/install
			make directory

UCSC が公開しているGeneファイルをダウンロードして RNAseq/db/fusion ディレクトリに配置します.

			# Change directory & Download hg19 Gene Data
			cd ${Installディレクトリ}/RNAseq/db/fusion
			wget http://hgdownload.cse.ucsc.edu/goldenpath/hg19/database/knownGene.txt.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/database/refGene.txt.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/database/ensGene.txt.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/database/chainSelf.txt.gz

UCSC が公開しているhg19 FASTAファイルをダウンロードして RNAseq/ref/hg19/major ディレクトリに配置します.

			# Change directory & Download hg19 FASTA (major)
			cd ${Installディレクトリ}/RNAseq/ref/hg19/major
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr1.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr2.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr3.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr4.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr5.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr6.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr7.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr8.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr9.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr10.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr11.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr12.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr13.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr14.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr15.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr16.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr17.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr18.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr19.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr20.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr21.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr22.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chrX.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chrY.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chrM.fa.gz

次はchrUnとかのFASTAですね.ダウンロードするディレクトリが[major⇒minor]に変わっているので気を付けてください.
hg19 FASTAファイルをダウンロードして RNAseq/ref/hg19/minor ディレクトリに配置します.

			# Change directory & Download hg19 FASTA (minor)
			cd  ${Installディレクトリ}/RNAseq/ref/hg19/minor
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr1_gl000191_random.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr1_gl000192_random.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr4_gl000193_random.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr4_gl000194_random.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr7_gl000195_random.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr8_gl000196_random.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr8_gl000197_random.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr9_gl000198_random.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr9_gl000199_random.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr9_gl000200_random.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr9_gl000201_random.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr11_gl000202_random.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr17_gl000203_random.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr17_gl000204_random.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr17_gl000205_random.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr17_gl000206_random.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr18_gl000207_random.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr19_gl000208_random.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr19_gl000209_random.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr21_gl000210_random.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chrUn_gl000211.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chrUn_gl000212.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chrUn_gl000213.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chrUn_gl000214.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chrUn_gl000215.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chrUn_gl000216.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chrUn_gl000217.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chrUn_gl000218.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chrUn_gl000219.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chrUn_gl000220.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chrUn_gl000221.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chrUn_gl000222.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chrUn_gl000223.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chrUn_gl000224.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chrUn_gl000225.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chrUn_gl000226.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chrUn_gl000227.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chrUn_gl000228.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chrUn_gl000229.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chrUn_gl000230.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chrUn_gl000231.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chrUn_gl000232.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chrUn_gl000233.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chrUn_gl000234.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chrUn_gl000235.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chrUn_gl000236.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chrUn_gl000237.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chrUn_gl000238.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chrUn_gl000239.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chrUn_gl000240.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chrUn_gl000241.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chrUn_gl000242.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chrUn_gl000243.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chrUn_gl000244.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chrUn_gl000245.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chrUn_gl000246.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chrUn_gl000247.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chrUn_gl000248.fa.gz
			wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chrUn_gl000249.fa.gz

Download Software on HGC Super Computer


※ここではGenomon-fusionパイプラインが呼び出すオープンソフトウェアのダウンロードの方法が記載されています.
各ソフトウェアのライセンスについてご理解のうえダウンロードしてください.Genomon-fusionとは別ライセンスになります.

下記はHGCスーパーコンピュータ環境でのダウンロード&インストール(コンパイル)方法です.使用する環境によりダウンロードするソフトウェアやコンパイルの方法が異なります.

ダウンロードするソフトウェアはすべて RNAseq/bin ディレクトリ内で行ってください.

			# Change directory
			cd ${Installディレクトリ}/RNAseq/bin

CAP3 をダウンロード&解凍します.

			# Download fasta36
			wget http://seq.cs.iastate.edu/CAP3/cap3.linux.opteron64.tar
			tar xvf cap3.linux.opteron64.tar

fasta36 をダウンロード&解凍します.

			# Download fasta36
			wget http://faculty.virginia.edu/wrpearson/fasta/fasta36/fasta-36.3.5c.tar.gz
			tar xzvf fasta-36.3.5c.tar.gz

Picard をダウンロード&解凍します.

			# Download Picard
			wget http://sourceforge.net/projects/picard/files/picard-tools/1.39/picard-tools-1.39.zip
			wget http://sourceforge.net/projects/picard/files/picard-tools/1.39/README.txt
			unzip picard-tools-1.39.zip
			mv README.txt picard-tools-1.39.README.txt

SAMtools をダウンロード&解凍します.

			# Download SAMtools
			wget http://sourceforge.net/projects/samtools/files/samtools/0.1.18/samtools-0.1.18.tar.bz2
			tar xjvf samtools-0.1.18.tar.bz2

bedtools をダウンロード&解凍します.

			# Download bedtools
			wget http://bedtools.googlecode.com/files/BEDTools.v2.14.3.tar.gz
			tar zxvf BEDTools.v2.14.3.tar.gz

Bowtie をダウンロード&解凍します.

			# Download Bowtie
			wget http://sourceforge.net/projects/bowtie-bio/files/bowtie/0.12.7/bowtie-0.12.7-linux-x86_64.zip
			unzip bowtie-0.12.7-linux-x86_64.zip

Blat をダウンロードします.

			# Blatをダウンロードするときは ${Installディレクトリ}/RNAseq/bin/blat ディレクトリに移動します.
			cd blat
			# Download Blat
			wget http://hgdownload.cse.ucsc.edu/admin/exe/linux.x86_64/blat/blat
			wget http://hgdownload.cse.ucsc.edu/admin/exe/linux.x86_64/faToTwoBit

Install Data Set & Software on HGC Super Computer


ダウンロードしたデータセットやソフトウェアをインストール(コンパイル)します.
依存関係がありますので記載されている順番でコマンドを実行してください

1.データセットに依存しないソフトウェアのコンパイル

				# Compile samtools. samtoolsのディレクトリに移動したあとmakeコマンドを実施
				cd samtools-0.1.18
				make

				# Compile bedtools. bedtoolsのディレクトリに移動したあとmakeコマンドを実施
				cd BEDTools-Version-2.14.3
				make clean
				make all

				# Compile fasta36. fasta36のディレクトリに移動したあとmakeコマンドを実施
				cd fasta-36.3.5c/src
				make -f ../make/Makefile.linux_sse2 all

2.データセットのインストール

				# install ディレクトリに移動したあとに makeコマンドを実施
				cd ${Installディレクトリ}/RNAseq/install
				make dataset

3.データセットに依存するソフトウェアのインストール

				# install ディレクトリに移動
				cd ${Installディレクトリ}/RNAseq/install
			
				# Build bowtie
				../bin/bowtie-0.12.7/bowtie-build ../ref/knownGene_bowtie/knownGene.fasta ../ref/knownGene_bowtie/knownGene

				# blat で使用するデータを作成
				chmod 750 ../bin/blat/*
				../bin/blat/faToTwoBit ../ref/hg19/hg19.fasta ../ref/hg19/hg19.2bit
				../bin/blat/faToTwoBit ../ref/hg19/hg19.all.fasta ../ref/hg19/hg19.all.2bit
				../bin/blat/blat -makeOoc=../ref/hg19/11.ooc -repMatch=2253 -tileSize=11 ../ref/hg19/hg19.2bit test.fa test.psl
				rm test.psl
^ Go to Top