序列分析图(sequence logo)一般指以图形方式依次展示序列比对中各个位置上出现的残基及其频率,常用于描述序列特征,如DNA中的蛋白质结合位点或蛋白质中的功能单元。序列分析图中每个残基对应图形字符的大小与残基在该位置上出现的频率是成正比的!
安装、加载R包rm(list=ls())
#安装包
install.packages("ggseqlogo")
#加载包
library(ggseqlogo)
数据
支持序列与矩阵两种格式的文件,以以ggseqlogo包自带示例数据ggseqlogo_sample为例:
data(ggseqlogo_sample)
#DNA数据
df1<-pfms_dna
#氨基酸数据
df2<-seqs_aa
#序列格式
df3<-seqs_dna$MA0011.1
#矩阵格式——代表碱基位置及相应碱基在该位置的出现次数
df4<-pfms_dna$MA0031.1