深度解析Eggnog数据库

Eggnog数据库是一个用于比对和注释新序列的工具和数据库。它的主要功能是为生物学家和生物信息学家提供具有高水平注释和全球广泛比对的非冗余基因和蛋白质序列集，使得研究者能够比较新的序列并理解它们在进化树上的位置。在本文中，我们将从多个方面对Eggnog数据库进行详细的阐述。

一、Kegg数据库与Eggnog数据库的关系

Kegg数据库和Eggnog数据库是基因组注释领域中相当重要的两个数据库，它们的关系也非常密切。在Kegg中，有大量的生物物种基因信息，而Eggnog则是以这些基因为主要数据来源，补充了这些基因的分类、功能等信息。Eggnog通过比对和聚类搜索，将不同物种之间的相似基因分成若干族群，逐步组建起一个更广泛的注释基因集合，并对基因进行分类和注释。

以下是EggNog程序部分代码示例:

def find_closest_gids(goodogs, nog):    
    t1= time()
    musclosest = defaultdict(lambda:'')
    ndmapi = nog.dbmapi
    g2nog = nog.data['g2nog']
    nog2g = nog.data['nog2g']
    for k in ndmapi:
        ndmpath=os.path.join(nog.dbdir,'eggnog.%s.ndm.db' % k)
        db=bsddb.hashopen(ndmpath)
        for i,gidset in goodogs.items():
            closeness=defaultdict(lambda:1E6)
            gids = set()
            for gid in gidset:
                try:
                    ndf = db[str(gid)]
                except:
                    continue
                for path2,clus2,score2,cltype in ndf.split('\t')[1:]:
                    if cltype!='OG':
                        continue
                    if path in ndmapi and path2 not in ndmapi[path]:
                        continue
                    v2 = float(score2)
                    if v2>closeness[clus2]:
                        continue
                    if v2==closeness[clus2]:
                        gids.add(gid)
                    else:
                        gids.clear()
                        gids.add(gid)
                        closeness[clus2]=v2
            if not gids:
                continue
            nog = g2nog[gids.pop()]
            for gid in gids:
                n = g2nog[gid]
                if nog==n:
                    continue
                path = ndmapi[nog][n]
                if closeness[nog2g[nog]]>1E-4:
                    continue
                if closeness[nog2g[n]]<closeness[nog2g[nog]]:
                    nog,n = n,nog
                    path = ndmapi[nog][n]
                key1 = ','.join([path,nog,n])
                key2 = ','.join([path,nog2g[n],n])
                if closeness[nog2g[n]]<1E-4:
                    musclosest[key1]+=','+gid
                musclosest[key2]+=','+gid
        db.close()

    return musclosest

二、Eggnog数据库的注释精度

Eggnog数据库对于基因注释的精度非常高。它通过多种方式比对、聚类和处理，将具有相似功能和结构的序列组合成一个极具代表性的序列，为生物学家和生物信息学家提供高质量的注释结果。另外，Eggnog数据库不仅包括不同物种之间的基因集合，而且还提供了各生物物种内的基因注释，使得研究者能够更好地理解物种本身的生命特性。

以下是EggNog程序部分代码示例:

def get_annotations(self):    
    self.read_blocks()
    if self.noannotated:
        return 
    funcdict = defaultdict(int)
    tmp_a = self.names[self.typenum.index(1)]
    tmp_f = self.names[self.typenum.index(2)]
    tmp_n = self.names[self.typenum.index(3)]
    self.funcs={entry.name:set() for entry in self.entries}
    for entry in self.entries:
        name = entry.name
        func = entry.annotation
        self.funcs[name].add(func)
        fdict = dict([(k.strip(),v.strip()) for k,v in [x.split('=') for x in func.split(';')]])
        if 'FUNCTION' in fdict:                    
            funcdict[fdict['FUNCTION']]+=1
            self.func_annotations[name].add(fdict['FUNCTION'])
        elif 'PFAM' in fdict:
            self.pfam_annotations[name].add(fdict['PFAM'])

    noned = funcdict.pop('NoneNone',None)
    funclist = list(funcdict.items())
    funclist.sort(key=itemgetter(1),reverse=True)
    self.funcs_anns=dict()
    self.pfam_anns=dict()
    for f,a in funclist[1:51]:
        self.funcs_anns[f]=set([entry for entry in self.entries if f in self.func_annotations[entry.name]])
        self.pfam_anns[f]=set([entry for entry in self.entries if f in self.pfam_annotations[entry.name]])

三、Eggnog数据库的数据库触发器

Eggnog数据库的触发器是一种用于保证数据完整性和安全性的技术。它可以在特定数据操作时自动执行相应的程序，以向数据库中插入或修改数据。例如，当一个新的蛋白质序列加入到数据库中，触发器可以自动将其进行比对并注释，从而提高注释的速度和效率，并保证新加入数据的质量。

以下是EggNog程序部分代码示例:

CREATE OR REPLACE TRIGGER eggnog_load_trigger
AFTER INSERT ON eggnog_protein_seq
FOR EACH ROW
BEGIN
proc_eggnog_new_protein(NEW.seq);
END;
/

四、Eggnog数据库的并行计算

Eggnog数据库支持并行计算，可以更快地比对和注释大量的基因和蛋白质序列。它使用了并行化的指令和算法，将注释操作划分为多个部分，使得每个部分可以独立运行并返回结果，从而提高了注释的速度和效率。

以下是EggNog程序部分代码示例:

def parallel_annotate(dbdir,seqdb,name,outdir,cpu,shell='/bin/bash'):
    seq_path=os.path.join(dbdir,seqdb)
    num_files = get_num_files(seq_path)

    outfiles = []
    for i in range(cpu):
        outfiles.append("%s/%s.part%d"%(outdir,name,i))

    dmap = {}
    dmap['seq_file'] = seq_path
    dmap['out_files'] = ','.join(outfiles)
    dmap['num_files'] = num_files

    cmd = TEMPLATE % dmap

    jobids = []
    for i in range(cpu):
        logfile = '%s/%s.part%d.log'%(outdir,name,i)
        errorfile = '%s/%s.part%d.err'%(outdir,name,i)

        o_file = "%s/%s.part%d"%(outdir,name,i)
        jobname = "eggnog_annotate_%s_%d"%(name,i)
        qsub_cmd = "qsub -cwd -l vf=1G -pe parallel %d -N %s -o %s -e %s %s -c '%s'"%(cpu,jobname,logfile,errorfile,job_para,cmd)

        jobid = run_command(qsub_cmd,shell=shell)
        jobids.append(jobid)

    return jobids

五、Eggnog数据库的可视化展示

Eggnog数据库还具有良好的可视化展示界面，使得研究者可以更好地了解基因和蛋白质序列的分类、聚类和注释情况。在Eggnog数据库网站上，用户可以通过搜索基因或蛋白质序列，智能推荐算法、分析结果可视化等方式，深入了解不同基因之间的关系和演化历程。

以下是EggNog数据库网站部分图片展示：

六、总结

在本文中，我们深度解析了Eggnog数据库，从Kegg数据库与Eggnog数据库的关系、Eggnog数据库的注释精度、数据库触发器、并行计算和可视化展示等多个方面对Eggnog数据库进行了详细的阐述。我们相信这些信息将会为生物学家和生物信息学家提供极大的帮助，使得他们在基因组注释的领域中更加得心应手。

原创文章，作者：YNYM，如若转载，请注明出处：https://www.506064.com/n/138060.html

深度解析Eggnog数据库

一、Kegg数据库与Eggnog数据库的关系

二、Eggnog数据库的注释精度

三、Eggnog数据库的数据库触发器

四、Eggnog数据库的并行计算

五、Eggnog数据库的可视化展示

六、总结

相关推荐

发表回复