今天的情人节
有没有人和小编一样还在兢兢业业工作的
没有对象的小伙伴们速来关注我们吧
这里有大把的帅气汉纸~
还有大把的美腻女纸~
更有学不完的分析技能~
在这特别的日子里
请收下小编隔着屏幕送给大家的玫瑰花哦~
虽然其实是土豪郎博给同事们发的(此处省略大笑无数声)
KEGG 是从分子信息水平了解高级功能和生物系统(如细胞、 生物和生态系统),尤其是大型分子数据集生成的基因组测序和其他高通量实验技术的实用程序数据库资源,是由日本京都大学生物信息学中心的Kanehisa实验室于1995年建立。是国际上最常用的生物信息学数据库之一,以“理解生物系统的高级功能和实用程序资源库”著称。
在分子实验过程中,KEGG Pathway的分析是其中的研究重点,那么绘制一张跟实验相关的核心通路图就成为很多研究者头疼的事情了,今天小编就带大家在只有基因序列的情况下,根据需要绘制通路图。
在进入正题之前,小编先给大家科普一下:在KEGG分析中,经常会遇到例如K00010和ko00010这样的编号,很多人搞不清楚这两者有什么区别,简单来说,大写K+五位数字指的是KEGG数据库中某类蛋白编号,即某个基因注释到了这种编号,就代表这是某一类功能的蛋白,一个基因对应一个这种编号。小写的ko+五位数字,这是pathway的编号,代表某一条代谢通路的编号,一条通路里可以有多个基因共同参与调控,也就是有多个K,同样,一个基因可以参与多个通路,也就是一个基因有多个ko注释,它们之间是多对多的关系。
不过,现在如果想利用KEGG数据库不是那么容易了,因为KEGG数据库核心数据是要收费的,价格不菲。很多研究者只能依赖生物公司的帮助进行注释。可是放到文章里的或者感兴趣的基因没有那么多,那么小范围自主进行的KEGG注释就显得尤为重要。
话不多说,开始今天的分析技能~
一、准备蛋白序列
首先得有自己感兴趣的基因信息,有了基因信息,必须有这些基因对应的蛋白序列。因为如果想要获得KEGG注释,我们接下来的教程需要输入蛋白序列。若只有核酸序列,可以通过NCBI的BLAST功能去获得相应的同源蛋白序列(如需BLAST教程,请留言)或者通过软件(例如Genscan)预测其蛋白序列。即确保一点:在没有注释的情况下,我们一定要准备好蛋白序列,这样就能开车去抓注释了!
二、打开KEGG官网
打开KEGG官网http://www.kegg.jp/,直接拖到最底部,点击BlastKOALA
三、获取K编号
点击之后界面如下,分为以下几步操作:
(1)如果蛋白序列较少,可以直接粘贴在空白处(FASTA格式),如果序列较多(上万条也可以),则需要整理成FASTA格式上传了。
(2)序列准备好之后,根据所研究物种选择物种范围,一般情况下都能准确选择的。
(3)选择好之后,再选择用于比对的KEGG数据库,一般选择最后一个,最大最全!
(4)再然后,填写你的个人邮箱,填好之后点击提交。你的个人邮箱会收到KEGG官方发来的确认链接,只要点击链接确认后,KEGG就会帮忙干活啦!
PS:有时候邮件会被丢到垃圾箱,如果五分钟之内没收到邮件,可以去垃圾箱里找一下。这里再说一下时间,如果序列比较少,一般几个小时即可出结果(几十条的样子),如果成千上万条序列,一般会在48小时以内出结果,结果会直接发送到你的邮箱。
(5)确认邮件示例如下,点击Submit选项链接:
(6)收到KEGG官方回复的任务完成邮件(如下图),可以看到结果会被保存7天,所以一定要在7天内进行下载哦,点击邮件中的链接:
(7)点击上面的链接之后,出现如下页面,点击Download即可下载结果:
四、绘制通路图
下载之后的结果是文本格式,总共两列,一列是我们输入蛋白/基因ID,一列是K+五位数编号,有人就会问了,得到这个有啥用?别着急,咱们慢慢来。
(1)有了基因对应的K编号之后,我们想要知道这个/些基因到底参与哪些通路并且绘制通路图怎么办呢?假设我们有五个基因,其中有两个上调,三个下调,我们想知道这几个基因到底参与哪些通路,并且选择一两个通路进行绘图并展示在文章里,在图中将上调的基因标为红色,下调基因标为绿色。假设这五个基因注释的K编号分别为K00412、K02112、K02258、K02154、K02126,前面两个为上调,后面三个为下调。前方高能,请注意!
第一步:打开KEGG官网,选择KEGG PATHWAY
第二步:点击Search&Color Pathway
第三步:
(1)选择物种特有通路图;或者不选,直接使用MAP图
(2)选择输入数据的Primary ID 类型(默认即可)
(3)输入数据:用不同颜色标示上调或下调
(4)点击Exce,得到输入数据涉及到的通路
第四步:输出结果,后面括号里的数字代表这个通路里有几个基因参与了,比如第一个,就是代表我们输入的五个基因全部参与了这个通路。
第五步:通路结果展示,选择感兴趣通路。如ko00190,可以清楚地看到有5个基因被标注了颜色,其实文章里放的通路图就是这样的!
讲到这里教程就接近尾声了,是不是还有人问如果想知道某个基因到底有哪些KEGG Pathway注释怎么办呢?目前小编就是将K+五位数字编号输入,在上述第四步的时候,出来哪些通路,就复制哪些通路下来了。当然还有其他办法,在这里就不去讲了,KEGG数据库还有很多其他功能,有兴趣的可以自己研究下,也可以来报名我们的生信营哦~
下期分析技能再见~
Piccolo(运营部)丨文案
媛&荧丨编辑
图片及视频来自网络,侵删