立即注册找回密码

QQ登录

只需一步,快速开始

微信登录

微信扫一扫,快速登录

手机动态码快速登录

手机号快速注册登录

搜索

图文播报

查看: 279|回复: 5

[分享] 网上的生物信息学资源都有哪些?

[复制链接]
发表于 2025-5-30 17:37 | 显示全部楼层 |阅读模式
回复

使用道具 举报

发表于 2025-5-30 17:37 | 显示全部楼层
多年的生物信息学学习过程中积累了一大批生物信息资源,具体分为四大类:学习资源、常用网站、软件以及数据库资源。
常用学习资源
社区和网站

  • omictools  :组学软件集合
  • biostars :生物信息的问答社区
  • github:最大的开源平台
  • rosalind:生信学习网站,上面有很多生信相关的题目
常用软件
生物信息学一些基本的常用软件有哪些?
BioSoft生物信息学在线软件集锦


生物信息学在线工具
数据库
参照生物信息学数据库大全进行了整理和归类,重新进行了发布


第一大类:综合数据库、DNA数据库、RNA数据库、蛋白数据库
综合数据库

  • INSD:国际核酸序列数据库(International Nucleotide Sequence Databank)。由日本的DDBJ、欧洲的EMBL和美国的GenBank三家各自建立和共同维护。
  • EMBL库:欧洲分子生物学实验室的DNA和RNA 序列库。
  • GenBank :美国国家生物技术信息中心 (NCBI)所维护的供公众自由读取的、带注释的DNA序列的总数据库。
  • DDBJ :日本核酸数据库。
  • GSDB:美国国家基因组资源中心(NCGR)维护的DNA序列关系数据库(Genome Sequence DataBase)。
  • TIGR DATAbase:世界上最大的cDNA数据库,还有大量的EST序列和人类基因索引(HGI)。
DNA序列数据库
包括与DNA的复制、转录、修复等有密切关系的蛋白质因子。

  • BioSino:中国自主开发的核酸序列公共数据库。
  • CUTG,MM子使用频度表。
  • EPD:真核生物启动子数据库(Eukaryotic Promotor Database)。
  • TRANSFAC:真核生物基因表达调控因子的数据库。
  • TRRD:真核生物基因组转录调控区数据库。
  • OOTFD:转录因子和基因表达数据库。
  • RepBase真核生物DNA中重复序列数据库。
  • MicroSatellite:微卫星重复序列数据库。
  • ALU数据库:是人及其他灵长类代表性的Alu重复片段。
  • Simple Repeats:简单重复序列库。
  • COMPEL:复合元件数据库。
  • MPDB:分子探针数据库。
  • HvrBase:灵长类mtDNA调控区序列库,主要是人的HVI和HVII两个高变异区的序
  • PlantCARE:植物顺式作用(cis-acting)调控因子数据库。
  • PLACE:从文献中搜集的植物顺式作用调控元件DNA模体的数据库,只涉及维管植物
  • Mendel数据库:搜集植物STS和EST序列。
  • HOX Pro:同源异型盒(homeobox)基因数据库。
  • OPD:寡核苷酸探针数据库。
  • dbSTS:序列标记位点数据库。这是GenBank的重要组成部分,它包含若干物种的已表达的序列标记信息。
  • AmmtDB:后生动物线粒体DNA多序列联配数据库,搜集了脊椎动物线粒体中编码蛋白质和tRNA的多DNA序列对比数据,以及哺乳动物mtDNA主调控区序列联配数据。
  • HOVERGEN:脊椎动物同源基因数据库(HOmologous VERtebrate GENes)。
  • DNA结构参数库
  • NUCLEOSOME数据库:收集实验测定的核小体数据,用于预测DNA中与组蛋白八聚体结合的位点.
  • SELEX_DB:随机化序列库。
  • ASDB:交替剪接基因的数据库。
  • Intronerator:秀丽线虫内含子和交替剪接数据库。
  • IDB和IEDB:前者是内含子序列数据库,后者是内含子演化数据库。
  • EID:外显子、内含子数据库。
  • NDB:核酸晶体结构数据库。
  • VectorDB:载体数据库。
RNA序列和核糖体数据库
蛋白质结构和分类数据库

  • PDB:蛋白质结构数据库。
  • RCSB:结构生物信息学信息学合作研究组织。
  • FAMBASE:是每个蛋白质家族的代表序列的集合,它有助于加速同源性搜索。
  • ProtFam:蛋白质超家族的序列联配数据库。
  • SCOP:蛋白质结构分类数据库。
  • CATH:蛋白质结构与功能关系分类数据库。
  • PIR-ALN:蛋白质序列联配数据库。
  • 3Dee:蛋白质结构域定义的数据库。
  • PROMISE:数据库。 MMDB:蛋白质分子模型数据库。
  • DSSP:PDB库中所有蛋白质条目的二级结构归属数据库。
  • HSSP按同源性导出的蛋白质二级结构数据库。
  • INFOGENE:Sanger中心计算基因组学小组维护的、各基因组测序计划所提供的序列中已知的蛋白质和预测出的基因与蛋白质的数据库。
  • TMBase:跨膜蛋白数据库。
  • PRESAGE:是关于结构基因组学的一个数据库,它为库中每个蛋白质搜集了反映当前实验状况、结构、模型和研究建议的注释。
  • PFAM:高质量的蛋白质结构域家族数据库。
  • ProDom:自动产生的蛋白质结构域家族数据库。
  • DOMO:蛋白质结构域数据库。
  • GRBase:这是参与基因调控的蛋白质的数据库。

第二大类:按照物种来分
人类基因组测序中心

  • HUGO:人类基因组组织。
  • 美国能源部支持的人类基因组计划
  • 世界上主要人类基因组测序中心的名单。
  • NCBI的GenBank数据库从1999年10月起,建立了智人基因组子目录,其下按染色体编号设子目录。
  • Human Genomics Studio:日本的DDBJ和信息生物学中心(CIB)联合建立了一个,可以按染色体编号检索和查找基因序列。
  • Sanger 中心:是世界上最大的DAN测序中心之一。
  • LBNL:Lawrence Berkeley 国家实验室。
  • LLNL:Lawrence Livermore 国家实验室。
  • LANL:美国洛斯阿拉莫斯国家实验室。
  • JGI:由美国能源部支持的,依托LBNL、LLNL和LANL三个国家实验室的人类基因组研究部门建的联合基因组研究所。
  • UWGC:华盛顿大学基因中心,是国际上最活跃的测序中心之一。
  • SHGC:斯坦福大学人类基因中心,主要做高分辨率辐射杂交图谱,以及人类第四号染色体BAC克隆的测序。
  • DOGS:基因组尺寸数据库。
  • EuGenes:真核生物基因综合知识库,目前包括果蝇、人、小鼠、拟南芥、线虫、酵母、和斑马鱼的数据。
原核生物基因组

  • 细菌基因组计划的进展情况
  • MOT :欧洲生物信息研究所EBI的基因组测序进展表。 GIB:日本DDBJ设立的Genome Information Broker for microbial genomes 的缩写。 MAGPIE测序计划清单也可以参考。
  • EMGLib:增补微生物基因组库。 大肠杆菌K12菌株的完全基因组序列:可由GenBank的子目录/genomes/获取,或从华盛顿大学大肠杆菌基因组中心,即Blattner实验室的网页读取。
  • ECDC:大肠杆菌菌株K12的基因序列库,包括基因、读框、调控区、启动子、终止子、tRNA和rRNA等。
  • EcoGene和EcoWeb:大肠杆菌K12菌株基因组数据库,包括基因、蛋白质、基因间蛋白质组信息。 RegulonDB:大肠杆菌转录调控和操作子数据库。
  • NRSub:非冗余枯草芽孢杆菌DNA数据库,包括完全基因组、MM子使用表、基因图谱和基因家族。
  • HIDB:流感嗜血菌完全基因组的原始数据库。
  • HIDC:流感署血菌基因序列库。
  • CyanoBase:蓝细菌数据库,实际上是集胞蓝细菌的基因组数据库。蓝细菌具有氧化和光合作用所需的全套基因。
  • MJDB:詹氏甲烷球菌基因组数据库。
原生生物和线虫基因组
真菌基因组

  • SGS:酿酒酵母基因组数据库。
  • MYGD:酵母基因组、蛋白质和同源关系的数据库。
  • YIDB:酵母内含子数据库。
  • MNCDB:由德国MIPS所维护的粗糙链孢霉基因组数据库。
  • 真菌基因组资源的网址。
  • FGSC:真菌遗传学信息中心。
昆虫基因组
鱼类数据库

  • 美国国家卫生署1997年建立的斑马鱼网页
  • ZFIN:斑马鱼基因组、发育突变和野生种系数据库。
  • Fugu:河豚的数据库。
  • RainMap:彩虹鳟鱼基因图谱数据库。
啮齿动物基因组(小鼠)
家畜和家禽

  • ChickGBASE:鸡基因图谱计划,搜集全世界鸡基因图谱信息。
  • Swimemap:猪基因图谱计划,染色体图谱和标记。
  • PiGBASE:猪基因图谱信息库。
  • SheepBase:已发表的绵羊基因位点数据库。
  • Goatmap:山羊基因图谱数据库。
  • HorseMap:马基因图谱数据库。
  • Bovmap:法国的牛基因图谱数据库。
  • BovBase:英国的牛基因图谱数据库。
  • BovGBASE:美国农业部的家畜基因组图谱计划中的牛基因数据库。
  • Buffmap:水牛基因图谱数据库
  • DogMap:狗基因图谱数据库。
  • CatMap:猫基因图谱数据库。
农作物

  • UK CropNet:英国农作物植物生物信息网络。
  • INE:水稻基因数据库。
  • NCGR:我国水稻基因组计划针对水稻的籼稻亚种。
  • TIGR/rice:美国TIGR研究所维护着几个与水稻基因组有关的数据库,包括基因组注释库、重复序列库,以及基因索引。
  • RiceGenes:美国康奈尔大学的水稻基因组数据库。
  • GrainGenes:美国农业部和国家农业图书馆的植物基因组计划支持的麦、燕麦和甘蔗遗传数据库。
  • riceweb:关于世界范围的水稻生产和市场等情况
  • WHEAT:小麦基因图谱数据库。
  • KOMUGI:日本小麦网。是由6所大学和研究所联合维护。
  • MaizeDB:玉米基因组数据库。
  • ZmDB:玉米基因组数据库。
  • ILDIS国际豆科植物数据库和信息服务。
  • 豆类基因图谱
  • 豆科苜蓿属植物:MGI,NCGR和Samuel Roberts Noble基金会联合开展的豆科苜蓿属植物Medicago truncatula的基因组研究,在2000年4月已经提交15000多条。
  • cottonDB:美国南方平原农业研究中心所维护的棉花数据库。
  • TreeGenes:树木遗传图谱数据库。

拟南芥基因组数据库

  • DatA:拟南芥基因组注释库。
  • TAIR:拟南芥信息资源。
  • AGR:拟南芥基因组资源。
  • TIGR-AT:TIGR研究所的似南芥EST和基因序列数据库。

第三大类:按照功能领域来分
序列比对

  • Blast:Blast系列
  • EBI集合:多序列比对
细胞器数据库
基因表达数据库

  • Flyview:果蝇基因表达数据库。
  • Flybrain:果蝇神经系统图谱和数据库。
  • NEXTDB:线虫基因表达模式数据库。
  • BodyMap:人类和家鼠基因表达数据库。
  • Axeldb:非洲爪蟾基因表达数据库。
  • TRIPLES:酵母基因功能数据库,设在耶鲁大学医学院的基因组分析中心。
  • MGEIR:集成的家鼠基因表达信息资源。
  • GXD:家鼠基因表达数据库。
  • EpoDB:脊椎动物红细胞生成基因表达分析数据库。
  • KidneyDB:肾脏发育数据库。
  • toothExp:牙齿基因表达数据库。
基因突变、病理和免疫数据库

  • HGMD:人类基因突变数据库,可用于预测基因疾病。
  • Marfan:人类FBN1基因突变数据库及分析软件。
  • Collagen人类胶原数据库。
  • 人类PAX2等位基因变异数据库。
  • 人类PAX6等位基因突变数据库。
  • Androgen:雄激素受体突变数据库,包含与男性性器官发育不良、前列腺癌等有关图谱,密度、频度以及基因型和表现型关联数据。
  • ALFRED:这是由耶鲁大学K.K.Kidd实验室维护的一个针对人口多样性和DNA多态性的等位基因数据库。
  • KMDB:由日本庆应义塾大学医学院建立的一组与人类疾病有关的基因突变数据库
  • KMeyeDB人类疾病和眼病基因突变人类心脏病基因突变数据库。
  • KMearDB:人类耳病基因突变数据库。
  • KMbrainDB:人类脑病基因突变数据库。
  • KMcancerDB:人类癌症基因突变数据库。
  • OMIA:是一大批动物的孟德尔遗传、疾病、基因型和表现型的数据库。
  • Atlas:法国建立的针对肿瘤学和血液学的遗传与细胞遗传交互数据库。
  • HAMSTeRS:凝血因子VIII结构和突变位点数据库。
  • HaemB:B型血友病凝血因子IX点突变和短插入或删除序列的数据库。
  • TTMD:转基因动物和靶突变数据库。
  • FIMM:功能分子免疫学数据库。
  • MTB:家鼠肿瘤生物学数据库。
  • BCGD:人类乳腺癌基因数据库。
  • PAH:是导致人类苯丙酮尿症的苯丙氨酸羟化酶特异位点数据库。
  • CFTR:囊性纤维变跨膜调控子突变数据库。
  • NRR:核受体资源计划,包括糖类皮酯激素、矿质肾上腺皮质激素、甲状腺激素、维生素D受体、类固醇受体等信息的数据库。
  • IMGT:1989年建立的国际免疫遗传学数据库。
  • HIG:Anthony Nolan 骨髓和白血病基金会的人类白细胞抗体HLA住处30年前由E.A.Kabat建立的具有免疫学意义的蛋白质序列数据库。
  • PEDB:前列腺表达数据库。
  • HIV:艾滋病分子免疫学数据库。
代谢途径和细胞调控数据库

  • WIT:是美国阿贡国家实验室的一个集成的重构代谢途径和模型的系统。
  • MPW:代谢途径数据库,是EMP库的一个子集。
  • PathDB:代谢途径数据库。
  • KEGG:京都基因与基因组百科全书,它包含核酸分子、蛋白质序列、基因表达、基因组图谱、代谢途径图等。
  • SMILES:是一个辅助性数据库,它搜集与代谢途径有关的化合物名称。
  • LIGAND:酶反应化学数据库,由日本京都大学化学研究所维护。
  • CSNDB:细胞中信号网络的数据库。
  • Biocatalysis/Biodegradation:生物催化和生物降解数据库。
基因组信息分析
蛋白质组学相关信息分析
SWISS-2DPAGESIENA-2DPAGEHuman 2D-PAGE DatabasesPROSITE
PRINTSPfamBlocksSWISS-PROT:蛋白质序列库 。

核酸序列的预测分析

生物医学文献数据库

  • MEDLINE:美国国家医学图书馆的文献摘要库,反映美国及其他国家3800多种医学和生物期刊的作者摘要和引用情况。最为方便的查询MEDLINE的方式,是通过NCBI的PubMed服务。
  • SeqAnalRef:A.Bairoch个人维护的有关序列分析的文献目录。
  • SCI:设在美国费城的科学信息研究所所提供的文献引用情况的检索服务。
  • CancerWeb:癌症网页。
  • HUMAT:人体解剖学数据库。
  • KeyNet:按生物序列功能组织的基因和蛋白质名称关键字库。
  • BioABACUS:生物学与生物技术以及计算机科学缩写字表。
推荐阅读:
我要生物信息学系列集锦(目前已更新20多篇)
生信常用干湿实验原理汇总(涵盖大部分测序)
我在知乎学生信专栏持续更新中~
还是那句话,觉得写的好给个三连,觉得写的不好就当我没说~
回复 支持 反对

使用道具 举报

发表于 2025-5-30 17:38 | 显示全部楼层
来个详细的啊
蛋白质组学及蛋白质鉴定常用的网站和数据库
蛋白质数据库
1.UniProt (The Universal Protein Resource)
网址:http://www.uniprot.org/
http://www.ebi.ac.uk/uniprot/
简介:由EBI(欧洲生物信息研究所)、PIR(蛋白信息资源)和SIB(瑞士生物信息研究所)合作建立而成,提供详细的蛋白质序列、功能信息,如蛋白质功能描述、结构域结构、转录后修饰、修饰位点、变异度、二级结构、三级结构等,同时提供其他数据库,包括序列数据库、三维结构数据库、2-D凝聚电泳数据库、蛋白质家族数据库的相应链接。
2.PIR(Protein Information Resource)
网址:http://pir.georgetown.edu/
简介:致力于提供及时的、高质量、最广泛的注释,其下的数据库有iProClass、PIRSF、PIR-PSD、PIR-NREF、UniPort,与90多个生物数据库(蛋白家族、蛋白质功能、蛋白质网络、蛋白质互作、基因组等数据库)存在着交叉应用。
3.BRENDA(enzyme database)
网址:http://www.brenda-enzymes.org
简介:酶数据库,提供酶的分类、命名法、生化反应、专一性、结构、细胞定位、提取方法、文献、应用与改造及相关疾病的数据。
4.CORUM(collection of experimentally verified mammalian protein complexes)
网址:http://mips.gsf.de/genre/proj/corum/index.html
简介:哺乳动物蛋白复合物数据库,提供的数据包括蛋白复合物名称、亚基、功能、相关文献等
5.CyBase(cyclic protein database)
网址:http://research1t.imb.uq.edu.au/cybase
简介:环状蛋白数据库,提供环状蛋白的序列、结构等数据,提供环化蛋白预测服务。
6.DB-PABP
网址:http://pabp.bcf.ku.edu/DB_PABP/
简介:聚阴离子结合蛋白数据库。聚阴离子结合蛋白与聚阴离子的互作在胞内定位、运输、蛋白质折叠等生命过程中起重要作用,此外许多与神经衰退疾病相关的蛋白质均为聚阴离子结合蛋白。该数据库提供已被鉴定的聚阴离子结合蛋白的数据,与NCBI蛋白数据库存在交叉应用。
7.IUPHAR-DB
网址:http://www.iuphar-db.org
简介:G蛋白偶联受体、离子通道数据库。提供这些蛋白的基因、功能、结构、配体、表达图谱、信号转导机制、多样性等数据。
8.GLIDA
网址:http://pharminfo.pharm.kyoto-u.ac.jp/services/glida/
简介:G蛋白偶联受体-配体数据库,提供G蛋白偶联受体-配体互作数据、配体数据、G蛋白偶联受体数据、同源受体关系网、保守识别区,为新药发现提供了支持。
9.LOCATE
网址:http://locate.imb.uq.edu.au/
简介:哺乳动物蛋白质亚细胞定位数据库
10.InterPro
网址:http://www.ebi.ac.uk/interpro/
简介:蛋白质综合数据库,从大量的数据库中整合而成的包括蛋白质结构域、蛋白质家族、功能位点等信息的数据库。
11.OKCAM
网址:http://okcam.cbi.pku.edu.cn
简介:人体细胞粘附分子数据库。
蛋白质组数据库
1.GELBANK
网址:http://gelbank.anl.gov
简介:提供全基因组的二维凝胶电泳图谱,搜集了已知基因组信息生物的蛋白质组二维凝胶电泳图。可通过描述相对分子质量、等电点和蛋白质序列信息进行快速检索。
2.SWISS-2DPAGE
网址:http://www.expasy.org/ch2d/
简介:提供人类、小鼠、大肠杆菌、酿酒酵母、盘基网柄菌的2D-PAGE参考图。
3.SysPIMP(Systematical Platform for Identifying Mutated Proteins)
网址:http://pimp.starflr.info/
简介:通过质谱技术建立的蛋白质突变数据库。当蛋白质某一氨基酸残基发生改变时,其质谱图也会发生改变,通过蛋白质质谱图的改变,检测与疾病相关的突变。
4.Sys-BodyFluid
网址:http://www.biosino.org/bodyfluid/
简介:人体体液蛋白组研究数据库。提供人体各种体液的蛋白质组数据,包括血浆/血清、尿液、乳汁、泪、汗液、唾液、骨髓液、脑脊液、胃液等。
5.BloodExpress
网址:http://hscl.cimr.cam.ac.uk/bloodexpress/
简介:小鼠造血过程基因表达数据库
6.CentrosomeDB(human centrosomal proteins database)
网址:http://centrosome.dacya.ucm.es
简介:人体中心体蛋白数据库
7.ConsensusPathDB
网址:http://cpdb.molgen.mpg.de
简介:人类功能作用网络数据库,与多个数据库有交叉应用,提供蛋白质互作、生化反应、基因调控等作用网数据。
8.Proteome Analysis Database
网址:http://www.ebiac.uk.proteome/
简介:蛋白质组分析数据库
9.HPRD(Human Protein Reference Database)
网址:http://www.hprd.org/
简介:人体蛋白文献数据库
10.NOPdb
网址:http://www.lamondlab.com/NOPdb3.0/
简介:核仁蛋白组数据库
11.EndoNet
网址:http://endonet.bioinf.med.uni-goettingen.de/
简介:细胞通讯网络数据库,提供激素、激素受体相关信息
蛋白质互作、蛋白质网络数据库
1.3DID(3D interacting domains)
网址:http://3did.irbbarcelona.org
http://gatealoy.pcb.ub.es/3did/
简介:搜集3D结构已知的蛋白质的互作信息,可通过结构域名称、基序名称、蛋白质序列、GO编码、PDB ID、Pfam编码进行检索。
2.DOMINE
网址:http://domine.utdallas.edu
简介:结构域互作数据库。
3.PiSite(Database of Protein interaction sites)
网址:http://pisite.hgc.jp
简介:以PDB为基础,在蛋白质序列中搜寻互作位点。
4.Binding MOAD
网址:http://www.BindingMOAD.org
简介:致力于提供蛋白质-配体晶体结构数据信息。提供结构已知的蛋白质的相关配体,并附有详细注释,同时提供由实验而得的亲和力数据。
5.Phospho.ELM
网址:http://phospho.elm.eu.org
简介:蛋白质磷酸化位点数据库
6.SuperSite
网址:http://bioinformatics.charite.de/supersite
简介:蛋白质中代谢物、药物结合位点数据库,提供结合机制、识别机制、保守结合位点等信息。
7.STITCH
网址:http://stitch.embl.de/
简介:蛋白质-化合物作用网数据库
8.Reactome
网址:http://www.reactome.org
简介:人体生命活动路径与过程数据库,提供生化过程网络图,并对参与其中的蛋白质分子有详细注解,与其他数据库如UniPort、KEGG、OMIM等建立了广泛的交叉应用。
9.PID(Pathway Interaction Database)
网址:http://pid.nci.nih.gov
简介:由NCI和Nature共同创立,提供已知的人体细胞信号转导、调节活动及主要细胞生命过的蛋白质路径网,可通过输入某个分子名或代谢过程名称进行查询。
10.UniHI(Unified Human Interactome database)
网址:http://www.unihi.org
简介:人体蛋白-蛋白相互作用数据库,可根据蛋白质名称、代谢路径等进行查询。
11.VirHostNet
网址:http://pbildb1.univ-lyon1.fr/virhostnet/index.php
简介:病毒-宿主分子互作网数据库,提供病毒-宿主蛋白质互作信息及这些蛋白质的相关注释。可通过输入基因、蛋白质、路径等关键词进行查询。
12.Bionemo(molecular information on biodegradation metabolism)
网址:http://bionemo.bioinfo.cnio.es
简介:搜集与生物降解代谢相关的蛋白质、基因数据,包括蛋白质序列、结构域、结构;基因序列、调控元件、转录单元等信息。除此之外还包括生物降解的代谢路径图、相关生化反应等。
13.PMAP
网址:http://www.proteolysis.org
简介:蛋白质水解路径数据库
蛋白质三维结构数据库
1.PDB(Protein Data Bank)
网址:http://www.rcsb.org/pdb
简介:生物大分子结构数据库,提供蛋白质、核酸等生物大分子的三维结构数据、序列详细信息、生化性质等。
2. SARST (Structural similarity search Aided by Ramachandran Sequential Transformation)
网址:http://sarst.life.nthu.edu.tw/
简介:高效的蛋白质结构比对数据库
蛋白质基序数据库
1. CDD(Conserved Domain Database)
网址:http://www.ncbi.nlm.nih.gov/Structure/cdd/cdd.shtml
简介:蛋白质的功能与其结构密切相关,一个蛋白质的保守结构域在一定程度上体现了该蛋白质的功能。CDD,蛋白质保守结构域数据库,收集了大量保守结构域序列信息和蛋白质序列信息。检索者通过CD-Search服务,可获得蛋白质序列中所含的保守结构域信息,从而分析、预测该蛋白质的功能。
2.Blocks
网址:http://blocks.fhcrc.org
简介:蛋白家族保守区对比数据库
3.CPDB(database of circular permutation in proteins)
网址:http://sarst.life.nthu.edu.tw/cpdb
简介:蛋白质环形序列重组基序数据库。蛋白质的环形序列重组(Circular permutation, or CP)可看作是原来的N与C端被接在一起,然后在另一处产生新开口。 虽然当前已有很多知名的蛋白质家族被发现有CP成员,而且也有研究指出蛋白质结构资料库中可能存在着不少CP实例,高效率的CP搜寻工具却很罕见。CPSARST提供了一套有效的CP搜寻工具。
4.MegaMotifbase
网址:http://caps.ncbs.res.in/MegaMotifbase/index.html
简介:蛋白质基序家族、超家族数据库,提供已知基序的3D定位图、转角距等数据。
5.Minimotif Miner
网址:http://mnm.engr.uconn.edu
简介:蛋白质基序检测数据库,提供在蛋白质序列中寻找基序的服务。
6.Pfam
网址:http://www.sanger.ac.uk/Software/Pfam
简介:提供多序列比对服务和并提供共同的蛋白质结构域的隐马尔可夫模型。
预测类数据
1.InterPreTS(Interaction Prediction through Tertiary Structure)
网址:http://www.russell.embl.de/cgi-bin/interprets2
简介:提供通过三级结构预测蛋白质相互作用的服务,可输入两个蛋白质的序列信息进行查询。
2.Predictome
网址:http://predictome.bu.edu
简介:预测蛋白质间功能关系的数据库。这些蛋白质间的关系是基于将3种计算机预测法,即染色体相邻法、系统发育谱法、结构域融合法应用与44个基因组上而得到的。
蛋白鉴定类数据库
1. Contaminants
当我们搜索单一物种分类数据库时,记得养成一个好习惯,就是同时选择Contaminants数据库进行匹配,因为污染总是很难避免的!这类数据库中包含常见的污染蛋白如keratins、BSA和 trypsin,帮助我们把需要鉴定的目标蛋白与实验中污染进来的蛋白进行区分。目前有两个组织提供此类数据库下载:
Max Planck Institute of Biochemistry, Martinsried,提供了一套来自多种来源,含有247个蛋白的数据库。
下载方式:
http://maxquant.org/contaminants.zip
Tips:不要在网页浏览器里打开哦,因为很可能会显示网址无效,直接找个下载工具下载即可,比如把链接拷到QQ里,启动QQ旋风下载助手就可以下载了。
Global Proteome Machine Organization common Repository of Adventitious Proteins 提供了一套包含116个来自于Swiss-Prot的污染蛋白库 。
下载方式:http://ftp.thegpm.org/fasta/cRAP/crap.fasta
2. EMBL EST
由EMBL维护的EST Fasta 数据库,”single-pass” cDNA 序列,或表达序列标签 Expressed Sequence Tags。该数据库包含十个分类:1)ENV: Environmental Samples; 2)FUN: Fungi;3)HUM: Human;4)INV: Invertebrates;5)MAM: Other Mammals;6)MUS: Musmusculus;7)PLN: Plants;8)PRO: Prokaryotes;9)ROD: Rodents;10)VRT: Other Vertebrates下载方式单一分类的Fasta文件可以从EBI FTP 服务器上下载。比如FTP上啮齿类动物序列库的压缩文件名就是: em_rel_est_rod.gz,而真菌的是em_rel_est_fun.gz。物种分类一些比较友好的商业软件,比如Mascot,会将所有分类信息在后台进行自动更新下载。如果你用的软件没有这个功能,那就要手动下载,然后根据软件的操作要求,比如解压缩到某个Taxonomy子目录。
FASTA文件库 ftp://ftp.ebi.ac.uk/pub/databases/embl/misc/acc_to_taxid.mapping.txt.gz
物种分类信息 ftp://ftp.ncbi.nlm.nih.gov/pub/taxonomy/taxdump.tar.gz
Unigene索引:NCBI的 UniGene的索引由GenBank序列自动分割成非冗余的以基因为单位的簇。如果使用UniGene索引,EST数据库的搜库结果会按照基因家族进行分类,而不会仅仅以原始的EST索引号展示。
3. NCBI EST
大名鼎鼎的NCBI (National Center for Biotechnology Information) 提供三个不同的 EST 数据库,同样也包含GenBank EST库中的”single-pass” cDNA 序列,或 Expressed Sequence Tags。三个 EST 数据库分别是: human、mouse和 others。目前的版本,压缩过的EST_others 文件有11GB大小,而解压后有40 GB。小伙伴们需要注意,像这么大的数据库,32位操作系统是无法处理的,而必须使用64位系统配合足够大的内存。NCBI目前依然没有计划分割EST_others数据库,因此小编觉得比较实用的还是EMBL EST库。下载方式:访问 ftp://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/est_others.gz或对应的其他名称下载相应的数据库。物种分类:以Mascot为例,对于 EST_others,在数据库配置时选择 “dbEST FASTA using GI2TAXID”。Mascot需要更新以下文件来构建索引,如果手动下载,同样将它们解压到指定的Taxonomy目录:ftp://ftp.ncbi.nlm.nih.gov/pub/taxonomy/gi_taxid_nucl.dmp.gzftp://ftp.ncbi.nlm.nih.gov/pub/taxonomy/taxdump.tar.gz
4. NCBInr
Nr数据库也是由NCBI (National Center for Biotechnology Information) 维护。它包含来自于GenBank CDS translations、PDB、Swiss-Prot、PIR 和PRF的非等同序列。NCBInr的特点在于其更新速度非常快,且涵盖度很高。下载方式:ftp://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/nr.gz由于广受欢迎,一些搜索软件直接做了自动更新功能,比如Mascot 2.3版本及以上的,初始配置成功以后就不用管了,软件会自动去check并且在本地更新这个数据库。物种分类:以Mascot为例,在联网更新NCBInr时会自动进行分类索引库下载,并应用”NCBI nr FASTA using GI2TAXID”的格式。
5. SwissProt
Swiss-Prot (reviewed) 是一个高质量人工注释且非冗余的蛋白序列数据库。其中包含各类实验结果、计算得到的特征信息和文献信息等。UniProtKB中85%的序列是由EMBL-Bank/GenBank/DDBJ 公共核酸数据库中的coding sequences (CDS) 序列翻译而来。 而UniProtKB 本身是European Bioinformatics Institute、Swiss Institute of Bioinformatics 和 Protein Information Resource合作成立。由于其高质量,它被很多人列为首选数据库之一。下载方式:Expasy: ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/knowledgebase/complete/EBI: ftp://ftp.ebi.ac.uk/pub/databases/uniprot/knowledgebase其中:Version info: reldate.txtSwissProt Fasta file: uniprot_sprot.fasta.gzSwissProt Dat file: uniprot_sprot.dat.gz物种分类:以Mascot为例,物种分类会自动后台更新,并对应格式: “SwissProt FASTA”。
6. Trembl
TrEMBL (unreviewwed) 计算辅助预测注释信息和功能信息的蛋白序列,而都还没经过人工注释。下载方式,物种分类格式等信息均和Swissprot一致,相关文件为:TrEMBL Fasta file: uniprot_trembl.fasta.gzTrEMBL Dat file: uniprot_trembl.dat.gz
7. UniRefUniRef (UniProt Reference Clusters)
从UniProtKB(含isoform序列信息)提供的序列进行聚类。所用的种子序列是各簇中最长的序列。UniRef包含三个子库,按照序列相似度分别为UniRef100, UniRef90和UniRef50。UniRef100无相同序列,而UniRef90和UniRef50则是非冗余的,聚类相似度90%和50%。基于质谱的序列搜索都要求序列的绝对匹配,因此UniRef100适用于蛋白质组学质谱搜库。下载方式:PIR: ftp://ftp.uniprot.org/pub/databases/uniprot/uniref/uniref100/EBI: ftp://ftp.ebi.ac.uk/pub/databases/uniprot/uniref/uniref100/Expasy: ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/uniref/uniref100/包含文件:Version info: uniref100.release_noteFasta file: uniref100.fasta.gz物种分类:UniRef采用以下索引库: ftp://ftp.ncbi.nlm.nih.gov/pub/taxonomy/taxdump.tar.gz
8. Uniprot
UniProt全蛋白质组数据库包含多个模式生物的全基因组蛋白表达信息。其中收集的Reference Proteome包含多个研究比较透彻或者生物研究中比较受关注的物种的最全面的蛋白质组序列信息。下载方式:相关物种的序列数据库可以访问http://www.uniprot.org搜索Taxonomy,并点击有关键词”Complete proteome”的物种分类,或者直接使用关键词如: (e.g.taxonomy:"Oryza sativa (Rice) [4530]" keyword:"complete proteome" in UniProtKB )可以搜索到人类基因组的Ref Proteome。搜索结果中点击Download,并选择格式 FASTA(Canonical)
9. 私有数据库
蛋白质序列数据库FASTA是一个非常流行的标准格式,而且要求非常简单。因此实验室自己收集整理的序列都可以格式化成FASTA并用于搜库。>Title text
SEQUENCESEQUENCESEQUENCESEQUENCESEQUENCESEQUENCE
SEQUENCESEQUENCESEQUENCESEQUENCESEQUENCESEQUENCE
SEQUENCESEQUENCESEQUENCE
> Next title
NEXTSEQUENCE …以上是一个标准的例子,> 之后是序列ID号和描述信息,然后紧跟整个序列信息,第二个蛋白重新以>开头即可。下面是一些ID和描述信息的例子。>gi|6|bgi|Contig1.seq_7|2412 3299 [+3 L= 888] [Delayed
> 20021010.2.1   1112073F09.y1 1112091F10.y1 1112073F0
> IPI:IPI00140097.1|REFSEQ_XP:XP_168061 Tax_Id=9606
> CCRB cytochrome c [validated] – rabbit
> gi|129249|sp|P02820|OSTC_BOVIN Osteocalcin precursor
> ”ORF5 | start 2178-1309 | frame -1 | length=870 |常用的搜库软件通常需要用户提供一个名称比较统一、符合一定规范的信息,才能将名称中ID和描述信息进行较好地分离。具体的操作需要参考不同软件的操作手册说明。

原文这里啊 蛋白质组学及蛋白质鉴定常用的网站和数据库 | BioEngX生化工程实验室
回复 支持 反对

使用道具 举报

发表于 2025-5-30 17:38 | 显示全部楼层
好吧,想当初我在生物信息学领域还是一个小白的时候,我也曾像题主这样寻求过网上资源。
首先回答软件方面,我也曾问过带我的博士:为什么想用一个软件,找半天都只有作者自己写的简略的英文readme,每次都要自己摸索老半天,都没有其他人分享的实际软件使用体验,像百度经验那样亲民就最好了。但事实上的确没有,因为生物信息学领域的各种软件更新太快,像blast系列,bowtie,tophat等软件,更新之后用法完全不一样,教程也得更新,像bwa,samtools等更新功能的,教程一般也没人及时更新,还不如自己看作者的readme,慢慢探索咯。生物信息学常见领域,如基因组,外显子组,转录组,等都有人专门收集软件集,比如:
最全面的转录组研究软件收集 还有
NGS数据比对工具持续收集 ,当然我这也是转载的国外的,一般来说,你想学软件,学会五六十个就差不多了,看看各个领域的关键词排名最高的综述一般都会讲的很全,任何一个软件说穿了就是准备好输入文件,配置好参数,然后解析它的输出文件。等你用到一定程度,很容易总结出规则,以后用任何软件都不需要再看中文的介绍了,直接就用,错了就Google,非常好使~!
那么,再来说说数据库吧,这个实在是数不胜数了,
http://www.genecards.org/cgi-bin/carddisp.pl?gene=ALB 你进入这个页面,看到里面的所以链接都是一个数据库, 先不说基因的特征,仅仅是对一个基因进行命名就有一百多个国际组织搞些不同的名字,有的把TP53叫做7157(entrez ID),有的把它叫做ENSG00000141510(ensembl ID),其它好多ID我都叫不上名字,但是你记住出名的那几个就好了,所以你必须熟悉非常出名的那几个数据库,就是NCBI,ensembl,UCSC,其它的数据库主要是为了解释生物大分子的,也有跟疾病特异性数据库(比如:糖尿病),还有物种特异性数据库(大多数模式生物都有),但是除非你特定的要研究某个领域,否则你很难接触那么多数据库,一般也就是几个实验室自己在维护。
接下来是重点啦!
网上的学习资源:
先说点中文的,毕竟一般人也只有精力看这个了,首推就是北大的公开课啦(
MOOC课程_生物信息学: 导论与方法),然后你可以看看药明康德的陈巍学基因(
优酷网-中国第一视频网,提供视频播放,视频发布,视频搜索) 了解一些测序常识,接着你可以看看测序中国的一个公开课,最后你还可以关注很多生物信息学的微信公众号(这个非常重要,因为他们为了吸引关注,通常会放出很多干货!!!)
好了,接下来说重点,毕竟国内生物信息学起步很晚,所以网上资源肯定大多数英文的!
首推宾夕法尼亚州立大学-新一代测序技术数据分析-英语-生信课件加优酷视频
然后是德国自由大学生物信息学,课件可以自行下载
接着是美国明尼苏达大学生信课件,可以下载
还有NHGRI Current Topics in Genome Analysis 2014里面几百个ppt关于生物信息学研究热点
还有斯坦福大学-计算生物学-2011课程ppt,它专门课程专门把生物信息分成了6个topic,推荐了一百多篇文献阅读,均可下载!(
用wget批量下载需要认证的网页或者ftp站点里面的pdf文档),还有一个斯坦福大学-遗传生物信息课程-2009也很不错
还可以关注很多国外的生物信息学会议,影响很大的那种,一般都会公开ppt,都是很牛的导师在讲(
几个国外出名的跟生物信息学相关的会议
也可以关注一些生物信息学出名的讲师(
推荐5个生物信息学领域的教授
安德森癌症研究中心有一个芯片数据课程,也挺好的-anderson-基因芯片课程
还有二十多个生物信息学课程(都是各个大学的,比如MIT什么的,我自己都没看,就不推荐给你啦!)
晕,本来准备把我写的生物信息学资源持续收集通过有道云笔记分享给你的,结果!!!!!!!居然不小心给删除了,唉,真倒霉,几百个资源就那么没了!
反正我也是成长的过程中随便收集的,我相信你学习的过程中也能收集到很多好资料的,希望你也可以分享给后来者,让他们少走弯路!O(∩_∩)O谢谢
回复 支持 反对

使用道具 举报

发表于 2025-5-30 17:39 | 显示全部楼层
谢邀。
资源太多了,你要做的是针对自己的研究课题,查文献/Google,看别人用的是什么工具/数据。所以我下面要谈的也只是我自己用到过的而已。另外Unix/Linux和Perl/BioPerl,R/BioConductor之类的更都是现用现查的,这里就不提了。

1.综合性数据库 - 几乎每天都要用的


  • NCBI

    • PubMed- 什么?你不读文献?
    • GenBank - 所有生物序列都"应该"提交到这里。只是"应该",是因为高通量测序的发展让这个事情不太现实,就有了下面的SRA干了部分的活。
    • GEO (Gene Expression Omnibus / SRA (Short Read Archive) - GEO最初建立主要是用于收集microarray数据的。近来以 RNAseq 为首的各类 *seq 高通量数据大举进占。原本专门建立来存储这些数据的SRA反倒成了GEO的附属。任何有点象样的基因组数据的文章,都应该有GEO Accession Number的"GSExxxx"字样。
    • BLAST - 学过生物信息的没有不知道这个的吧。新拿到的序列是什么,直接来BLAST一下。设计了引物想看有没有非特异扩增,也是一个好去处。
    • dbSNP / HapMap(不是NCBI的,但跟dbSNP关系密切) - 收集单核甘酸多态,和其他小范围核苷酸的变异/多态的数据库。它们是用来做连锁分析/关联分析的理想遗传标记。
    • OMIM - 人类基因与遗传疾病的关系。

  • EBI - 用的比较多的就只是Pfam(蛋白质家族)。其他不熟悉,就不细说了。
2.Genome Browser - 收集各类基因组范围数据的地方


  • UCSC - 老资格的Genome Browser,加上很多小工具(BLAT,bedtools)能让人比较方便地利用它的基因组数据,或在它的框架下可视化。值得一提的是全站惯用的0-based start coordinate应该坑过不少人,千万要小心。
  • EnsEMBL (包括EnsEMBL Bacteria / EnsEMBL Fungi / Gramene,还有BioMart勉强也算吧) - 以转录本(Transcript)为中心的基因组数据库。是BioPerl的创始人Ewan Birney搞起来的,自然API非常完善,想把整个数据库搬到自己机子上也非常容易(只要硬盘够大)。近来数据类型越来越多,搞得有点臃肿了,反而不如UCSC简洁。
3.衡量/比较不同生物信息学软件的表现 - 不服跑个分? 题外话,大家似乎不太热衷这个,理由大概是不同工具的优势不一样,用同一组数据来跑分有失公允。姑勿论这个原因有没有道理,至少说明用户选用不同的工具应该优先考虑要研究的生物学问题,跑分只能做部分参考。

  • GAGE (Genome Assembly Gold-standard Evaluations) - 高通量测序结果用于组装基因组,看谁组装出来的更正确。
  • CASP (Critical Assessment of Protein Structure Prediction) / CAFASP - 谁预测蛋白质结构更准?
  • CAPRI (Critical Assessment of PRediction of Interactions) - 预测蛋白质相互作用/结合,哪家强?
  • CAGI (Critical Assessment of Genome Interpretation) - 预测基因组上的变异会对生物的表型产生什么影响,看谁的预测更准。
  • BAliBASE / BRAliBase - 多序列联配(Multiple Sequence Alignment)的准确性
  • DREAM challenges (http://dreamchallenges.org/) - 多种不同生物信息学任务的比拼,吸引我注意的是比赛预测选择性剪接(Alternative Splicing)的那次。
  • http://lh3lh3.users.sourceforge.net/alnROC.shtml - 各种把高通量测序结果比对到基因组上的工具的准确率比较(ROC curve)。虽然我相信他没有 bias,但是必须指出参赛者之一的Heng Li也是裁判。
4.模式生物的专门门户 - (这个页面的list更全:
Generic Model Organism Database)

  • PortEco - 大肠杆菌
  • SGD - 酵母
  • WormBase - 线虫
  • FlyBase - 果蝇
  • ZFIN - 斑马鱼
  • MGI - 小鼠
  • XenBase - 非洲爪蟾
5.各种Ontology/Pathway - 能让计算机读懂生物数据的“字典”

6.其他 - 只是个人感兴趣,没经过系统整理的东西
回复 支持 反对

使用道具 举报

发表于 2025-5-30 17:40 | 显示全部楼层
蟹妖。
生物信息学高度依赖于网络。实际上,你需要的几乎所有资源,都可以从网上下到。你需要关注你研究领域所需要的那些,而不是全部的资源。
我原来常用的:
NCBI:持有INSDC的节点。网站上有核酸、蛋白、基因名、基因组名等等的搜索工具,以及BLAST序列比对搜索工具,PUBMED文献数据库,Taxonomy数据,COG蛋白家族库等等。FTP可以下到它全部的数据库,BLAST的单机程序,以及各种工具程序。
EBI:和NCBI类似,欧洲搞的对等物。感觉EBI网站比NCBI要清楚简洁。另外EBI网站整合了更多的工具,比如多序列比对。
Uniprot:全蛋白库。NCBI和EBI的蛋白库来源于此。目前包括两部分:SwissProt是人工校对过的,TrEMBL是自动校对的。
Pfam:蛋白家族库。可以使用配套的HMMER进行搜索。比BLAST能找到更远缘的东西,而且找到的东西是结构域。
Rfam:RNA的,类似Pfam。
RDP:16S rRNA库。除了序列,它还有一个基于K-mer naive Bayesian model的rdp classifier,可以对输入序列进行物种分类,效率和准确性较直接使用BLAST更高。
GreenGenes:也是16S库,不过它只收集比较全的序列。它提供了一个16S的标准化比对,并基于这个东西搞了个物种分类工具。
EMBOSS:一个工具包,提供了几百个进行序列操作的工具。
BioPerl、BioPython:Perl和Python的生物学模块。
R:类似matlab的语言,有一大堆的生物学包。
SOAP:华大基因搞的高通量测序工具包,有de-novo拼接的,有mapping的,还有一些后续分析的。
bowtie:一个用于序列mapping的软件。
samtools:用于操纵、分析高通量序列mapping的结果。功能非常灵活,但有点复杂。
fastx toolkit:用来操纵高通量测序序列的工具包。
这种东西浩如烟海。想到了再补充。
最后几个广告,我搞的一些工具:
HTQC:类似fastx toolkit,设计不太一样。实际上,如果当初知道有fastx toolkit,也许我就不搞这个了。。。
TCRklass:专门用于分析TCR高通量测序的工具,至少在我发Paper的时候,比所有的已有程序的准确性都要好。
GenoEye:基因组元件绘图库,用C++搞的,提供了Perl接口,用Cairo做绘图底层。
回复 支持 反对

使用道具 举报

发表回复

您需要登录后才可以回帖 登录 | 立即注册 微信登录 手机动态码快速登录

本版积分规则

关闭

官方推荐 上一条 /3 下一条

快速回复 返回列表 客服中心 搜索 官方QQ群 洽谈合作
快速回复返回顶部 返回列表