MIMIC 是重症医学数据库,是最常用的数据库之一,数据非常丰富,包含很多种变量。
MIMIC 包括 MIMIC-II、MIMIC-III、MIMIC-IV、eICU、PIC(儿科重症)、HIRID 这 6 个数据库,其中使用最多的是 MIMIC-III。
MIMIC-III 是由麻省理工学院计算生理学实验室发布的重症监护数据集,包含有将近数万条 ICU 住院记录,涉及到 ICU、CCU、创伤、心外、神内、新生儿等多个方面。
MIMIC 的使用需要在网页上进行申请,通过伦理考核后才可以获取该数据库的访问权限。一旦通过,数据下载就是免费的。
5、SEER 数据库
SEER 是一个肿瘤相关的数据库,由美国国立癌症研究所建立,是北美最具代表性的大型肿瘤登记注册中心,收集了大量医学相关的原始数据。
这个数据库的内容包括人口统计数据、患者个人信息、原发灶位置、肿瘤大小、肿瘤编码、治疗方案、死亡原因等等信息。
SEER 的数据获取方法与 MIMIC 类似,也是需要提交申请、审核通过以后才可以获得使用权限。通过申请以后,下载数据就是免费的。
6、Dryad 数据库
Dryad 是受美国国家科学基金会资助的一家非营利性组织,内容比较综合,储存了医学、生物学、生态学等领域的研究数据,向全球开放。
一些杂志鼓励投稿者在 Dryad 上传原始数据,截止到 2018 年 2 月,共有超过 600 种期刊与 Dryad 合作。
因此 Dryad 汇集了多种学科文章的数据,可免费下载进行二次挖掘,并且不需要提交申请。
但是这个数据库也存在一些弊端,比如有些数据拿到后比较乱、也可能不全,需要耐心进行整理后才可以使用。
7、BioLINCC 数据库
BioLINCC 是生物标本和数据采集信息中心,由美国国家心脏、肺和血液学研究所(NHLBI)建立,用于帮助科研人员更便捷地获取研究数据,同时提高项目转化率。
BioLINCC 包含了两类数据:一是 NHBLI 生物标本数据,由相关血液疾病部门进行管理;另一类是 NHBLI 临床研究数据,由相关心血管科学研究中心进行管理。
对于我们来说,临床研究数据用的比较多。这类数据主要来源于近 70 年来的流行病学研究和临床注册研究,囊括了来自 145 家中心数十万患者的数据。
临床注册研究的数据包括患者基线资料、中期随访信息、辅助研究以及预后资料(当然也包括实验室检查);流行病学研究数据包括在整个观察周期内获得的所有监测结果。
BioLINCC 数据库需要注册账号,需要申请,才能免费下载数据。在进行申请不同信息的时候,需要提交不同的书面材料和证明材料。
8、GHDx 数据库