关联指的是一个特定的等位基因或者遗传标记在具有特定表型的人群中出现的频率更高(或更低)。关联分析通常使用单核苷酸多态性(single nucleotide polymorphism)位点作为遗传标记,检测人群中遗传变异与表型差异之间的相关性。截至2016年11月,在人类基因组中已经鉴定出了1亿多个单核苷酸多态性位点。关联分析研究的表型包括疾病状态,连续性变量如骨密度或血糖水平,对环境刺激的反应如药物疗效或副作用。单核苷酸多态性位点在人类基因组上的广泛分布以及可研究表型的深度赋予了关联分析广阔的应用前景,如鉴定疾病易感基因、推动个性化用药等。
1996年,美国人类遗传学家N.里施[注]和K.R.梅里坎加斯[注]在《科学》杂志上发表的文章中指出,关联分析比连锁分析更容易达到检测弱效应的统计效力,使得研究风潮向关联分析转变。在研究疾病遗传组成的关联分析策略中,病例-对照研究是应用最广泛的。选择人群、性别及年龄等流行病学指标匹配的病例组与健康的对照组,检测特定遗传多态性的等位基因、基因型或单倍型是否相比健康对照更富集于患病群体中,如果存在富集,则提示致病位点与该遗传多态性位点处于连锁不平衡,或者该遗传多态性直接参与了疾病的发生。关联分析存在的问题是只能研究几个候选的染色体区域,而且被报道的关联在后续研究中的重复性不佳。随着技术的发展,国际人类基因组单体型图计划(International HapMap Project)完成,2005年第一篇全基因组关联分析的文章面世,标志了一个新时代的来临。