关联分析根据显著性P值筛选出最有可能影响某一性状的标记,挖掘与性状变异相关的基因。按照研究策略的不同,关联分析可分为基于候选基因的关联分析(candidate gene-based association analysis)和全基因组关联分析(genome-wide association study; GWAS)两种。基于候选基因的关联分析是指在一定的信息[同源功能基因、候选基因或数量性状位点(QTL)定位等]基础上,在自然群体中检测某基因或者染色体片段与目标性状的相关性,找出功能变异位点。全基因组关联分析是指利用全基因组分布的多态性位点,通过统计分析找出控制目标性状的QTL位置,确定其效应大小。
关联分析的检测效率受到目标性状遗传效应、群体结构、群体大小、标记密度和LD衰减速率等多种因素的影响。选择群体要有广泛的遗传变异才能保证关联分析的准确性,而群体大小则影响到群体遗传变异是否有足够的代表性,一般要求数百个以上。高密度(万个以上)的单核苷酸多态性(single nucleotide polymorphism; SNP)分子标记可以准确指示群体基因组的变异。LD决定关联分析的精度和所选用标记的数量、密度以及实验方案。因此,如果LD程度高,所用的标记数会比较少,检测的精度低;反之,如果LD程度低,就需要大量的SNP标记,相应的检测精度也提高。LD衰减受作物的生殖方式影响较大,研究表明自花授粉作物高粱中LD长度为50~100千碱基,水稻中LD长度70~150千碱基,而异花授粉的玉米中LD长度仅为2.5千碱基。LD衰减较快就需要更多的标记来保证检测效率。严格意义上讲,要保证每个LD区内至少有一个分子标记,这样才不至于在关联分析中遗漏潜在的显著性位点。分析表明人类进行全基因组LD分析时大约需要70000个标记,拟南芥需要6000个标记,高粱需要个100000个标记。对玉米这种基因组较大,LD衰减较快的物种至少需要一千万个标记才能覆盖其23亿碱基的基因组。
关联分析的优势在于:①利用自然群体,不需要组配分离群体,省时省力。②检测范围大,可同时检测多个等位基因。③检测精度高,利用广泛的自然变异和染色体重组,精度可达到单基因水平。但这些优势也反衬了关联分析的局限性:①自然群体的结构复杂,难以有效控制。②稀有等位基因难以检测。③检测广泛的自然重组需要等量的大量分子标记。
随着测序技术和芯片平台的迅猛发展,开发了海量的SNP标记,关联分析已经成为研究复杂数量性状的重要方法,在拟南芥、水稻、玉米、大豆、棉花等重要农作物中得到了广泛的应用,并取得了突破性进展。其中,玉米具有丰富的遗传多样性,连锁不平衡程度低,是关联分析的理想材料。据不完全统计,玉米领域已发表90多篇利用关联分析开展不同性状的遗传结构研究的论文。这些性状不仅包括农艺、产量、营养品质、抗旱等,还包括基因的表达量、基因的可变剪切、代谢物等。