该方法不需要假设相关的基因或染色体位置。通常是针对全基因组范围内存在的单核苷酸多态位点(single nucleotide polymorphism; SNP),利用病例-对照分析方法(case control study),建立疾病或某种性状与特定SNP或基因的关联。通常是基于“常见疾病-常见变异(common disease-common variant; CDCV)”的假说,即人群中存在的常见疾病或表型,在人群中存在某种常见的序列变异体。这些变异体除SNP外,还可以是拷贝数变异(copy number variation; CNV)。
GWAS的一个重要理论依据是连锁不平衡(linkage disequilibrium; LD),是指基因组中的遗传多态位点不是独立存在的,通常与周边的多态位点紧密关联,表型为非随机组合。在世代传递过程中,具有LD的等位基因倾向于一起传递给后代。因此将同一染色体区段中一起传递的等位基因称作单体型(haplotype)。每个单体型可以有代表性的SNP,称作标签SNP(tag SNP)。因此GWAS可以在全基因组范围内选择这些标签SNP进行关联分析。关联分析的结果可以是直接的或间接的。直接相关是指所关联的SNP直接位于某个基因位点上,间接相关的SNP是指存在于基因间的序列变异。GWAS的设计可以是针对一般人群或者基于家系的研究。如果是针对一般人群,要注意人群分层(population stratification)的现象。不同的任期由于遗传背景和社会发展史的不同,可因人群迁移、婚配情况、人口繁衍或战争、遗传漂变、基因突变等,造成不同人群中等位基因的频率存在明显差异,给GWAS带来假阳性或假阴性的结果。
传统的GWAS分为两个阶段。第一阶段是在相对小规模的人群对全基因组的SNP位点进行扫描,筛选出统计学上有显著差异的SNP。第二阶段是针对筛选的SNP在更大样本的独立人群中进行重复验证。由于SNP芯片的发展,为了提高差异SNP的检验效能,现通常采用大样本的病例组和对照组的筛选,然后针对筛选出的SNP在不同的独立人群进行重复验证。最后合并各个阶段的研究结果,进行荟萃分析(meta-analysis)。结论的可靠性往往与病例和对照人群的选择、SNP的选择(包括标签SNP)、人群分层、样本量、重复验证等多种因素有关。GWAS所得出的结论最终还需要生物学验证,以评价其是否适用于临床的诊断和治疗。