因果性的研究起源于哲学。英国哲学家休谟(David Hume,1711~1776)在1737年出版的《人性论》是因果性研究的一个里程碑。因果性是将一个过程(原因)与另一个过程或状态(效应)连接起来的自然或世俗的机构或功效,其中第一个部分地对第二个过程负责,第二个部分地依赖于第一个过程或状态。因果关系是形而上学的先验的时间和空间的概念。在统计学中,区分是否有因果关系很重要。英国统计学家K.皮尔逊[注]不相信因果,那么他是用什么来代替因和果的范畴呢?列联表。他认为一旦意识到这种表的本性,将可以把握住因果关系这个概念的本质,而不需要在相关性的概念之外建立一个独立的因果关系的概念。R.A.费希尔的出现改变了局面,他令统计学家们得以系统地阐述随机试验。而随机试验是唯一被科学证明的用数据检验因果关系的方法,而且在因果关系的概念之中也只有随机试验的概念被主流统计学所承认。
因果与相关是两个不同的重要概念。因果关系描述事物之间的影响机制,具有外延性和可预测性;相关关系描述所看到事物之间的表面现象,没有外延性和可预测性。即使这两个因素之间没有因果关系,仍可能会表现出虚假的相关关系;相反地,如果它们之间具有因果关系,也不一定表现出相关关系。
利用统计学的方法研究因果关系,主要有以下两类模型:因果网(causal networks)和虚拟事实(counterfactual)模型,后者也叫潜在反应(potential-outcomes)模型或鲁宾因果模型(rubin causal model,RCM)。虚拟事实模型刻画的因果关系较为细致,也正因为这样,用它来判断因果关系需要更多的假设。因果网用有向无圈图来描述因果关系,这样看起来比较直观,而在因果网中,变量间的条件独立关系可以方便地由图的分离准则来判断。因果网便于刻画干预意义下的因果关系,通过计算干预后反应变量的概率来刻画干预的因果效应。对于应选择以上哪一种模型较好,这和对因果关系的信仰有关,也根据具体研究问题的特点而定。
因果推断用的最多的模型是鲁宾因果模型和因果图(causal diagram)模型。这两个模型是等价的,但是就应用来看,RCM更加精确,而因果图模型更加直观,后者深受计算机专家的推崇。