PC算法:缺失数据下的因果发现
发布网友
发布时间:2024-10-24 08:50
我来回答
共1个回答
热心网友
时间:2024-10-25 13:06
在数据科学的研究中,探索变量之间的因果关系是核心任务之一。然而,现实世界中的数据往往不完整,数据缺失问题导致因果关系的发现变得更加复杂。在集智俱乐部的因果读书会第三期,屠睿博教授介绍了如何利用基于贝叶斯网络的PC算法框架来应对数据丢失问题,以揭示数据缺失对因果发现的影响。
以一个假设的大学录取案例为例,数据缺失可能导致错误的因果推断。在这个场景中,大学录取取决于智商高低,同时倾向于录取男性,智商测试仅在大学中进行。当统计数据中删除包含缺失项的第二和第三行时,可能会得出错误的结论,即女性的平均智商更高。这种情况下,数据缺失机制影响了对智商与性别关系的准确理解。
数据缺失机制可以通过因果图进行表示。引入缺失指示变量Ry,它表示变量Y的数据中是否包含丢失数据,而变量W是缺失指示变量Ry的直接原因。通过描述数据丢失机制的因果图,可以将包含缺失值的变量表示为观测到的变量。通常,数据缺失分为三类:完全随机的数据缺失(MCAR)、受随机因素影响的数据缺失(MAR)和数据缺失不随机(MNAR)。
解决数据缺失下的因果关系,需要在因果图上满足一些假设。首先,缺失指示变量不能作为观测变量或缺失指示变量的原因,确保没有非代理变量数值取决于数据是否缺失。其次,包含数据缺失和不包含缺失数据的“平行宇宙”中,待发现的因果关系及变量间的统计性不变。第三,数据是否缺失之间相互,避免一个变量丢失导致另一个变量丢失。最后,观测变量本身不能是其数据缺失的原因。
对于缺失数据问题,可以通过改进算法,如PC算法,来解决。PC算法首先生成变量之间的全连接图,然后通过搜索因果图的骨架和确定因果方向来发现因果关系。在面对缺失数据时,主要修改集中在确定因果方向的步骤。通过统计性检测缺失数据的原因,找出所有可能的错误因果关系,并修正这些错误关系。
在理想世界中,不存在数据缺失。通过统计方法估计理想情况下的数据分布,可以基于缺失后的数据解决数据缺失带来的问题。这类似于机器学习中的半监督学习。在假设线性高斯模型时,可以描述W和XYZ之间的关系,通过线性回归和观测数据学习数据补全器,生成满足理想世界分布的数据。此外,通过打乱数据中W的顺序,保持Ry的值不变,可以消除缺失与W之间的关联,进而还原理想世界的变量值。
MVPC算法在处理MAR和MNAR数据时,随着样本量的增加,其表现接近理想和目标情景。然而,数据缺失问题在机器学习中更为普遍,因此需要在更少假设下进行因果发现的探讨。这需要更深入的理论和实践研究。
屠睿博教授的分享为我们提供了一种方,通过贝叶斯网络和PC算法框架,我们可以更有效地处理数据缺失问题,揭示隐藏的因果关系。在数据科学的实践中,理解并应对数据缺失的挑战是至关重要的一步,这将帮助我们更准确地解读数据,做出更明智的决策。