搜索
您的当前位置:首页图挖掘在DNA混合样本拆分中的应用

图挖掘在DNA混合样本拆分中的应用

时间:2022-07-30 来源:乌哈旅游
第9卷第2期 2010年4月 江南大学学报(自然科学版) Journal of Jiangnan University(Natural Science Edition) Vo1.9 No.2 Apr. 2010 图挖掘在DNA混合样本拆分中的应用 康艳荣, 李万水, 张国臣, 周冬林, 楚川红 (公安部物证鉴定中心,北京100038) 摘 要:以图论为基础提出了基于图结构的DNA混合样本拆分算法——MDG算法,对混合STR 图谱中每个基因座构造不同的等位基因图,形成等位基因图集,把DNA混合样本的拆分转化为在 图集中的挖掘问题。MDG算法的提出进一步扩大了图论的应用范围,也为混合样本拆分提供了新 的解决思路。 关键词:图;混合样本;峰面积 中图分类号:D 919.2;DF 795.2 文献标识码:A 文章编号:1671~7147(2010)02—0210一O3 Application of Graph Mining in Interpreting DNA Mixtures KANG Yan—rong,LI Wan-shui, ZHANG Guo—chen, ZHOU Dong—lin, CHU Chuan—hong (Institute of Forensic Science,Ministry of Public Security P.R.C,Beijing 100038,China) Abstract:A lot of instances can be described in graph in real world based on graph theory.The paper proposes an algorithm of separating DNA mixtures・MDG(Mixtures Component Deeonvolution using Graph theory),by which each loci can be construted as some allele graphs.These graphs compose a graph set and convert the problem of separating DNA mixtures into graph mining.The algorithm extends the application of graph theory and proposes a new approach of separating mixtures. Key words:graph,mixtures,peak area 在法医生物物证检验的DNA分析中,混合样 等人进一步开发计算机程序,完善了算法,形成了 一本经常遇到,如受害人与犯罪嫌疑人的混合血。如 何进行混合样本中各个供体基因型的分离,国内尚 没有成熟的方法,这也是一直困扰DNA检验人员多 个计算机程序包,自动对混合样本进行拆分 。 作者在文中所提出的MDG(Mixtures Component Deconvolution using Graph theory)算法以图的挖掘 年的难题。国外关于混合样本拆分方法的研究始于 20世纪90年代,Clayton、Gill等人提出了利用峰面 积分析混合样本的理论基础¨ ,随后Gill、Clayton 等人编写了一组计算机程序来推断混合样本中各 算法为基础,首先对混合STR图谱中每个基因座建 立不同的等位基因图,形成等位基因图集;其次根 据混合STR图谱中第一个包含4个等位基因的基因 座,计算该混合样本所有可能的混合比例;接着在 针对混合STR图谱中其余每个基因座对应的图集 的挖掘中,将不满足混合比例的拆分去掉,优化拆 分的效率;最后对每个基因座的挖掘结果任意组 合,得到对混合样本的所有可能的拆分组合。 组分的比例和生成混合样本中的基因组合,他们用 最小残差平方和方法对混合样本进行了拆分【2 J。而 后Perlin和Szabady、Wang等人则分别利用线性混 合样本分析方法LMA和最小平方卷积反演算法 LSD完成了对混合样本的拆分 。最后,Bill、Gill 收稿日期:2009—08—15; 修订日期:2009—09—23。 作者简介:康艳荣(1980一),女,河北唐山人,助理研究员,工学硕士。主要从事数据挖掘研究。 Email:Katherine.kangyr@gmail.coin 第2期 康艳荣等:图挖掘在DNA混合样本拆分中的应用 , , 21l 1 数学模型的建立 现实生活中的许多问题都是研究某一类事物 和它们之间的某种关系,若用点表示某一类若干事 物,用线表示它们之间的某种关系,这样就可以把 要研究的问题抽象成为由一组点和连接着点的一 组线所构成的图,从而用图论方法,即一些特定的 ),当 。(e)=H( )/ ( )( √=1,2)满 足 G(e)∈(0.67,1.67)时,贝0 V , ∈V(G)(i, =1,2)都有边e∈E(G),则由 (G),E(G)组成 的图G也称为二等位基因图。③V(G)=( 。, , , :),当 。(e)=H( )/H( )(i√=1,2)不满足 G(e)∈(0.67,1.67)时,V , ∈ (G)(i=J-)都 有边e∈E(G),则由 (G),E(G)组成的图G也称 方法研究,使其获得解决。为了叙述方便,给出如下 为二等位基因图。由二等位基因图组成的图集称为 定义: 定义1(四等位基因图) 设 , :, ,, 是,基因座 (,=1,2,…,16)包含的4个等位基因,H( )(i= 1,2,3,4)是等位基因对应的峰面积,则由 (G)= ( 1, 2, 3, 4), G(e)=It( )/H( )(i=1,2,3,4; =1,2,3,4)满足 (e)∈(0.67,1.67),E(G): {e},所组成的图G为四等位基因图。由图G组成的 图集称为四等位基因图集,记为G 。 性质1 如果四等位基因图中4个顶点对应的峰面 积相同,则四等位基因图是完全图。 证 给定四等位基因图G,根据等位基因图的定 义,当G中4个顶点对应的峰面积相同,即V , ,∈ (G),均满足 (e)∈(0.67,1.67),也就是说G 中任意两顶点之间都有边相连,根据图论中完全图 的定义,可知该四等位基因图是完全图。证毕。 定义2(三等位基因图) 设 , , 是,基因座 (,=1,2,…,l6)包含的3个等位基因,日('/3 )(i= 1,2,3)是等位基因 对应的峰面积,设 (G)= ( 。, :, ,, ),其中 与 (i-W-1,2,3)中的一顶点 相同。①设 ∈V(G), 。= (i=1,2,3), (e)= 日( )/i4( )(i=1,2,3)无法确定…,则e∈ E(G)。②设 , ∈V(G), ≠ ≠ (矗,m=1, 2,3且 ≠m), 。(e )= ( )/H( )( =1,2,3) 无法确定, (e )=H( )/H( )(m=1,2,3)无 法确定,则e ,e ∈E(G)。③设 , ∈V(G), ≠ ≠ ( ,m=1,2,3; ≠m); G(e) = H( )/H( )( ,m=1,2,3; ≠m);当 G(e)∈ (0.67,1.67)时,e∈E(G);否贝0 P≠E(G)。贝U由 (G),E(G)组成的图G为三等位基因图。由三等位 基因图组成的图集称为三等位基因图集,记为G 。 定义3(二等位基因图) 设 , 是第,基因座 (,:1,2,…,16)包含的两个等位基因,H( )(i= 1,2)是等位基因 对应的峰面积。①V(G)=( , I, I, 2)或V(G)=( 1, 2, 2, 2),此时 G(e)= H( )/H( ,)( ,J.=1.2)无法确定,则V , ,∈ V(G)(i,J.=1,2)都有边e∈E(G),称由V(G), E(G)构成的图G是二等位基因图。②V(G)=( , 二等位基因图集,记为G 。 定义4(一等位基因图) 给定V(G)=( 。, , , ),V , ∈V(G)(i= )都有边e∈E(G),称由 V(G),E(G)组成的图G为一等位基因图。由一等位 基因图组成的集合称为一等位基因图集,记为G 性质2 一等位基因图为完全图。 定义5(二等分子图与二等分补图) 给定等位基 因图G=( , ),图G =( ,E )(E ≠ )称为图 G的二等分子图,其中 是这样一种点的集合, 只包含两个顶点 和 ,且 , V,( , )∈E 且 ( , )∈E。给定等位基因图G=( ,E),G = (V ,E )( ≠ )是G的二等分子图,图G = ( ,E”)称为图G的二等分补图,其中 =V—V , E 是这样的集合,V , ∈ ,如果( , )∈E,则 ( , )∈E”。 2 基于图结构的DNA混合样本拆分 算法设计 在混合STR图谱中,每个基因座包含的等位基 因最多为4个,算法设计如下: 1)生成第,基因座对应的图集G,,(J=1,2,3, 4)。 2)找到第一个四等位基因图集G 。 3)求G 中图G对应的第 种二等分子图的顶 点序列和其二等分补图的顶点序列,并计算混合比 例M ( :1,2,3)。 4)根据 ( =1,2,3)和峰面积比例区间确 定每一个等位基因图集中对应的二等分子图的顶 点序列和二等分补图的顶点序列。 5)将每一等位基因图集生成的所有顶点序列 作为树 中某一层的结点逐层生成树 。 6)重复以下步骤直到所有叶结点都被访问:① 找到从Root结点到叶结点的路径;②输出该路径中 的所有结点。 3 仿真实验及结果分析 文中利用MDG算法对混合比例为1:1的STR 212 江南大学学报(自然科学版) 第9卷 图谱进行了仿真实验。实验表明最终得到的拆分个 如何确保将数据正确拆分且得到相对较少的 拆分个数,混合比例的阈值浮动选择十分关键,这 就需要借助DNA专家在多年办案基础上积累的经 数与混合比例的阈值浮动有关。如图1所示,随着阈 值区间的不断增大,得到的拆分个数也将不断 增加。 25 000 验,以及通过对大量混合样本的分析实验,得到一 些规律性的知识来进一步指导MDG算法,使其得到 更优解 20 000 15 000 4 结 语 <一 dⅡ 10 000 混合样本的拆分是法医遗传学检验中经常遇 到的一个难题,文中阐述了将混合样本的拆分转化 为图挖掘的方法,算法的提出为混合样本的拆分问 题提供了一种新的解决思路,为提高混合样本的证 0.1O0 0,105 0.110 0.120 0.125 0.130 0.135 5 0o0 0 阚值 据价值提供了一定的理论基础,是计算机科学在生 物科学方面一个新的应用。在此基础上,将继续改 图1 混合比例的阈值浮动范围与组合个数的关系 Fig.1 Relationship between threshold and the 进算法效率,以得到一个完善成熟的混合样本拆分 系统。 number of combinations 参考文献(References): [1]Clayton T M,Whitaker J P,Sparkes R,et a1.Analysis and interpretation of mixed forensic stains using DNA STR profiling[J]. Forensic Science,1998,9t:55—70. [2]Gill P,Sparkes R,Pinchin R,et 1.Ianterpreting simple STR mixtures using allele peak areas[J].Forensic Science,1998,91: 41-53, [3]Perlin M W,Szabady B.Linear mixture analysis:a mathematical approach to resolving mixed DNA samples[J].Forensic Science,2001,46:1372—1378. [4]WANG T,XUE N,Wickenheiser R.Least square deconvolution(LSD):a new way of resolving STR/DNA mixture samples[C]. Proceedings of the 13 International Symposium on Human Identiifcation.Phoenix:[S.n.],2002. [5]Bill M,Bill P,Curran J,et a1.PENDULUM—a guideline-based approach to the interpreation of STR mixtures[J].Forensic Science.2005,148:181—189. [6]Buekleton J S,Triggs C M,Walsh S J.Forensic DNA Evidence Interpretation[M].Boca Raton,Florida:CRC Process.2005. (责任编辑:秦和平) 

因篇幅问题不能全部显示,请点此查看更多更全内容

Top