语义图建模

2024-06-10 版权声明 我要投稿

语义图建模(精选5篇)

语义图建模 篇1

关键词:图挖掘,中医方剂,语义图建模,高效用图集

0 引言

中医方剂是名老中医在临床上对患者经过四诊合参、辨证立法后,根据患者个体信息与当前疾病情况而开具的一副草药配伍的组合[1]。传统的图挖掘技术只考虑到子图的支持度,并没用考虑到图的语义效用,中医方剂属性与药物的描述都是基于语义的,因此在图建模之中,如何从方剂与药物的属性抽取出它们之间的语义关系就显得非常重要,这也为后序的挖掘奠定了基础。现有的图建模方法中,如基于概率的方法和基于临床试验数据的方法,都有局限性,因为中医药物的不同组合、不同剂量、不同炮制方法都会对药物的功效造成很大的影响[2]。

1 药物关系分析

药物的功效取决于药物的性味归经、升降沉浮、炮制、剂量等属性,性味归经是从药物的寒凉温热、酸甜苦辣减、作用经络来衡量药物的功效,升降沉浮是从药物的作用方向衡量药物的功效,炮制和剂量也是影响药物的功效的一个重要方面,这里提出了一个基于属性语义图建模方法,从药物的三个属性维度给不同的维度加权值不同,最后给定最小功效阀值计算他们之间的功效关系。

1.1 功效相似度定义

定义1设药物属性空间Rn用一个n维向量空间,药物,药物,药物x与药物y之间的欧式距离表示为[4]:。

因为药物的不同属性是从不同方面描述药物的作用机理,而它们对功效的影响大小也不一样,这里需要把药物的属性按照性、味、归经、升降沉浮分开考虑,然后综合考虑总的功效关系。

定义2药物i与药物j的属性功效相似性mij定义为药物的“性、味、归经、升降沉浮”四个属性的加权距离的和。

其公式表示如下:

式中Pm——药物的第m维属性对药物功效影响的权值;

Wm———第m维指定的权值总和;

M———药物属性的4个度量维度;

Nm———药物第m维度的属性个数;

wimk——药物i的第m维第k属性的权值。

Pm表示药物的m维度对药物功效影响的比重的时候,有成立,这里m=4表示药物属性的“性”、“味”、“归经”、“升降沉浮”4个度量维度;Nm表示第m个维度的属性个数;Wm表示第m个维度的指定的权值总和,即表示第m维度的第k个属性权值)。

1.2 图效用定义

设图集ξ={G1,G2,…,Gm},对于图集ξ中的图Gq,是处方q经过图建模后的事物图。在分析中医领域的方剂数据特点后,本文给出了图一些效用定义。

1.2.1 相对药效量

每种药物都有自己的用量范围,同一个处方的不同药物的用药量不同,比较不同药物在处方中的作用大小,需要比较它们之间的作用强度[5,10],其公式如下:

其中,x表示药物在方剂中的剂量,单位为克;k1=0.25,k2=0.75;M表示药物的最大用量,m表示药物的最小用量;fp表示药物p的功效作用强度。

1.2.2 方剂图效用定义

定义3设事物图Gq=(V,E),顶点x∈V,顶点x的“事物图效益“记作u(x,Gq),是指Gq发生时顶点x给用户所带来的效益。

在方剂事物图中,顶点表示方剂中的药物,药物的“内部效用”为药物的作用强度,也就是相对药量的功效;药物的“外部效用”是用户给定的权值。故方剂中药物的“事物图效用”为:

其中Wq是用户给定的方剂综合功效权值,fx是药物x的功效作用强度,wx是用户给药物x定的兴趣权值。

定义4设图g=(V',E')且g⊆Gq,事物图Gq的子图g的“事物图效用”记作u(g,Gq),是指子图g中的所有顶点的“事物图效用”之和:

在方剂中,方剂事物图的子图,也就是方剂项集的子项集构成的图,称为“方剂子图”。“方剂子图”的效用就是子图中所有药物的“事物图效用”之和。

1.2.3 高效用图定义

由于高效用项集不再满足频繁项集的一些性质,以上定义的高效用图也不满足Apriori的向下闭性质,以下扩展定义一些性质,使之满足向下闭性质[9]。

定义5设事物图为Gq的事物图效用,记作TGWU(Gq),其中

定义6设子图g=(V',E')且g⊆Gq,则子图g在图集ξ的“事物图加权效用”记作TGWU(Gq),其中

定理1事物图加权向下闭性质:若“方剂子图”g不是“高事物加权效用图”,那么图g的任何超图g'都不是“高效用图”(高事物加权效用图)。

证明:设图集中包含图g(其子图同构g)的图的集合为Sg,则图集中包含g的超图g'的集合为Sg',则Sg'⊆Sg,故TGWU(g')≤TGWU(g)。

2 图的构造

2.1 图的构造算法

构造图首先要把需要挖掘的处方中的药物进行汇总,并按照出现的“事物加权效用”从高到低进行排序,把排序后的集合作为输入集合。

算法的主要步骤如下:

步骤1从数据库选择需要挖掘的方剂集合FSet,FSet集合中的方剂f包含方剂f的所有药物顶点和方剂f的“综合功效权值”。提取集合FSet的所有方剂中的药物,按药物“事物加权效用”(药物的“频率”与“用户兴趣效用”的乘积)从大到小进行排序和标号,得到标号顶点集合VSet,其中VSet中的每个药物顶点记录药物的详细属性和用户的“兴趣效用权值”。

步骤2对VSet中的每对药物顶点标号i与j(i

步骤3遍历方剂集合FSet中的每个方剂f,做以下几个过程:

(1)创建一个图g,根据VSet查找f的所有药物的标号与“用户效用权值”,把f的药物顶点标号复制到图g的顶点集合。

(2)对图g中药物顶点k与l,if(ekl∈ESet),那么图g添加边ekl。

(3)按照f中各个药物的“用户兴趣权值”和f的方剂“综合效用权值”,根据公式(1-3)计算g中的每个顶点的“事物图效用”,并根据公式(1-4)和公式(1-5)计算图g的“事物图效用”TGU(g)。

(4)如果g非连通,根据不同连通分支之间的药物配对概率,把连通分支连接起来,在边集ESet中添加这些连接不同连通分支的边。最后在图集中添加图g。

构造图的算法initGraphSet算法描述如下:

输入:FSet,方剂集合;minRel,最小药物功效关系值;

输出:GSet,图集;

方法:

2.2 方剂的图表示

在图挖掘中,频繁子图挖掘算法处理的图集分为两类:事物图集和单图。在中医方剂中,一个处方就是一个事物,因此用基于事物图集比较合适,与此同时图集用XML文件表示具有操作方便、方便相似比较等的优点。

以下用黄连解读汤说明一个方剂事物图的构造结果,这里药物属性的权值分别赋值为:P(性)=0.25,P(味)=0.25,P(归经)=0.5,P(升降沉浮)=0。给定药物的“兴趣权值”分别为:w(黄连)=2,w(黄柏)=1,w(黄芩)=1,w(栀子)=2。给定黄连解毒汤的综合功效权值W(黄连解毒汤)=5,构造的黄连解毒汤的事物图信息如下表:

在给定最小药物功效关系值minRel=0.60,经过算法计算结果,得到事物图关系如下:

3 实验结果分析

3.1 效用图集的表示

高血压197种药物在关系值为0.6的情况下,药物之间的总共有多大12137种关系。高血压方剂的部分图集的XML文件如下:

其中以表示图集,以表示一个图,GuseFreq表示处方服用的次数,GUtilWeight表示方剂的效用权值,表示顶点集合,NodeUtilWeight表示顶点的加权效用度;表示边集。

3.2 图建模结果分析

本文对高血压临床常用202种中草药进行了图建模,选择了“P(性)=0.25、P(味)=0.25、P(归经)=0.5”和“P(性)=0.3、P(味)=0.3、P(归经)=0.4”两组数据进行了对比,并不考虑升降沉浮权重的情况下,其药物的所有边的种类数目(纵轴)与最小功效阀值(横轴)关系的关系如图3、图4所示:

从上述的图折线可以得出以下几点结论:

(a)从图3可以看出,两组维度权值的折线几乎重合。这说明药物的各个维度的属性对药物功效的影响差异不大,它们的重要性均衡。归“心、心包、肝、脾”四经药物的数目占高血压常用药物的80%左右,而这四经药物的边种类数占202种药物的边种类数的70%左右。图6-13两条折线表明,“心、心包、肝、脾”四经药物的属性对功效的影响均衡。

(b)从图3、图4可以看出,维度权值不同对“心、心包、肝、脾”四个经络的边种类影响不大,并且111种肝经药物在165四经药物中占比例为65%左右,而肝经的边种类却是“心、心包”和“脾”的4倍,尽管药物数量是它们的2倍。

(c)从上述所有的折线图走向来看,当功效阀值在区间[0.2,0.4]的时候,它们的走向趋于一条直线,而且它们的边种类数目达到种N*(N-1)/2(N为药物数量)。这说明几乎所有的药物与药物之间存在某种弱联系。

由此,我们可以得出在高血压药物建图的时候,“心、心包、肝、脾”四个经络的药物之间的边种类数较其它经络药物之间边种类数多。在“心、心包、肝、脾”四个经络药物中,肝经的药物数量与边种类较其它三个经络药物数量与边种类多。另外,所有药物之间几乎都存在某种弱联系。

4 结束语

本文分析了中医方剂和药物的属性语义与功效的关系,提出了一种基于属性功效相似度的建图模型,给出了效用图的定义,该方法建立的图集是一种效用图集。该建图方法避免了概率配对所欠缺的语义问题和临床试验的结果不能大规模应用的弊端。

本文对202种常用高血压药的实验结果表明,此种方法取得了很好的建图效果,这为后续效用图挖掘提供了基础。

下一步研究将是考虑怎样给处方和药物加上合理的权值,且将建立好的效用图集应用于中医方剂效用图挖掘中。

参考文献

[1]印会河.中医理论基础[M].上海:上海科学技术出版社,2006.Yin H H.Basic Theories of Chinese Medicine[J].Shanghai:Shanghai Science and Technology Press,2006.

[2]邓中甲.方剂学[M].北京:中医中药出版社,2010.Deng Z J.Formulaology[M].Beijing:Traditional Chinese medicine press,2010.

[3]韩旭华,牛欣,杨学智.方剂药效物质系统与单味药成分之间的非线性关系[J].中华中医药杂志,2006,21(5).Han X H,Niu X,Yang Z X.The nonlinear relationship between Prescription drug material system and single herb medicine composition[J].China Journal of Traditional Chinese Medicine and Pharmacy,2006,21(5).

[4]李明哲,金俊,石端银.图论及其算法[M].北京:机械工业出版社,2010.Li M Z,Jin J,Shi R Y.Graph theory and its algorithm[M].Beijing:China Machine Press,2010.

[5]黄英杰.《伤寒论》用药剂量相关性研究[D].北京:北京中医药大学,2007.Huang Y J.《Shanghun Lun》The research on dosage re-lationship[D].Beijing:Beijing University of Chinese Medi-cine,2007.

[6]Kuramochi M,Karypis G.Finding frequent patterns in a large sparse graph[J].Data Mining and Knowledge Dis-covery,2005,11(3):243-271.

[7]Xuezhong Zhou,Runsun Zhang,Yinghui Wang,et al.Network analysis for core herbal combination knowledge discovery from clinical chinese medical formulae[C].2009First International Workshop on Database Technology and Applications,2009.

[8]Bac Le,Huy Nguyen,Tung Anh Cao,et al.A Novel Algorithm for Mining High Utility Itemsets[J].2009First Asian Conference on Intelligent Information and Database Systems.2009,55.

[9]Guo-Cheng Lan,Tzung-Pei Hong,Vincent S.Tseng.Mining High Transaction-Weighted Utility Itemsets[C].2010Second International Conference on Computer Engi-neering and Applications.2010,69.

语义Web的语义建模概述 篇2

目前的互联网上传播的内容只有人能够看的懂, 计算机只起个数据存储、传递、展示的作用, 不能理解其中的语义。如果计算机能够理解内容的语义, 那么计算机就可以帮助人们做很多有意义的事情。比如, 在你写文章的时候, 计算机可以为你收集相关的文献, 在你准备旅行的事情, 计算机可以帮助你安排行程、预定旅馆和机票等。为了将目前互联网改造成有序的计算机可理解的知识宝库, 公认的互联网之父英国人蒂姆·伯纳斯·李 (Tim Berners-Lee) 提出了语义Web (Semantic Web, 也称语义网) 的概念, 顾名思义是指Web上的文本信息具有 (计算机系统可以理解的) 语义[1]。

那么, 语义网是如何具有计算机可以理解的语义信息的呢?我们需要考虑以下三个方面的内容, (1) 需要一个描述框架, 能够将语义信息 (概念以及概念之间的联系) 表示出来, (2) 需要定义一种描述语言具体进行语义信息的描述, (3) 需要一种操作语言对语义信息进行操作。

1 语义信息的描述框架

所谓语义信息, 即概念的形成和表示。一个概念C可以通过数学上的集合来表示, 集合有两种表示方法, 一种是内涵表示法, 另一种就是外延表示法。所谓内涵表示法是指用概念所指代的对象所应满足的性质来表示, 而概念的外延表示是指用该概念所指代的具体的对象集合来表示。例如, 偶数这个概念既可以表示成{x|x能被2整除}, 也可以表示成{2, 4, 6, 8, ……}。前者就是内涵表示, 被2整除就是x的一个性质。后者就是外延表示。

语义网是如何描述文档的语义信息 (概念及其关系) 的呢?它采用多层次的表示框架。首先为文档引入结构, 将文档分解成一些可以识别的“块”, 这样计算机就能够方便地解读文档, 这就是XML (可扩展标记语言, Extensible Markup Langauge) 。如果知道XML的定义, 就可以编程序对内容进行操作, 比如信息提取等。XML是语义Web上资源表示的语法基础, 但是并没有对结构本身的语义进行描述。如果不知道XML元素的语义, 那么计算机仍然不能理解其中的信息。这时需要一个更高的层次来描述结构的语义, 这就是RDF (资源描述框架, Resource Description Framework) 。RDF定义了元素之间的关系, 表现为三元组的集合 (类似于句子的主语、谓语和宾语) 。XML加上RDF就相当于建立了人工智能中的语义网络 (semantic network) , 也就可以进行一些简单的推理了。使用XML+RDF, 人们可以建立各自的语义Web, 只要有一套自成体系的术语就可以了。但是, 要计算机相互理解对方的内容, 还需要有一套共同的标准的概念体系, 这就是本体 (Ontology) 。XML+RDF+Ontology构成了计算机相互理解的基础, 缺一不可。因此, 我们说, 语义网描述的就是信息资源的一个语义数据模型, 是计算机理解内容的基础。

2 语义信息的描述语言标准

进行语义信息的描述需要定义一种描述语言具体, 遵循描述语言标准。XML, RDF, OWL都是国际组织W3C推荐的标准。XML的最突出的特点就是功能强大又易于使用, 它使网页能够容纳更丰富的信息资源。XML用来制定隐藏的标记, 并将其作为标注放置在网页中, 以便引导计算机程序处理网页内容。XML不涉及网页的具体内容, 而网页的内容则由RDF来表达。

RDF是W3C提出的资源描述框架 (Resource Description Framework) , 它除了可以表达Web资源的元数据, 例如Web页面的标题、作者、创建时间等, 还可以表达任何可在Web上标识的事物的信息, 例如购物网站上某个产品的价格、功能等。RDF使用了一种简单的三元组模型来表示Web上资源的属性的取值。每个三元组由主语 (Subject) 、谓语 (Predicate) 和宾语 (Object) 三个元素构成。其中主语代表资源, 即所有可以描述的对象。谓语指的是资源的属性 (也称性质) , 一个资源可以有多个属性。宾语就是属性的值, 每个属性值既可以是数字、字符串等, 也可以是资源[3]。RDF是三元组的集合。

RDF本身并没有规定语义, 但是它为每一个资源描述体系提供了一个能够描述其特定需求的语义结构的能力。从这个意义上来讲, RDF是一个开放的元数据框架。这个元数据框架定义了一种数据模型, 可以用来描述计算机能够理解的数据语义。显然, 这种框架还需要定义描述中使用的词汇, 这就是RDF的词汇描述语言, 即RDF Schema。RDF Schema定义了RDF描述数据时使用的词汇, 它引入了类 (class) , 属性 (property) , 类之间的包含关系 (subClassOf) , 属性间的包含关系 (subPropertyOf) , 以及属性的定义域 (domain) 和值域 (range) 等标准词汇。语法上, RDF Schema与RDF是完全一致的, 即所有的RDF Schema文档都是合法的RDF文档。语义上, RDF Schema是RDF的一个扩展, 即它不仅保留了RDF的全部意义, 而且对新增部分加入了自身的解释。

RDF定义了用于描述资源的语法和模型, RDF Schema定义了RDF描述资源时所用的词汇集, 这样RDF和RDF Schema构成了一种简单的对Web资源的表示机制。但是, 由于RDF (S) 本身它太简单, 描述能力比较弱, 难以表达复杂的领域知识, 因此需要对其进行扩展[4]。例如OIL, DAML+OIL和OWL, 都是对RDF (S) 的扩展。其中, OWL (Web Ontology Language) 是W3C最新推荐的Web Ontology描述语言的标准。它是为了在WWW上发布和共享Ontology而提供的语义标记语言。Ontology之所以逐渐引起人们的重视, 主要的原因在于它能够提供明确定义的词汇表, 描述概念和概念之间的关系, 使得使用者之间达成对概念含义的共同理解。而对同一概念的语义共享和共同理解正是构建语义Web的关键。

OWL作为RDF (S) 的扩展, 是在DAML+OIL的基础上发展起来的, 目的是提供更多的原语以支持更加丰富的语义表达, 并更好的支持推理。与RDF (S) 一样, OWL可以声明类, 属性, 及各自的层次关系。但是, OWL还可以通过逻辑组合算子 (合取, 析取, 否定) 在其他类的基础上构造新的类, 同时OWL可以通过属性约束定义类, 另外OWL还可以声明某个属性具有传递性、对称性、函数性, 或是某个属性的逆属性等。

3 语义信息的操作语言

OWL是在建立在DAML+OIL基础之上的一种语言, 设计的最终目的是为了提供一种可以用于各种应用的语言。OWL适用于这样的应用, 在这些应用中, 不仅仅需要提供给用户可读的文档内容, 而且希望处理文档内容信息。为了应用的需要, 需要一种操作语言对语义信息进行操作。OWL提供了三种表达能力递增的子语言:OWL Lite、OWL DL和OWL Full。

(1) OWL Lite用于提供给那些只需要一个分类层次和简单属性约束的用户。例如, 虽然OWL Lite支持基数限制, 但只允许基数为0或1。开发支持OWL Lite的工具要比开发支持其他两个子语言的工具更容易些。

(2) OWL DL是以描述逻辑为基础的子语言。它支持那些不仅需要最强表达能力而且需要保持计算完备性 (computational completeness, 即所有的结论都能够保证被计算出来) 和可判断性 (decidability, 即所有的计算都在有限的时间内完成) 的用户。它包括了OWL语言的所有语义成分, 但是使用时必须符合一定的约束。例如, 一个类可以是多个类的子类, 但它不能同时是另一个类的实例。

(3) OWL Full支持那些需要最强的表达能力和完全自由的RDF语法但是不需要可计算性保证的用户。它允许一个本体在预定义的词汇表上增加词汇, 从而任何推理软件均不能支持OWL Full的所有特性。例如, 它允许一个类被看作是许多个体的一个集合, 而同时本身也作为一个个体。

OWL提供的三种子语言与RDF的关系是:①OWL Full可以看成是RDF的扩展;②OWL Lite和OWL Full可以看成是一个约束化的RDF的扩展;③所有的OWL文档 (Lite) DL) Full都是一个RDF文档;④所有的RDF文档都是一个OWL Full文档;⑤只有一些RDF文档是一个合法的OWL Lite和OWL DL文档。

为了满足应用的需要, 关于语义信息的操作语言, 还需要进一步深入的研究和实践。不久的将来, 机器有更强的能力去处理和“理解”现在它仅仅进行显示的数据, 以提高网络服务的自动化与智能化。

摘要:为了将目前互联网改造成有序的计算机可理解的知识宝库, 伯纳斯.李提出了下一代万维网——“语义网”的理念。语义网是对WWW的延伸, 是在现有WWW基础架构上为网页扩展面向计算机的数据并增加专为计算机使用约文档, 更利于人机之间的合作和机器之间的交互。为解决网上知识表示问题, 介绍了语义信息的描述框架及语义描述语言。

关键词:语义网,可扩展标识语言,资源描述框架模式,Web本体语言

参考文献

[1]T.Berners-Lee, The Semantic Web[J].Science American, 2001, (5) :21-24

[2]王亚章.语义网, 下一代互联网的神经[J].中国计算机用户, 2003-03-10:33

[3]Mark Frauenfelder.A smarter Web.Technology Review, 2001

语义图建模 篇3

中西医的不同之处在于西医是建立在人体解剖学基础上的实验科学, 中医“天人相应”、“阴阳平衡”的哲学基础, 和“整体观念”、“辨证论治”的主要特点, 也是西医理论和应用系统所不能涵盖的, 需要知识工程工作者开展有目的性的专门的工作。

语义网[1]的目的在于使用URI (Univerasl Recourse I d e n t i t y) 表示概念或实体。N e c h e s等人于1 9 9 1年提出Ontology的概念, “本体给出构成相关领域词汇的基本术语和关系, 以及利用这些术语和关系构成的规定这些词汇外延的规则的定义”[2]。OWL (Web Ontology Language) [3]是获得万维网联盟认可的, 用于构建本体的知识表达语言。OWL可以精确描述类, 属性关系和个体实例等简单元素和事实陈述语句, 并提供集合、枚举、不相交等复杂类, 属性可具有传递、对称和可逆特征, 还提供函数型和逆函数型属性。特别地, Ivan Herman等语义网活动人士[4]提出的OWL 2, 使用更易理解和使用的规则 (rule) 和属性链实现更为复杂的公理推理。

一、温病因果知识建模

我们将温病知识模型划分为五个功能层。本体层使用OWL2提供基本的术语和声明;关联规则集中在规则层;规则引擎层作为处理规则的机构;方法层作为建立在本体和规则上的知识挖掘层;应用层则应作为温病模型的展示工具, 并可以作为知识推理和挖掘的平台。

温病知识模型建立在中医药诊疗体系的基础上, 旨在实现温病的因果推理。根据该理论, 我们定义五个顶层类。“理论学说”用于描述中医的朴素的哲学体系, 如阴阳五行等;“环境”包含各种用于疾病诊断的自然因素;“人体”包含各种人体生理组成;“治疗”由中药、处方、治则、治法等组成;“症状”则描述人体的各种异常状况。

OWL 2通过属性建立本体之间的关系。目前, 该模型包含20余种属性, 用于定义规则推理时的属性链。

综上, 本体类建立中医温病知识领域的术语体系架构;属性则将术语紧密联系起来形成更完整的知识模型。

二、因果推理

温病诊断建立在内在规则基础之上, 本文将诊断过程划分为层状因果图。鉴于中医诊断关注的焦点是证候, 在因果图中, 我们将证候作为术语的基础, 证候与其他本体的关系作为因果链, 从而形成该因果图的定义, 具体如下:

●表示X到Y具有直接因果关系, 即X可直接导致Y;

●表示X到Y具有逻辑因果关系, 即多个X可导致Y, 此种关系存在于症状与证候间。

◆规则模式定义为从X到Z的直接路径或X的集合到Z的逻辑路径, 即关联本体的链均可定义为规则。

图1中, 特定的症状集合定义证候或疾病, 即逻辑因果;证候或疾病存在相应的治则和治法, 及直接因果;最终, 处方由症状、证候和治法决定。

综上, 因果推理将温病的诊断过程划分为结构化的图, 并对于不同层提供相应的算法。

三、评估

本小节讨论该模型的实验评价。该模型建立了423个本体类, 25种属性关系, 101个类声明公理和56个属性公理。鉴于本因果模型来源于中医诊断原则, 本文使用两个典型医学应用来评价该处理方法。

用例1

输入:邪在气分 (证候)

输出:因果图图2

描述:当获得用户输入, 系统通过属性链和预定义的规则搜索因果图获得“邪在气分”节点相关的节点。所有的白色节点为最终的显示结果。

用例2

输入:症状集合

输出:一个或多个根据症状得到的证候

描述:当用户提交症状集合, 系统搜索相应的证候并显示结果, 见图3。

综上, 用例1展示了温病模型的诊疗体系, 用例2体现了症状和体征 (简称为症状) 是病和证的基本要素, 疾病和证候都由症状和体征构成[5]这一原理。该模型在知识表达上取得了较为满意的结果, 在知识挖掘方面也具有较大的潜力。

四、结论

本文展示了一种用于中医温病诊断的因果知识建模方法。温病知识建模的目的在于发现一种中医知识的形式化表达方法。

建立该因果模型的基础在于中医药温病的隐含因果关系可以使用OWL 2语言表达。我们定义了五个顶层类和相应的子类, 并根据诊疗体系中概念间的行为活动定义本体类之间的关系。症状和证候之间的关系是整个诊疗体系的核心, 该关系并非简单的一对一的关系, 而是多对多、多对一的关系。因此, 我们将温病知识划分为层状因果图, 并将症状集合作为一个整体。因果知识推理的本质就是一种将本体通过预定义的规则关联起来形成因果图的方法, 可以清楚地展示温病诊断的过程, 在语义知识挖掘中具有较大的潜力。

摘要:不同于西医, 中医药是建立在其内在规则和模式的基础上, 该规则或模式即为因果链。现有的知识挖掘技术应用在语义本体未能较好地利用中医药的内在规则。通过知识表达, 我们可以将这种隐含知识转化为因果图。本文将展示一种使用具有规则推理的OWL 2语言对中医药领域的温病诊疗体系建模的方法。我们将特别关注症状和证候之间的因果关系。本文通过两个典型用例来评估该方法。该模型使用Protégé建立温病因果知识模型, 使用基于规则的推理引擎Jena实现推理过程。评估结果表明该方法可以清晰地展示温病诊疗体系的因果关系, 在中医知识挖掘领域具有较大的潜力。

关键词:因果知识建模,中医药,温病,规则推理,OWL 2

参考文献

[1]T.Berners-Lee, J Hendler&O Lassila J.The Semantic Web[J].Scientific American, (2001) .

[2]Neches R, Fikes R E, Finin T, Gruber T R, Patil R, Senator T&Swartout W R.Enabling technology for knowledge sharing[J].AI Magazine, 1991, 12 (3) :16-36.

[3]D L McGuinness, F van Harmelen.OWL Web Ontology Language Overview[EB/OL].W3C Recommendation, http://www.w3.org/TR/2004/REC-owl-features-20040210, 2004.

[4]OWL.OWL Working Group[EB/OL].http://www.w3.org/2007/OWL/wiki/OWL_Working_Group.

基于本体的UML类图语义推理 篇4

关键词:本体,UML类图,形式化,描述逻辑

0 引言

UML[1,2,3]是一种形式化建模语言, 可以对具有静态结构和动态行为的系统进行建模。作为一种通用的建模语言, UML越来越多地用于大型系统的建模, 但复杂系统的建模往往需要进行严格的形式分析和验证以保证其正确性。UML是半形式化的———其语法结构采用了形式化的规约, 但其语义部分则是用自然语言描述的, 缺乏准确的语义[4], 难以对模型进行语义推理验证和检查。

为了提高UML的语义精确性, 许多组织和学者提出了很多形式化UML的方法。如:英国的p UML组 (precise UML group) [5]试图给出一种相对治本的方法, 其目标是运用浅显的数学知识对UML元模型进行形式化, 从而将UML发展为一种精确的 (形式的) 建模语言。此外, 还有研究人员利用形式化语言:Z语言、Object-Z语言、COOZ语言、B语言、PVS、XYZ/E、RAISE等对UML类图进行形式化, 以提高模型的准确性。

本文在详细分析对比领域本体与UML模型之间相似性的基础上, 提出了一种基于本体的UML类图形式化方法, 通过本体的推理实现对UML类图的语义检查。由于本体与UML类图模型有着极为相似之处, 并且, 本体能在语义和知识层次上描述信息系统, 因此, 把UML类图模型转换为本体, 通过对转换后的模型进行推理, 可以检查出模型中存在的语义问题, 从而提高了建模的效率。

1 UML类图与领域本体的对比分析

类是任何面向对象系统的核心, 因此, 类图成了最常用的UML图[3]。系统的结构由一组通常称为对象的部件构成。类描述系统中不同对象的类型, 而类图则显示出这些类以及彼此之间的关系。

一个类图主要包括三部分:类名、属性和操作 (方法) 。并且, 类与类之间还存在着各种各样的关系, 包括:依赖、关联、聚合、组合以及泛化 (继承) , 这些类之间的关系依照顺序依次增强的。两个类之间的依赖, 说明一个类的对象暂时使用另一个类的对象。关联则意味着一个类的对象在一段时间内使用另一个类的对象。关联关系包括关系的方向性、角色以及基数等三个要素。方向性指关联关系是从源类指向目的类, 在不同的关系中源类和目的类具有不同的角色, 并具有1对1或1对n的数量关系。关联关系的语义为源类对象中包含目的类对象或对象引用, 因此只有当两个对象的类之间存在关联关系时, 这两个对象之间才可能会发消息。聚合是整体—部分关系, 聚合关系可以看作特殊的关联关系。组合是比聚合还强的关系 (尽管它们的工作方式非常相近) 。泛化是一种更一般描述和更具体描述之间的分类关系。

本体最早是一个哲学上的概念, 从哲学范畴上讲, 本体是客观存在的一个系统的解释和说明, 关系的是客观现实的抽象本质。在人工智能界, 本体最流行的定义是Gruber给出的即“本体是概念模型的明确的规范说明[6]”。后来, Borst在此基础上给出了本体的另一个定义即本体是共享概念模型的明确的形式化的规范说明。通过分析上述定义, Studer认为其包括四层含义:概念模型、明确、形式化和共享。Perez等人认为本体可以按分类法来组织, 他归纳出本体包含5个基本的建模元语。这些建模元语分别为:类、关系、函数、公理、实例, 通常也把class写成concept。概念的含义很广泛, 可以指任何事物, 如功能、行为、策略等等, 实例代表元素;从语义上讲, 概念就是对象的集合, 实例就是概念;关系代表了在领域中概念的交互作用, 形式定义为n维笛卡尔乘积的子集:R:C1×C2×…×Cn, 关系主要分为四类, part-of (概念之间整体与部分的关系) 、kind-of (概念之间的集成关系) 、instance-of (概念的实例与概念之间的关系) 、attribute-of (概念是另一个概念的属性) ;函数是一类特殊的关系;公理代表永真断言。

通过比较可以容易看出, UML类图与本体两者具有高度的相似性[7], 如:UML类图中的类名对应本体建模元语中的类或概念, 关系对应建模元语中的关系, 对象对应于建模元语中的实例, 属性和操作 (方法) 对应于建模元语中的函数, 但UML类图中的函数和本体建模元语中的函数有些少许差别, 例如, 为证实一个Student (一个Student必须至少选学一门课程) 的身份, 一个方法/函数get_course () 可能被声明或定义。本体中的函数一类特殊的关系。该关系的前n-1个元素可以唯一决定第n个元素。形式化的定义为F:C1×C2×…×Cn-1→Cn。例如mother-of就是一个函数, mother-of (x, y) 表示x是y的母亲。UML类图与本体最大的不同之处在于:本体有公理, 具备推理能力, 可以进行自身推理;而UML类图是形式化语言, 不能进行自身的推理。由于其语义的非形式化特点, 所以, UML类图所描述的系统模型往往会隐藏一些错误, 而自己不能检查出来。因此引入本体以弥补对象模型的缺陷。类图与本体之间的对应关系如表1所示。

2 UML类图与本体的转换

本体与UML类图有着许多相似的特性。基于两者的相似性, 建立UML类图到本体的转换, 将UML的类图模型转换为形式化的本体模型。本体作为一种模型需要使用具体的语言表示, 本文选择描述逻辑作为其描述语言, 同一阶谓词逻辑相比, 描述逻辑具有可判定性, 描述逻辑也已经成为其它本体表示语言 (如OIL、OWL等) 的逻辑基础, 而且, 描述逻辑也可以对象模型进行形式化[8]。最后通过对转换后的本体进行推理, 以检查出UML中存在的语义问题。

定义1一个UML类图模型是一个四元组C= (Cn, Cp, Cr, Cm) , 其中:Cn表示类名, Cp表示类属性, Cr表示类之间的关系, Cm表示多重性。在此只考虑UML类图的静态特性, 由于类的方法属于动态性的知识, 不予考虑。

定义2一个DL (Description Logic) 本体模型是一个二元组O= (N, A) , 其中, N=Concepts∪Properties∪Relationships表示一个有限的标识符 (identifier) 集, A表示一个有限的公理序列, 每个公理由作用于标识符的若干构造算子 (如, ∪, ∩, , , 等) 而实现。

显然, 很容易进行UML类图到DL本体之间的转换, UML类图中的Cn、Cp和Cr可直接转换为DL本体中的N, UML类图中的Cn、Cp、Cr和Cm通过一些构造算子可以构造成为DL本体中的公理。

下面通过一个具体实例来说明两种模型的转换:

根据上述规则, 图1可以转换为DL本体:

N是类、属性和关系的集合, A是包含公理和等价公理的集合。Employee, Name, supervise () 等直接映射为领域本体中的概念, 属性, 关系的集合;通过构造子、∩、∪构造SupervisorEmployee、TeacherEmployee、Supervisor≡Employee∩supervise.Graduate等领域本体中的公理。

3 UML类图语义推理

本文主要借助描述逻辑中的Tableau算法对转换后的本体模型进行推理, Tableau算法通过构造一棵关于概念C的Tableau树来计算C的可满足性。该算法的基本思想是:首先, 将不是NNF (Negation Normal Form) 范式的概念通过使用“德·摩根规则”转换为NNF范式, 初始化树T (T仅包含一个根节点) , 然后反复使用转换规则扩展树T, 直到各分枝出现矛盾或者无规则可用。有关描述逻辑的Tableau的算法详细介绍可参阅文献[9]。目前, 已经出现了很多的本体推理机系统, 其中最新的、应用最广泛的和最具代表性的有:Racer, Pellet, Fa CT。Racer是德国Franz Inc公司开发的一个采用描述逻辑作为理论基础的本体推理机, 不仅可以当作描述逻辑系统使用, 还可以用作语义知识库系统;Pellet是美国马里兰大学MNDSWAP项目组专门针对OWL-DL开发的一个本体推理机, 基于描述逻辑表实现;Fa CT是英国曼彻斯特大学开发的一个描述逻辑分类器, 提供对模式逻辑的可满足性测试。

下面就利用Tableau算法对图1进行推理, 图1中的概念Employee有两个分类, 分别为概念Supervisor和概念Teacher。如果图1能准确地描述现实世界, 那么概念Supervisor和概念Teacher应该是不相交的, 即SupervisorTeacher是可满足的 (satisfiable) 。如果SupervisorTeacher成立, 则Supervisor∩Teacher≠。也就是说, {Employee∩supervise.Graduate}∩{Employee∩supervise. (Bachelor∪Graduate) }是可满足的, 整个推理过程如下:

到此已经不能对树T再使用任何转化规则 (transformation rules) 了, 算法结束。树T的节点和边分别为:

由于C (x1) 含有冲突 (clash) , 所以概念{Employee∩supervise.Graduate}∩{Employee∩supervise. (Bachelor∪Graduate) }是不可满足的, 即Supervisor∩Teacher=, 原假设SupervisorTeacher不成立, 因此图1需要修改, 修改后的图形如图2所示。

归纳总结基于本体的UML类图语义推理的一般过程如下:

(1) 找出类图中的概念、关系、属性等直接转化为对应领域本体中的概念、关系和属性。

(2) 利用⊆, ∪, ∩, ﹁, ∀, Ǝ等构造算子根据类图的概念层次关系和属性构造对应中的公理。

(3) 借助描述逻辑提供的Tableau算法对转换后的本体模型进行推理。初始化树T, 将不是NNF范式的概念通过使用“德·摩根规则”转换为NNF范式。

(4) 反复利用上述规则扩展树T, 直到各分支出现矛盾或无规则可用为止, 修改类图。

4 结论

UML作为一种图形化建模语言, 其语义描述是非形式化的, 且缺乏推理能力, 不能对其所建模系统进行语义检查, 使得所建立的模型存在不一致等问题, 影响了建模效率。本文提出了一种基于本体的UML类图的形式化方法, 通过本体提供的推理能力, 对UML类图进行推理, 从而检测出隐藏在UML类图中的不一致等问题, 以达到精确建模的目的, 提高了建模效率。

参考文献

[1]Grady BoochJ, ames Rumbaugh, Ivar Jacobson.The Unified Modeling Language User Guide SECOND EDITION[M].Addison Wesley Pro-fessional, May 19, 2005.

[2]Kim Hamilton, Russell Miles.Learning UML 2.0[M].O'Reilly, A-pril, 2006.

[3]邵维忠, 蒋严冰, 麻志毅.UML现存的问题和发展道路[J].计算机研究与发展2, 003, 40 (4) :509-516.

[4]Evans A, Kent S.Core Meta-modeling Semantics of UML:The pUML Approach[DB].http://www.cs.york.ac.uk/papers/pumlun199.pdf, 2005.

[5]Borst P, Akkermans H.An Ontology Approach to Product Disassembly[C]//EKAW 1997, Sant Feliu De Gu5xols, Spain, October:15-19.

[6]Dencho N Batanov, Waralak Vongdoiwang.Using Ontologies to CreateObject Model for Object-Oriented Software Engineering[M].In:Shar-man, Raj, et al.ONTOLOGIES:A Handbook of Principles, Conceptsand Applications in Information System, Chapter 16.New York:Springer, 2007.

[7]Daniela Berardi.Using DLs to reason on UML class diagrams[C]//Proc.Workshop on Applications of Description Logics.2002.

语义图建模 篇5

在本文中, 通过使用相邻区域之间的贝叶斯网络融合上下文信息, 上下文贝叶斯网络模型 (CBNSO) 建立的局部语义对象, 实现图像自动语义标注和分类。

基本原理

本文提出引入区域语义之间关系, 同时介绍了在附近的多个方向的贝叶斯网络模型的区域背景之间的语义, 对局部语义对象建模的图像模型, 简称CBNSO, 建模过程如图1所示。为了获得局部语义, 首先对图像分割, 特征提取和区域。提取的特征包括两个部分内容区域之间的低层特征和区域邻接关系。应用CBNSO建模分为两个部分:语义类别的训练图像集, 学习贝叶斯网络参数;根据所获得的CBNSO对图像标注推理, 提供区域语义标记。

局部语义对象的CBNSO模型

CBNSO模型的建立分3步: (1) 对检索图像进行分割, 分区域标注出语义特征和场景特征; (2) 进行特征提取, 得到区域的特征信息和邻接信息, 并且根据特征矢量用相应的码字显示; (3) 建立网络模型, 根据特征编码信息对网络进行训练, 得到各节点之间的条件概率表 (CPT) , 从而确定贝叶斯网络参数。

1邻域上下文与区域特征

区域特征由两部分组成:区域本身的特征和区域邻接特征。

要提取本身特征, 首先要进行分割处理, 获得互不交叠的相似特征区域。对每个区域提取纹理、颜色和边缘特征三种类型的特征并对其归一化处理。

本文用GLA对训练图像各区域的特征矢量进行矢量量化来刻画邻接区域的信息, 形成维数大小为H的码书, 图像的每个区域根据其特征矢量由相应的码字表示, 那样相邻的区域便表示为一对码字。例如对于图像I, 区域Ri的编码表示为Ct (Ri) , 其中Ct为特征到码字的映射函数, t∈{0, 1, 2}, 表示边缘、颜色和纹理三种特征类型, 区域对 (Ri, Rj) 对应的码字对为 (Ct (Ri, ) , Ct (Rj) ) 。

我们定义了六种区域邻接关系, 相对于给定的区域R, 定义了R和相邻的区域Radj之间可能的S=6种位置关系, 如图2所示, 0—Radj位于R的上方, 1—Radj位于R的左方, 2—Radj位于R的下方, 3—Radj位于R的右边, 4—Radj包围R, 5—Radj包含于R。

2结构设计

CBNSO模型如图3 (a) 所示, 左侧为CBNSO结构, 右侧为图像的观测数据。在注释 (1) 中提出一种贝叶斯网络模型利用区域上下文的关系, 用于遥感图像的语义建模, 记为CBNL, 如图3 (b) 所示。CBNL不但没有考虑语义之间关系, 也未考虑邻域方向。但在实际场景对象之间却具有上下文关系, 且具有一定的方向性。为表述这种关系, CBNSO由三层节点组成:语义节点, 各个方向的相邻语义节点和邻接区域的码字对节点。最高层为语义概念节点 (节点“M”) , 表示目标区域的语义类别, 取值为选取的语义概念集合{m0, m1, ……, mL-1}, L为语义对象数目;第二层为︱S︱个方向的相邻语义节点 (节点“AMj”) , 表示在与节点“M”相邻位置j上的区域语义类别, 状态取值和节点“M”相同;第三层为区域码字对节点“CPi”, 表示“M”和“AMj”对应区域的码字, 状态取值集合为{ (1, 1) , …, (H, H) }, H为码书的长度。右侧作为观察数据的图像, I为图库中的图像, Ri表示图像的某一区域, (RiRj) 表示区域Ri与相邻区域Rj形成的区域对。可通过对区域特征进行编码, 为得到节点“CPi”的状态取值为, (Ct (Ri) , Ci (Rj) ) 。

条件概率表 (CPT) 确定了贝叶斯网络的参数, 每个节点的CPT表示了这个节点及其父节点在所有状态值下的条件概率。将图像分割并提取区域特征继而进行编码。以区域的字、区域语义作为贝叶斯网络条件概率表训练数据, 设训练的区域集合为T, 区域Ri的语义为M (Ri) , Ri的邻接区域集合adj (Ri) ={Ri, 0…Ri, ︱S︱-1}。在提取区域邻接信息时, 一般选取该方向上与中心区域相邻最多的区域作为该方向的邻接区域。

3参数学习

根据极大似然的参数估计方法, 语义节点间的条件概率由下式学习:

语义节点和码字对节点之间的条件概率为:

实验分析

为了说明本文提出的模型的优点, 根据通常所用的方法和本模型进行了三组实验: (1) 以CBNSO为模型的区域语义识别和标注; (2) 以SVM分类器为模型对检索图像进行识别和分类; (3) 用Li等人提出的BNL模型对检索图像的区域进行识别和标注。三种方法与注释 (2) 的实验结果如表1所示。可见, CBNSO与CBNL、SVM方法、注释 (2) 相比标注准确率有较大提高。

小结

在复杂的图像场景中, 受到多种客观条件和因素的制约及影响, 不同的语义对象可能会呈现出特征空间上很相近的特征矢量。要解决这一问题, 就要对图像内部的上下文关系和结构特征进行提取和分析, 来识别在特征空间上相近的内容。本文提出的基于CBNSO的区域语义推理和标记, 能够在分析上下文关系的基础上, 同时考虑区域邻接的贝叶斯网络模型, 有效地对场景图像进行了语义标注和分类。本算法与传统SVM分类方法相比, 分类准确率明显提高。

注释

11 Y.Li, and T.R.Bretschneider.Semantic-Sensitive Satellite Image Retrieval[J].IEEE Tansactions on Geosience and Remote Sensing, 2007, 45:853-860.

上一篇:传统家庭模式下一篇:钢筋混凝土顶管