WEB开发网
开发学院数据库DB2 DB2信息追凶 阅读

DB2信息追凶

 2010-05-14 15:00:48 来源:WEB开发网   
核心提示:智能关联语义分析通过综合信息关联和 DB2 PureXML 的存储和查询技术,我们可以找到信息关联并方便地运用,DB2信息追凶(5),刑侦破案除了会通过查询方式来利用信息关联,也会涉及到处理大量的文本信息,<relation name="manager" strength="0.7&

智能关联语义分析

通过综合信息关联和 DB2 PureXML 的存储和查询技术,我们可以找到信息关联并方便地运用。刑侦破案除了会通过查询方式来利用信息关联,也会涉及到处理大量的文本信息,比如对案件相关人员的访谈记录、对嫌疑人的审讯笔录等。如何在这些文本信息处理中使用已知的综合信息关联,提高破案效率呢?

IBM LanguageWare Miner for Multidimensional Socio-Semantic Networks (以下简称Miner)提供了信息关联网络中语义分析的信息处理解决方案,它通过获取已知节点的信息数据,推断出新的信息节点,从而完成整个信息网络中的语义关联。

Miner 提供了信息关联网络中涉及到的语义和词典的映射功能。首先需要把已知的信息节点构建成词典,词典是基于 XML 的模型,存放在 DB2 PureXML 中。词典内容分为以下两部分内容:

节点部分:存放对同一内容不同描述的定义,如 Mang David、David Mang、David F Mang、Dave Mang、David 和 Dave 都是表述同一个人。这部分 XML 信息会被 Miner 编译成为 *.lex.dic。

关联部分:存放信息节点之间的关系,如 Mang David 和 Marc R Smith 是老乡,Mang David 和 Emma Doyle 同住在一起。这部分 XML 信息会被 Miner 编译成为 *.sem.dic。

针对本文的综合信息关联部分的例子,在 DB2 PureXML 存放语义词典内容如下所示。

清单 4. DB2 PureXML 中建立语义分析词典

<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<lsxml xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
        xsi:noNamespaceSchemaLocation="lsxml.xsd">
 <relations>
  <graph name="关联"/>
 </relations>  
 <nodes>
  <node id="A-701" type="人">
   <name text="Marc R Smith"/>
   <property name="地址" value="123 Main St"></property>
   <property name="电话" value="(713) 730 5769"></property>
   <property name="社保卡号" value="537-27-6402"></property>
   <property name="驾驶证" value="0001133107"></property>
   <link rel="关联" id="B-9103"/>
   <link rel="关联" id="C-6251"/>
  </node>
  <node id="B-9103" type="人">
   <name text="Randal Smith"/>
   <property name="出生日期" value="06/17/1974"></property>
   <property name="电话" value="(713) 731 5577"></property>
   <link rel="关联" id="A-701"/>
   <link rel="关联" id="C-6251"/>
  </node> 
  <node id="C-6251" type="人">
   <name text="Mark Randy Smith"/>
   <property name="地址" value="456 First Street"></property>
   <property name="电话" value="(713) 731 5577"></property>
   <property name="驾驶证" value="1133107"></property>
   <link rel="关联" id="A-701"/>
   <link rel="关联" id="B-9103"/>
  </node>
 </nodes>
</lsxml>

我们会发现 清单 4 和 清单 1 的内容十分类似,不同的是在语义分析词典中会包含下列指定的 XML 元素:

节点:每个节点要有唯一 ID 标识,在本例中就是用信息源和主键编号作为 ID。类型属性是用来分类,而名称则是用来定义界面的显示。

<node id="A-701" type="人"><name text="Marc R Smith"/></node>

属性:每个信息节点都可以有很多附属的信息,这些信息可以作为属性部分列出。

<node id="A-701" type="人">    
 <property name="地址" value="123 Main St"></property>
 <property name="电话" value="(713) 730 5769"></property>
 <property name="社保卡号" value="537-27-6402"></property>
 <property name="驾驶证" value="0001133107"></property>
</node>

关联:一系列的关联揭示出复杂的信息网络,每个连接都是描述两个信息节点之间的关系。<node id="A-701" type="人"><link rel="关联" id="B-9103"/></node>

多级关联之间的权重可以通过 XML 的属性的配置实现,配置可以针对特定名称的关联或者用通配符表示。在多级关联中,每次关联都会使关系权重衰减,该参数就是 strength。不同关联的连接可以人为修改 strength,这个参数就是 changing。<relation name="manager" strength="0.7" changing="0.5" />
<relation name="*" strength="0.4" changing="0.2" />

关联的种类分为:有方向的关联、对等关联和树状关联。

有方向的关联:是最常见的关联方式,需要说明正向关联和反向关联的名称。<digraph name="管理" reverse="被管理"/>
<node id="John Smith">
 <link rel="管理" id="Mary Allen"/>
</node>
<node id="Mary Allen">
 <link rel="被管理" id="John Smith"/>
</node>

上一页  1 2 3 4 5 6 7  下一页

Tags:DB 信息

编辑录入:爽爽 [复制链接] [打 印]
赞助商链接