DB2信息追凶

　2010-05-14 15:00:48　来源：WEB开发网　　　

核心提示：智能关联语义分析通过综合信息关联和 DB2 PureXML 的存储和查询技术，我们可以找到信息关联并方便地运用，DB2信息追凶(5)，刑侦破案除了会通过查询方式来利用信息关联，也会涉及到处理大量的文本信息，<relation name="manager" strength="0.7&

智能关联语义分析

通过综合信息关联和 DB2 PureXML 的存储和查询技术，我们可以找到信息关联并方便地运用。刑侦破案除了会通过查询方式来利用信息关联，也会涉及到处理大量的文本信息，比如对案件相关人员的访谈记录、对嫌疑人的审讯笔录等。如何在这些文本信息处理中使用已知的综合信息关联，提高破案效率呢？

IBM LanguageWare Miner for Multidimensional Socio-Semantic Networks （以下简称Miner）提供了信息关联网络中语义分析的信息处理解决方案，它通过获取已知节点的信息数据，推断出新的信息节点，从而完成整个信息网络中的语义关联。

Miner 提供了信息关联网络中涉及到的语义和词典的映射功能。首先需要把已知的信息节点构建成词典，词典是基于 XML 的模型，存放在 DB2 PureXML 中。词典内容分为以下两部分内容：

节点部分：存放对同一内容不同描述的定义，如 Mang David、David Mang、David F Mang、Dave Mang、David 和 Dave 都是表述同一个人。这部分 XML 信息会被 Miner 编译成为 *.lex.dic。

关联部分：存放信息节点之间的关系，如 Mang David 和 Marc R Smith 是老乡，Mang David 和 Emma Doyle 同住在一起。这部分 XML 信息会被 Miner 编译成为 *.sem.dic。

针对本文的综合信息关联部分的例子，在 DB2 PureXML 存放语义词典内容如下所示。

清单 4. DB2 PureXML 中建立语义分析词典

<?xml version="1.0" encoding="utf-8" standalone="yes"?> <lsxml xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" 　　　　　　　　xsi:noNamespaceSchemaLocation="lsxml.xsd"> 　<relations> 　　<graph name="关联"/> 　</relations>　　　<nodes> 　　<node id="A-701" type="人"> 　　　<name text="Marc R Smith"/> 　　　<property name="地址" value="123 Main St"></property> 　　　<property name="电话" value="(713) 730 5769"></property> 　　　<property name="社保卡号" value="537-27-6402"></property> 　　　<property name="驾驶证" value="0001133107"></property> 　　　<link rel="关联" id="B-9103"/> 　　　<link rel="关联" id="C-6251"/> 　　</node> 　　<node id="B-9103" type="人"> 　　　<name text="Randal Smith"/> 　　　<property name="出生日期" value="06/17/1974"></property> 　　　<property name="电话" value="(713) 731 5577"></property> 　　　<link rel="关联" id="A-701"/> 　　　<link rel="关联" id="C-6251"/> 　　</node>　　　<node id="C-6251" type="人"> 　　　<name text="Mark Randy Smith"/> 　　　<property name="地址" value="456 First Street"></property> 　　　<property name="电话" value="(713) 731 5577"></property> 　　　<property name="驾驶证" value="1133107"></property> 　　　<link rel="关联" id="A-701"/> 　　　<link rel="关联" id="B-9103"/> 　　</node> 　</nodes> </lsxml>

我们会发现清单 4 和清单 1 的内容十分类似，不同的是在语义分析词典中会包含下列指定的 XML 元素：

节点：每个节点要有唯一 ID 标识，在本例中就是用信息源和主键编号作为 ID。类型属性是用来分类，而名称则是用来定义界面的显示。

<node id="A-701" type="人"><name text="Marc R Smith"/></node>

属性：每个信息节点都可以有很多附属的信息，这些信息可以作为属性部分列出。

<node id="A-701" type="人">　　　　　<property name="地址" value="123 Main St"></property> 　<property name="电话" value="(713) 730 5769"></property> 　<property name="社保卡号" value="537-27-6402"></property> 　<property name="驾驶证" value="0001133107"></property> </node>

关联：一系列的关联揭示出复杂的信息网络，每个连接都是描述两个信息节点之间的关系。<node id="A-701" type="人"><link rel="关联" id="B-9103"/></node>

多级关联之间的权重可以通过 XML 的属性的配置实现，配置可以针对特定名称的关联或者用通配符表示。在多级关联中，每次关联都会使关系权重衰减，该参数就是 strength。不同关联的连接可以人为修改 strength，这个参数就是 changing。<relation name="manager" strength="0.7" changing="0.5" /> <relation name="*" strength="0.4" changing="0.2" />

关联的种类分为：有方向的关联、对等关联和树状关联。

有方向的关联：是最常见的关联方式，需要说明正向关联和反向关联的名称。<digraph name="管理" reverse="被管理"/> <node id="John Smith"> 　<link rel="管理" id="Mary Allen"/> </node> <node id="Mary Allen"> 　<link rel="被管理" id="John Smith"/> </node>