[基于多模态信息融合的数字图书馆信息集成服务研究] 什么是多模态

基于多模态信息融合的数字图书馆信息集成服务研究

基于多模态信息融合的数字图书馆信息集成服务研究 随着网络技术的飞速发展,本文将多模态信息融合技术 融入到数字图书馆信息集成服务中,并提出了一种全新的数 字图书馆信息集成服务模式。

摘 要:
数字图书馆;
信息集成服务;
多模态信息融合 随着信息技术和互联网的不断发展,数字化的信息 资源越来越庞大,数字图书馆技术已日趋成熟,与此同时数 字图书馆的研究与建设也取得了较大的成就。在数字图书馆 建设过程中主要实施了信息集成服务体系,即对信息机构、 信息资源、信息技术以及信息产品等各种资源进行全方位整 合,从而为信息用户提供在时间和空间上一致的面向特定主 题的信息服务,其最终目的是为构建数字图书馆面向信息用 户综合化、高效能的信息服务平台。

一 数字图书馆信息集成服务现状分析 所谓信息集成服务是指在互联网环境下,通过对各个服 务要素进行综合集成与动态整合并构建优势互补的集成化 服务体系,从而使信息用户能够在最少的时间内花费最小的 成本利用到最符合自身需要的资源和服务的一种服务思想 理念和模式(周永红,2007)[1]。数字图书馆信息集成服 务也就是针对用户特定主题的信息需求,动态集成来自多个 数字图书馆的信息资源,共同满足用户的信息需求。

数字图书馆其实是一个非常复杂的信息系统,目前研究表明,要想有效地实现数字图书馆信息集成服务面临着三大 挑战:自治性、分布性和异构性[2]。其中异构性是数据源 面的临最普遍问题,数据源的异构性主要包括系统异构、语 法异构、结构异构和语义异构这四个方面。为了解决该难题, 本文提出了基于多模态信息融合的数字图书馆信息集成服 务模式。

二 基于多模态信息融合的数字图书馆的信息集成服务 模式 (一)多模态信息融合的内涵 多模态信息是指来自不同信息源的对同一个描述目标 的不同或者相同侧面的有关信息,这些信息在存储结构、表 现形式、语义内涵、可信度、侧重点等方面都不尽相同,但 它们之间却存在着某种必然的联系。由此可知,多模态信息 也属于异构信息资源,如果想要充分利用这些异构的多模态 信息就必须将其进行有效融合,多模态信息融合是指一种综 合利用自然语言处理、语义分析、统计分析等技术方法对多 模态信息资源进行多层次和多维度检测、关联、估计、组合、 分析的信息处理过程,其目的是对信息对象的结构和内涵进 行优化,为用户有关某一特定主题的问题求解提供更有效的 决策性信息产品。从这一点来看,多模态信息融合的目的也 正好和数字图书馆信息集成服务的目的是不谋而合的,因此 两者的结合也是必然趋势。多模态信息融合主要包括三个层 级的融合:数据层融合、特征层融合以及决策层融合[3]。(二)基于多模态信息融合的数字图书馆信息集成服务 模式 本文将数字图书馆信息集成服务和多模态信息融合技 术结合起来提出了一种全新的数字图书馆信息集成服务模 式,即基于多模态信息融合的数字图书馆信息集成服务模式, 如图2-1所示。

图2-1 基于多模态信息融合的数字图书馆信息集成服 务模式 数字图书馆信息集成服务主要包括四个要素的集成,即 信息机构、信息资源、信息技术和信息产品。

(1) 信息机构集成,信息机构根据目前各个用户的信 息需求通过各种途径采集大量的信息并将其存储于数据库 中,那么信息机构集成一般是指将本地数字图书馆与远程数 字图书馆中的信息资源进行链接,突破了时间和空间的限制, 从而实现多个数字图书馆信息机构的集成。

(2) 信息资源集成,是指将各个数字图书馆中存储的 信息资源进行综合集成,这些信息资源是来自不同信息机构, 且它们的存储形式、包含的内在信息都是不相同的,在这个 过程可以运用多模态信息融合技术中的数据层融合方法来 将这些信息资源进行更有效地整合,将符合信息用户需求的 信息先找出来,然后再将这些信息按照与主题相关程度进行 分类,分为重要信息和次要信息,并将无关信息或重复冗余 信息剔除,这样将有利于后续其他的信息分析活动有效进行,从而达到我们所想要的效果。

(3) 信息技术集成,就是以用户的特定信息需求任务 为驱动,将各种信息技术进行合理的动态集成,当然,这个 过程是需要结合已经集成好的信息资源来进行,因为信息技 术主要的处理对象还是信息资源。此时,可以利用多模态信 息特征层融合技术,即对集成好的信息资源进行特征提取, 找出各个模态信息与用户需求相关性很大的信息特征,并将 它们进行一定程度的融合,从而通过信息集成技术让融合好 的信息资源更加直观形象地呈现在用户面前,让用户从不同 感官角度来体验这些信息,这样将有利于用户更好地获取自 身想要的信息资源。

(4) 信息产品集成,该过程是指在上述信息资源经过 数据层融合和特征层融合之后,还需进行的最后一个层级的 融合,即决策层融合。由于用户在搜寻信息时一般是想获得 与相关主题有关的一个确定性问题解决方案,因此为了能够 为用户提供更好更有效的信息服务,该服务模式还需要根据 用户现实表达出来的信息需求,推测出其潜在的信息需求, 即用户没有表达出来的信息需求,或者是与用户信息需求相 关性比较大的延伸性信息,并将这些信息经过有效的决策融 合,最后得到一个与用户信息需求相关性很大的决策性信息 产品,该产品中不仅包含了用户所需的问题解决策略,而且 还包括了与之有关的其他信息,如用户的潜在信息以及与该 主题相关的拓展性信息。三 该模式中运用到的关键技术和方法 基于多模态信息融合的数字图书馆信息集成服务模式 中主要是运用了多模态信息融合的三个层级中相关的融合 技术和方法,它们主要包括以下几个方面:
(2)主题聚类 :该技术主要运用于数据层融合时对数 字图书馆中存储的数据进行主题分类处理,即将信息资源中 相同或相似主题的信息分成一类。主题聚类通常分为全局聚 类和局部聚类。在全局聚类中,主题是根据它们在整个信息 集合中的出现情况进行分组的;
在局部聚类模式中,主题的 分组受到当前用户查询及其检出的局部信息等上下文的影 响。该聚类方法给数字图书馆为用户的提供其面向特定主题 信息需求服务打好了夯实的基础。

(3)相关规则:关联规则挖掘就是发现数据集中项集 之间的关联性或相互联系,它是数据挖掘领域的一个重要分 支。设I={i1,i2,…,im}是项(Item)的集合,D是数据库事 务T的集合。每个事务T是不同项的集合,并且TI。设A是一 个项集,事务T包含A,当且仅当AT。关联规则是形如AB的蕴 涵式,其中AI,BI,并且A∩B=Φ。

该规则主要运用于信息 资源的特征层融合过程中,即使用该规则来判断各种资源不 同特征的相关性程度。

(4)空间向量模型(VSM): 指把对文本内容的处理简 化为向量空间中的向量运算,当文档被表示为文档空间的向 量,就可以通过计算向量之间的相似性来度量文档间的相似性,也就是用向量空间上的相似度来表达语义的相似度,直 观易懂。基于该思想,空间向量模型主要运用于将经过决策 层融合之后的信息产品与用户的信息需求相匹配,从而计算 出两者的相似程度,当然相似程度越大,说明该信息产品越 符合用户的信息需求,反之则不然。

(5)提问融合方法:该方法主要运用于信息用户进行主 题查询时,通常用户进行信息输入的检索词不一定能完全代 表自己真实的信息需求,或者自己不知道如何准确地表达自 己的真实需求,而且表达相同主题的不同检索词搜索出来的 信息也是不尽相同的,那么为了能够更准确地表达自己的信 息需求就需要进行提问融合。

四 结 语 随着时代的发展,图书馆这种传统的信息服务机构也需 与时俱进,它从传统的图书馆服务模式到数字图书馆,再从 数字图书馆发展到后数字图书馆,其服务模式也在不断地发 生变化,本文主要从数字图书馆信息集成服务的角度出发, 其中结合了多模态信息融合技术来探讨数字图书馆的信息 集成服务模式,当然该模式中还存在很多不足的地方,需要 我们进行深入研究,但同时它也为大家提供一个全新信息集 成服务模式研究视角。

参考文献:
[1] 周永红.信息集成服务的含义、发展与主要类型.情 报理论与实践,2007(5)[2] 焦玉英,袁静.基于用户个性化需求的数字图书馆 集成服务研究.图书馆情报工作,2009(3) [3] 潘巍,王阳生,杨宏戟.多模态信息融合的一般功 能模型设计——基于融合功能与信息层次.计算机工程与运 用,2006(29)