药学文献检索 常用中文期刊数据库药学文献检索比较

常用中文期刊数据库药学文献检索比较

常用中文期刊数据库药学文献检索比较 任何一个数据库都没有收录全部的医药文献。对数据库检索功能进行 比较报道较多,而数据库标引质量对检索结果影响则似未见报道。我们拟通过个 别词模拟检索,对数据库进行探索性的对比性研究,以找出数据库标引质量影响 文献检索结果的因素,为医药学工作者文献检索提供参考。以下是整理的药学 1.资料与方法 1.1收录期刊分析 以《中文核心期刊要目总览》中的药学类专业期刊一览表收录的期刊、 《中国科技期刊弓I证报告》中2003年药学类期刊总被引频次和影响因子排序表 收录的期刊刊名为检索词,分别对中国生物医学文摘数据库(CBM)、中国期刊 全文数据库(CNK)以及中文科技期刊数据库(VIP)三个数据库进行检索,检索时 段为2000~2003年,对于没有收录的期刊名称,查对《中国科技期刊引证报告》 中期刊名称变更表确认。对期刊名称作为自由词的检索结果也进行对比分析。

1.2自由词检索分析 为了充分反映各数据库对常用词汇的标引情况,特选取使用频率较髙、 表达方式多样的词汇“促红细胞生成素”为检索词,但预检索发现CBM主题词为 “红细胞生成素”,鉴于“红细胞生成素”包含于“促红细胞生成素”,故确定以“红细 胞生成素”为检索词,分别对CBM、CNK、VIP进行检索。为避免数据库标引时 滞的影响,检索时段为2000-2003年。检索字段为文献题目、关键词、摘要、主 题词。

1.3作者检索分析 在自由词检索过程中发现,作者的收录标引格式变化较大,如单姓、 单名间有的有空格,有的则没有。为了避免标引格式的差异,从检索到的文献中 随机选取3位单姓双名作者,进行作者字段检索,对检索结果进行描述性统计分析。

1.4检索文献的比较 为了便于比较从CBM、CNK、VIP数据库中检索到文献的差异,以 VisualFoxpro6.0为工具,编写文献汇总程序,利用计算机将相同的文章比较、合并,供进一步分析。

2.结果 2.1收录期刊分析 药学类专业期刊一览表和2003年药学类期刊总被引频次和影响因子 排序表[12]中共收录刊物79种,CBM、CNK和VIP分别收录了71,60和70种。未 收录的多为专题性刊物、新创刊刊物和地方性刊物。数据库间对同一期刊的收录 起始年份也不尽相同。

期刊名称,尤其是带有副刊名的期刊名称,在不同的数据库中表达方 法不一致。其中VIP多采用中文冒号“:”分割副刊名,CBM、CNK多采用间隔符 号“_”,有时也采用英文句点“.”。有时同一年份、同一数据库格式也有差异。

2.2中国生物医学文摘数据库的检索结果 检索词为“红细胞生成素”,检索字段为关键词、摘要、题目和主题词’ 分别检索到373’386’426和706篇文献;
四个字段检索结果逻辑或(OR)合并,获 得767篇不重复文献。如果不考虑检索准确率(即检索特异性),假设这767篇文 献为所有文献,则检出率分别为:关键词49%、摘要50%、题目56%、主题词92%。

主题词的文献检出率最高,关键词最低。四个字段均包含该检索词的文献,仅有 231篇,占所有文献的30%;关键词、摘要、题目三个字段均包含的文献有233篇, 占30%。主题词、摘要、题目三个字段均包含的文献有245篇,占32%。两两组 合中,以题目与主题词相关性最好,均检索到的文献有422篇一致,分别占各自 检出文献的99%,60%,占所有文献的55%。

关键词检索到而主题词未检出的有12篇。题目检索到而主题词中未检 出的有4篇。部分文献的记录显示有关键词而没有标弓I主题词。

2.3中国期刊全文数据库的检索结果 检索词为“红细胞生成素”,检索字段为主题词时,显示文献数量为0。

检索字段为关键词、摘要和题目,分别检索到355,386和384篇文献,合并汇总共 有568篇不重复文献。如果假设这568篇文献为所有文献,则检出率分别为关键词 62%、摘要68%和题目68%。三个字段均包含该检索词的文献,仅有222篇,占所 有文献的39%。两两组合中,以关键词与摘要相关性最好,检索出的文献有271篇一致,分别占各自检出文献的76%、70%,占所有文献的48%。

检索结果中,题目中包含“红细胞生成素”而关键词中不包含的有120 篇(21%)。题目包含而摘要中没有包含的文献有98篇(17%),与原文对比发现, 原文没有关键词的文献’本检索系统中也不包含关键词。题目中包含“重组人红细 胞生成素”,关键词中有“重组人红细胞生成素”、“红细胞生成素,重组”、“红细 胞生成素”、“促红细胞生成素”等几种表达方法,影响了检出结果。

2.4中文科技期刊数据库的检索结果 检索词为“红细胞生成素”,检索字段为主题词时,显示文献数量为0。

检索字段为关键词、摘要和题目,分别检索到490,367和382篇文献,合并汇总 共有599篇不重复文献。如果假设这599篇文献为所有文献,则检出率分别为 82%,61%和64%。三个字段均包含该检索词的文献,有220篇,占所有文献的37%。

两两组合中,以关键词与题目相关性最好,检索出的文献有354篇一致’分别占各 自检出文献的72%,93%,占所有文献的59%。

2.5数据库标引质量对检索结果的影响 三个数据库以“红细胞生成素”为检索词的检索结果共计有1934篇文 献。经过计算机自动比较汇总(题目相同、作者相同、源期刊名、卷期相同的文 献自动合并),再人工逐一核对,获得887篇不重复文献,超过任何一个数据库的 收载总量。汇总合并过程中发现有374篇次有差异。经过与原始文献对比,发现主 要是数据库标引的文献题目和作者名称与原文有差异’主要表现在错别字、冷僻 字表达格式不同等,但标引的题目、关键词有误时,仍可通过其它字段检索可以 获得。

对原文献有关字段有错别字的处理,各数据库方法不尽相同。CNK 似未作修正,CBM在收录标引过程中作了修改。对于下标的表示方法,数据库间 也不尽相同。CNK就以下划线加括号表示下标,CBM和VIP中则不作标志。

2.6数据库标引深度的比较 2.7作者字段检索结果对比分析 各数据库作者字段的检索结果见表1。CBM与CNK之间重合性较好, 而VIP在检出率和与其他数据库之间的重叠方面都较低,许多文献的作者仅收录前2位,后跟“等.”,2003年的部分文献收录了所有作者。

作者一栏中,漏作者、名字漏字、错字较多见。另外,数据库间论文 作者署名格式变异较大的应算译文,如:《国外医学》系列杂志的原作者、翻译者、 综述者和审校者等在各数据库的收录格式不相同,有的标明综述者、审校者,有 的则不标明,有的忽略审校者;同一数据库也有差异;多个并列合作单位的作者顺 序、协作组与执笔者的收录情况也不一致。

3.讨论 三个数据库的检索结果均超过300篇,基本能反映当时各数据库文献 收录和标引质量。从选定的79种药学类专业期刊收录情况看,中国生物医学文摘 数据库最为全面,中文科技期刊数据库次之。对于收录的期刊,开始收录的年限 也不尽相同,时有能检索到期刊名称和某年份其他文献,而检索不到特定文献的 情况。期刊名称在不同数据库表达方法不一致,将影响通过期刊名称检索文献的 检出率。

以“红细胞生成素”检索中国生物医学文摘数据库,主题词的检出率最 高91%,关键词最低不足50%,提示检索该数据库选准主题词是关键。主题词检索 为精确匹配时,则检索不到主题词为“受体,红细胞生成素”的文献,选定“包含” 检索模式则可以。当检索字段为主题词时,也应该恰当地选定检索方法。数据库 标引过程中,对有的题目和关键词中均有的词汇,不标引为主题词’应该说是恰 当的,有利于提高检索的准确率。主题词标引的正确与否对主题检索的影响很大。

抽取部分文献与原文对比发现,中国期刊全文数据库收录的关键词直 接取自原文,而关键词选择的准确性和合理.性,取决于作者与编辑的水平,难以统 一,势必影响检索结果的全面性和准确性。中文科技期刊数据库的关键词则经过 重新标引,标引深度得到一定提局。

三个数据库检索结果汇总比较显示尚有约374的篇次有差异。这提示 数据库标引过程中,对文字编辑校对工作尚需加强,并尽力统一表达方式。可以 通过设计一定的错别字查找软件,进行相关提示。

从作者字段检索结果来看,中文科技期刊数据库在检出率以及与其他 数据库之间的重叠方面都比较低,且检索时段内大部分文献的作者仅收录前2位。这可能受国内科研评价系统注重第一作者的思想有关。但是,这不利于根据作者 进行特定课题、研究方向的追踪检索。大凡判定研究方向的研究者,多数是课题 负责人,作为第一作者发表论文的机会较少。尤其有欧美留学经历者,往往遵照 研究指导者总是署名最后的国际习惯。对这样的文献,通过作者途径就可能无法 检索到课题的主导者。

数据库对于期刊名称和作者姓名等内容的收录和标引格式应规范化, 取得一致,以方便检索用户,提高文献检全率。如果对常用词汇增加类似Medline 的人口词-主题词对照表,或者丰富检索词轮排表,将极大地方便检索用户,可以 提高文献检全率。

各数据库的检索结果显示题目与主题词相关性均较高,反映出原文献 作者确定题目、选取关键词的一致性倾向。然而作者和编辑应从全文出发,根据 主题词表选取关键词,进一步扩大关键词的信息涵盖量。数据库应进一步提高标 引深度和广度,并对标引过程中产生的错误进行及时修正,并注意不同专业相同 缩略语容易造成歧义,引起标引误差,尤其是缩略语用作关键词时。对于原文中存 在的错误,建议采纳CBM收录标引过程中对原文献的错误作进行修改的方法, 同时实行相应纠正标注或者其他处理措施,既避免以讹传讹,又可提高文献利用率。

检索结果还提示有些源期刊的编辑质量有待提高,除了错别字外,在 主题词的选择与确定上’应加大规范力度,特别是药品名称应规范化地采用通用名 称。

虽然中国生物医学文摘数据库与中国期刊全文数据库、中文科技期刊 数据库分别属于文摘型和全文型数据库,本不具可比性,但是在实际工作中,并没 有截然区分。诸多信息工作者巳经对其从检索功能、系统性能方面进行了比较, 也研究了其在学科文献的收录、质量控制情况,属于宏观质量考评。本文从收录 标引质量的微观角度进行了比较,探讨收录特点、标引误差导致文献不能被检索 弓I用的因素,以便引起期刊编辑和医药工作者的重视。限于条件,仅就本单位图书 馆订阅的中国生物医学文摘数据库、中国期刊全文数据库和中文科技期刊数据库 进行了初步分析,希望能有更多的医药信息工作者关注此类问题,使数据库充分 发挥应有作用。

孙华君,春芳,张明华,胡晋红¥上海长海医院药学部,解放军总医院医学 保障部药品供应中心