文献数据库是为用户服务提供、进行Internet上网服务、进行文献计量的基础,是进行文献处理自动化、自动标引、自动文摘的素材。数据库质量不高,不仅会使馆藏文献检索不出来,而且还会出现检索出来的文献在馆藏中找不到等现象,因此,文献数据库质量的好坏直接影响馆藏文献的利用,影响为用户服务的质量。提高文献数据库管理质量迫在眉睫。
文献数据库的建设是一个长期积累的过程,不是一朝一夕的事,对数据库进行质量后期控制必须加强。但文献数据库的质量控制较为繁琐,需要在日常工作中不断地发现问题,解决问题。
问 题
在对文献数据库检索过程中,我们发现影响文献数据库的质量问题比较典型的有:
1.缺少不应缺少的字段。
2.叙词词形错误,与词表不一致。
3.乱码或存在不应存在的字符。
4.数据字段位置不对。
5.子字段混在一起,无子字段分割符,无法分开。
6.同一字段中的子字段颠倒。7.排版命令出现在数据库中。
8.本应一一对应的字段,出现一对多、多对一的情况。
9.英文单词词形错误。
10.著录不规范、不统一。
11.相关字段不匹配等。
措 施
为解决这些问题,我们采用了中国科技信息研究所研制开发的、具有多媒体信息管理、全文检索、运行速度快等特点的quick ims通用信息管理系统。为满足刊库的质量控制要求,还自行开发了一些实用程序,如:
1.通用的字段校对程序。
2.主题索引自动编排程序。
3.判断字段内容出现次数程序。
4. 用于套录外文文献,接收转换英文光盘数据程序。
5.回装数据程序等。
同时,为加强文献数据库质量控制,我们还采取了有效的控制措施,大大地提高了文献数据库质量。
字段设置:在定义数据库结构时,字段设置明确以方便质量控制、输出转换。
著录与查重:省去著录工作单这一环节,直接在屏幕上著录。录入时强调使用隐含值定义功能。录入机构代码,然后利用机构库转换生成机构的中文字段和英文字段。
校对、回装中文字段、英文字段:输出外文题目与外文文摘字段,输出时带字段标识符,利用word perfect系统校对英文单词词形,保证单词词形的准确性。校对完成后,回装数据。输出中文题目和中文文摘字段,利用黑马中文校对系统校中文题目和中文文摘。
相关字段校验:输出刊名与issn、cn对照清单、issn、cn与刊名对照清单,可以方便地发现一对多、多对一的情况。
倒排或打印比较检查:对某些字段单独打印输出或倒排后浏览数据词典,进行比较即可发现错误。例如馆藏单位代码及索取号字段,馆藏单位代码长度2位且是固定的,一看便知是否正确。对大部分字段、全部子字段进行比较检查,可发现录入数据字段位置错误,子字段标识符混乱的情况,进行同类检查可保证字段内容在应该存放的字段中。
规范数据库维护:转换汉字操作系统的汉字-拼音对照表,建立字音数据库,生成根据字音库转换出来的拼音字段,与数据库中的个人责任者拼音字段比较,可以发现著录时发音不准、拼写错误等情况。注重机构库的日常维护,发现机构库中未出现的机构,及时编码并维护机构数据库。同时利用机构数据库可对已经形成的数据库中的机构字段统一,避免一个机构多种名称的情况,将机构编码表提供用户可方便用户检索。
校对机构代码和主题词:利用校对程序校对机构代码和主题词,打印出在规范词典中未出现的机构代码清单和主题词清单。
主题词数据库:对于无主题词库的单位,打印排序生成主题词的清单,将此清单与主题词表比较校对,可减少编辑校对主题词的工作量。主题词库可由已形成的数据库生成,排序打印主题词清单,与主题词表对照,修改数据库后转换生成用于校对主题词的主题词数据库,逐步完善,提供准确的主题词数据库供校对用。
生成对应的英文字段:利用汉英主题词数据库生成英文主题词字段,利用机构数库生成机构的中文名称字段、英文名称字段。
辅助数据库:在出版文摘时,需要多个辅助的数据库,汉英主题词对照库、字音库、调序的中文主题词数据库、调序的英文主题词数据库、个人责任者数据库、机构库等。
排版输出:利用版式生成程序输出文摘正文和各种索引,保证了版式的一致和编排形式的多样性,编辑校对大样时间可大大缩短。
根据馆藏的文献检索添加馆藏单位代码、索取号,翻译题目,利用主题词词库自动生成中文叙词,形成完整的记录,文献数据库的建立为我们利用文献提供了方便,大大降低了人力、物力,提高了工作效率,但文献数据库的建立与维护是个艰苦的过程。在国内多个“联机编目系统”已经立项启动的情况下,还应加强各种附助词典编制及数据库的建设,尤其是机构代码数据库编制任务非常繁重。(T004)
大型分布式实时数据库在钢铁中的应用
数据库使用经验漫谈