DSMM-015 元数据安全管理规范V1.0
第一章 总则
第一条 为有效和准确的使用核心业务系统信息资源,依据北京思度咨询科技有限公司各业务信息资源特点,对数据进行智能化加工处理,并最终为各子系统之间的数据关联、共享提供及时、准确、科学的辅助决策依据,制定本规范。
第二条 本规范适用于规范北京思度咨询科技有限公司各业务系统的元数据管理。
第二章 术语与定义
第三条 业务元数据
业务元数据包括以下信息:使用者的业务术语所表达的数据模型、对象名和属性名;访问数据的原则和数据来源;系统所提供的分析方法及公式、报表信息。业务元数据的管理除了管理上述信息外,还包括对业务元数据来源的管理和差异性对比,使用户能够方便的查询、比较和追溯。
第四条 技术元数据
技术元数据是存储关于数据仓库系统技术细节的数据,是用于开发和管理数据仓库的数据,主要包括数据仓库结构的描述(各个主题的定义等)、ODS层(操作数据存储ODS. Operation Data Storage)的企业数据模型描述(以描述关系表及其关联关系为形式)、对数据稽核规则的定义、数据集市定义描述与装载描述。
第五条 信息资源
信息资源(Information Resource)定义为"任何可以标识的东西",是本规范的基本范畴和描述对象。信息资源可以是数字,也可以是实体。常见的信息资源有电子文档、图像、服务、资源集合等。本规范主要应用于政府单位等机构中常见的信息资源。
第六条 实体
指所描述的对象集合、对象以及对象的组成部分,具有区别性的存在。
第七条 元数据集
元数据集(Metadata schema)规定和描述标准元数据集元素以及元素间相互关系的框架。语句集为元数据元素提供正式的结果(句法)和语义(定义)。
第八条 元数据结构
元数据集由一系列的元素组成,元素之间的相互关系形成了元数据结构(Metadata structures)。元数据结构提现元数据拓展的方法与机制。元数据抽象模型的建立对其元素的拓展与整个元数据方案的规范有参考作用。
第九条 元数据元素
元数据元素(Metadata Element)是资源对象某一方面的属性。资源对象的全部属性构成元素集合,是描述某一类资源对象元数据方案的主要组成部分。每个元素可以用ISO/IEC DIS 1H79定义的属性进行定义。
第十条 元数据记录和元数据描述
元数据记录(Metadata Record)是应用元数据方案对某一类资源对象的一个实例进行完整描述的记录,可以山多个相关资源的元数据描述组成。每个资源对象可以涉及多个实体对象,每个实体对象都可以看成是一个资源,单独进行描述,称为"元数据描述" (Metadata Description)o例如书的元数据记录包括这本书的元数据描述,还可以包括作者、出版社等"实体"的元数据描述。
第十一条 编码体系修饰词
编码体系修饰词(Encoding Scheme)是用来帮助解析某个术语值的上下文信息或解析规则。这类上下文信息的形式包括:受控词表、规范表示或者解析规则。编码体系修饰词包括两类:词表编码体系修饰词和句法编码体系修饰词。
第十二条 词表编码体系修饰词
词表编码体系修饰词表明某个术语的值是来自某个受控词表,例如"中国历史"来自汉语主题词表。
第十三条 句法编码体系修饰词
法编码体系修饰词表明某个术语的值是按照某种规范表示的格式化的一串字符,例如" 2004-10-20 "是日期的规范表达。
第十四条 限定或修饰
元素限定(Refinement)或修饰(Qualification)与元素一样,是指资源的一个属性,有时也可称为子元素,可以独立于它所限定的属性,用于元数据记录。
第十五条 修饰词
修饰词(Qualifier)是指元素修饰词和编码体系修饰词的通称。
第十六条 一比一原则
一比一原则指:一条元数据描述中的每个属性必须是所描述资源的一个特性,一条元数据描述仅描述一个资源。
第十七条 形式化
形式化是指以计算机能够"理解"的形式,对元数据方案进行编码的过程。各种不同的形式化语言的描述特点和能力是不同的,通常需要采用基于XML元语言等编码语言。
第十八条 置标
应用置标(Markup)语(例如HTML或SGML/XML等元语言所创建的置标五口 ,如XMLS、(I)F、IRDFS、OWL等)对元数据方案进行形式化。
第十九条 编码
对于元数据方案的形式化过程,编码(Encoding)是置标的同义词。
第二十条 元数据抽象(概念)模型
元数据抽象(概念)模型(Metadata Abstract (Conceptual)Model)是元数据应用的一种参考模型,独立于任何特定的编码语法,并能对编码对象的属性描述进行觌范,从而有助于保持元数据方案的一致性,使不同编码语法之间更好地映射和翻译,并有助于元数据方案的互操作。
第三章 元数据编写规范
第二十一条 元数据格式和定义
政务信息资源的数据元表示规范应遵循国标GB/T 19488.1-2004。在国标 GB/T 1948.1-2004中规定了描述政务信息资源数据元的属性,政务信息资源数据元需要通过24个属性进行描述。在本规范中,根据实际需要,选取了最核心的6个属性,如下:
1)数据元标记:数据元的唯一标识
2)中文名称:数据元的中文名称
3)定义:描述数据元含义的说明
4)数据格式:数据元的数据值类型及字符长度的表示格式
5)值域:数据元的取值范围(含义清楚,无须说明的可省略;使用代码集的指明相应代码集即可)
6)备注:对数据元的补充说明
第二十二条 元数据标识和编码结构
数据元标识符合采取三段式编码规则。由分类代码、二级分类代码和数据元代码构成。数据元标识符结构参见下图:
图1 数据元标识符结构
第四章 元数据应用原则
第二十三条 用户需求原则
基本元数据规范是对信息资源描述的一般化和抽象化,对于具体应用来说,满足用户对元数据方案的需求,始终是第一位。如果利用基本元数据规范难以直接满足用户的需求,"基本元数据规范"可以作为大多数元数据应用的起点,按照本应用规范所推荐的方法进行规范或元素的扩展和限定,满足用户的需求是元数应用的重要原则之一。
第二十四条 遵循现有标准原则
通过符合元数据标准或协议而达到"互操作",是效率最高、最易实施的互操作,因此遵循现有标准对于实现互操作至关重要。本标准是达成最低互操作要求的基本语义标准,在应用中可以结合其它元数据标准,采用本应用规范推荐的 "元数据应用纲要"的内容,混合使用多个标准。
第二十五条 简单性与适用原则
简单性原则要求元数据方案尽可能采用精简的基本集,以降低成本,加快实现进度,并有利于互操作的实现。适用性要求数据元素必须"够用",必须能够完全实现系统需求,要求在需求设计阶段把握"度",根据系统的目标,成本的投入,未来的发展等各方面进行平衡。
简单性和适用性是可以同时兼顾的,参与方案设计的各方人员有不同意见时,需要仔细斟酌。对于具体的应用,可以采取不同的策略,例如门户应用往往侧重简单性原则,而资源的利用则多强调适用性原则。
第二十六条 互操作与已转换性原则
元数据方案的立足点是解决互操作问题,互操作性原则是元数据方案设计和实现中需要遵循的最重要的原则之一。通过尽可能复用标准方案、元素、修饰词,建立映射、转换机制等方式来达成互操作性。易转换性原则指元素的含义应该尽可能符合"原子性"要求,即一个元素具有最简单的、单纯的含义,不得有歧义,便于向其它元数据方案(一般是标准的或核心的方案)映射或转换,尽可能保证在映射和转换过程中语义不损失。
第二十七条 专指性与通用性原则
元数据方案的专指性是指满足特殊领域资源描述所提出的特殊要求。通用性原则相对于专指性而言,通用性原则要求考察是否有更一般的或"专指概念"的上位概念,能够满足描述要求,如果对己有元素的修饰能够满足要求,就不推荐增加元素。决定是用"专指"元素还是"通用"元素的过程,就是权衡专指性与通用性的过程。
第二十八条 灵活性与可扩展性原则
可扩展性是指元数据方案对于未来的适应性,过于强调标准性和用户需求原则,意味着灵活性和可扩展性的损失,因此在应用中需要总体平衡,不能在某一方面强调过度。例如,对于限定,应该支持多种限定方式,同时个别元素的限定级别不宜过深;对于现有标准的遵循,不宜过于严格,以防标准未来版本的变化局限了自身的适应性。
第五章 元数据应用流程
第二十九条 元数据应用方案设计的基本要求和应用流程如下:
1)明确所要描述的数据资源对象,分析对象之间和组成对象的实体之间的关系,定义所要描述的所有属性;
2)根据基本元数据规范,确定核心元素并声明元素语义及可能存在的相互关系(修饰关系)和相关规则(编码体系、数据类型、取值范围以及其他约束);
3)根据基本元数据标准或规范,声明元素限定或修饰,并声明相互关系(修饰关系)与相关规则(编码体系、数据类型、取值范围以及其他约束);
4)根据所引用的元数据标准规范对元素的语义进行限定,不能扩大或交叉;
5)根据基本元数据规范中的扩展原则,自行扩展元素,或者扩展修饰词;
6)规定上述元数据方案的编码规则,即整个"元数据应用纲要"的形式化表述。推荐采用描述能力较强的XML/RDF形式,但是并非所有对于元素和修饰词的约束都可以采用编码的形式进行定义,有些约束需要在系统中实现。
图2 元数据应用流程
第六章 元数据库存储标准
第三十条 为了保证业务系统交互过程中的元数据内容可交换性,各业务系统元数据库采用相同的逻辑存储标准。
首先,在逻辑层,所有的元数据是按照对象的形式存储的。所有的对象的格式必须遵循第二章所定义类的结构和定义,即这些对象必须是上述类的实例化,对象之间的关联是实际系统中元数据的关联,大部分元数据是系统自动生成。
其次从存储标准方面,所有的对象应当遵循()MG组织的MOF模型l . 3标准,这个存储标准可以使系统的元数据库无障眉的实现XMI标准和CORBA IDL标准。
MOF标准主要定义了几个方面的内容:
MOF模型的具体说明:包括类、关联、包、数据类型、约束的定义。
MOF的IDL映射关系:为每一个元数据的类提供一个元数据对象和一个元数据类代理,并支持查询和修改。
MOF的抽象映射:从逻辑上给出经营分析系统(遵循模型)的元数据在语义上如何定义,使遵循MOF标准存储业务系统的系统元数据可以利用不同的物理存储实现,但提供相同的语义。
MOF本身的界面接口:用IDL的接口集来实现符合MOF标准的元数据,通过这些接口来访问元数据信息。
数据类型:提供普通的非对象型的数据类型(只提供可以在CORBA IDL中标示的数据类型)。
约束:提供其他MOF元模型中元素语义上的规定。
MOF标准定义的只是逻辑上的标准,而不是物理上的标准。业务系统元数据通过CWM定义遵循MOF标准存储的所有元数据对象,并基于MOF标准提供XML服务和CORBA IDL接口。在物理上,可以采用对象数据库,关系数据库,甚至XMI文件等进行存储,但前提是必须遵循MOF定义的标准(也就是存的对象信息的标准)提供CORBA IDL接口,可以输入输出NMI文件。
第七章 元数据安全管理
第三十一条 以政务信息资源核心元数据为例,定义数据库中元数据的管理要求,包括元数据实体和元数据元素,本章元数据描述参考国家标准(GB/T 21063.3-2007 政务信息资源目录体系 第3部分:核心元数据)对核心元数据的描述:
(一)信息资源
定义:
已知的引用资源名称
英文名称:
ResourceTitle
数据类型:
字符串
值域:
自由文本
短名
ResTitIe
注解:
必选项:最大出现次数为1
(二)信息资源发布日期
定义:
信息资源提供方发布信息资源的日期
英文名称:
dataOfPublication
数据类型:
日期型
值域:
CCYY-MM-DD
短名
pubDate
注解:
可选项:最大出现次数为1
(三)资源摘要
定义:
对资源内容进行概要说明的文字
英文名称:
Abstract
数据类型:
字符串
值域
自山文本
短名
PubDate
注解:
必选项;最大出现次数为1
(四)信息资源提供方
定义:
对资源的完整性、正确性、真实性等负有责任的单位的名称和地址信息
英文名称:
PointOfContact
数据类型:
复合型
短名:
IdPoC
注解
必选项;最大出现次数为N
(五)信息资源提供单位
定义:
提供信息资源单位名称
英文名称:
OrganisationName
数据类型:
字符串
值域
自由文本
短名
rpOrgName
注解:
必选项:最大出现次数为1
(六)信息资源提供方地址
定义:
与信息资源提供单位联系的物理地址
英文名称:
address
数据类型:
字符串
值域:
自由文本
短名
CntAdd
注解:
必选项;最大出现次数为1
(七)关键字说明
定义:
说明信息资源的关键字内容及其依据
英文名称:
DescriptiveKeywords
数据类型:
复合型
短名:
DescKeys
注解:
必选项;最大出现次数为N
(八)关键字
定义:
用于描述资源主题的通用词、形式化词或短语
英文名称:
Keyword
数据类型:
字符串
值域:
自由文本
短名:
Keyword
注解:
必选项;最大出现次数为N
(九)词典名称
定义:
正式注册的词典名,或类似的权威关键字资料名称
英文名称:
ThesaurusName
数据类型:
字符串
值域:
自由文本
短名:
thesaName
注解:
必选项;最大出现次数为1
(十)信息资源分类
定义:
资源的分类信息
英文名称:
ResourceCategory
数据类型:
复合型
短 名
TpCat
注 解
必选项;最大出现次数为N
(十一)元数据更新日期
定义:
更新元数据的日期
英文名称:
metadatadateUpdata
数据类型:
日期型
值域
CCYY-MM-DD
短 名
mdDateUpd
注 解
可选项;最大出现次数为N
第三十二条 元数据访问控制分为内部及外部,内部访问是指系统内部的访问,内部访问通过角色权限方式控制,外部访问是指公司内部系统之间的访问/**第三方系统的访问,外部控制通过接口权限进行控制。
第八章 附则
第三十三条 本规范由数据安全领导小组办公室负责制定、解释和修改。
第三十四条 对违反本规定的人员,将按照北京思度咨询科技有限公司有关规定进行处罚。
第三十五条 本规范自发布之日起执行。