数据整理与迁移.docx
- 文档编号:25157267
- 上传时间:2023-06-05
- 格式:DOCX
- 页数:14
- 大小:148.78KB
数据整理与迁移.docx
《数据整理与迁移.docx》由会员分享,可在线阅读,更多相关《数据整理与迁移.docx(14页珍藏版)》请在冰豆网上搜索。
数据整理与迁移
数据整理与迁移
数据迁移总体设计
设计数据迁移方案主要包括以下几个方面工作:
研究与数据迁移相关的资料,或在网站上查询相关内容、评估和选择数据迁移的软硬件平台、选择数据迁移方法、选择数据备份和恢复策略、设计数据迁移和测试方案等。
东软公司数据迁移具体方法详见本方案第章“数据整理与迁移”等相关章节内容,数据迁移总体过程如下:
进行数据模拟迁移
根据设计的数据迁移方案,建立一个模拟的数据迁移环境,它既能仿真实际环境又不影响实际数据,然后在数据模拟迁移环境中测试数据迁移的效果。
数据模拟迁移前也应按备份策略备份模拟数据,以便数据迁移后能按恢复策略进行恢复测试。
测试数据模拟迁移
根据设计的数据迁移测试方案测试数据模拟迁移,也就是检查数据模拟迁移后数据和应用软件是否正常,主要包括:
数据一致性测试、应用软件执行功能测试、性能测试、数据备份和恢复测试等。
准备实施数据迁移
数据模拟迁移测试成功后,在正式实施数据迁移前还需要做好以下几个方面工作:
进行完全数据备份、确定数据迁移方案、安装和配置软硬件等。
正式实施数据迁移
按照确定的数据迁移方案,正式实施数据迁移。
测试数据迁移效果
按照数据迁移测试方案测试数据迁移效果,并对数据迁移后的数据库参数和性能进行调整,使之满足数据迁移后实际应用系统的需要。
移植系统应用软件
将实际应用系统的应用软件移植到数据迁移后的数据库系统上,并使之正常运行。
正式运行应用系统
在正式实施数据迁移成功并且数据库参数和性能达到要求后,就可以正式运行应用系统,并投入实际使用。
数据资源现状分析
信息系统集成有限公司负责开发的,为全省养老保险的信息化建设打下了较好的基
础,取得了一定的成效。
当前除益阳外,十三个市(州)都在使用全省的养老保险软
又先后统一进行过两次升级。
各地应用水平参差不齐,对历史数据没有进行清理,存在大量垃圾数据,数据的完整性和一致性不能保证,严重影响决策分析,数据质量需要提高;同时数据资源和信息不能充分共享,对政策和业务发展的适应性较差,影响了办事效率和服务质量的提高。
通过对招标文件的充分理解,并结合我们建设长沙和
几个地市州和
株洲金保工程的经验,湖南省历史数据整理有以下几个特点:
、因为涉及到全省的数据整理,去掉已建设的几个地市,涉及到
多个区县,原养老系统经办机构点多面广是本次数据整理的一个突出特点,再加
上各地应用水平参差不齐,为数据整理增加了很大的难度;
误数据也比较多,数据库中存在着大量的重复和错误数据,为了更好的修正并确认数据的正确性,需要与其他相关部门数据进行关联比对,如单位信息可以和工商部门、和质量技术监督局进行关联比对,人员信息可以和公安部门进行关联比对,这些数据处理我们在一些地区都有成功经验,可以为数据整理承建商提供参考方案;
三、系统建设时间早,与我国现行指定新的标准存在一定差距,信息缺项、错误项比较多;
四、历史个人帐户的清理问题也是本次数据整理过程中非常重要的一个问题,并且各地对于总帐要求的标准又不一致,有的可能以新总帐为准,这样会简单一些,有的可能以历史总帐为准,这种情况就会出现旧帐和新帐有个差额,这个差额需要新系统中能够处理平帐。
数据整理和迁移概述
数据整理和迁移是我们湖南省实现数据同人同城同库要求的重要基础性工作,各相关业务管理部门、经办机构和信息机构要相互协调,紧密配合,共同做好这项工作。
数据整理工作需要用户方相关部门和养老保险系统承建商的密切配合。
数据整理是对湖南省省本级和各地市数据中心应管理的业务经办数据,进行遵守统一标准的规范性整理、补齐数据内容的完整性整理和实现数据记实的正确性整理,
般包括内部整理和外部核对两部分。
具体过程是,首先按照全国统一标准并结合湖南省省本级和各地市本地需求,建立结构规范的临时数据库(简称为整理库),将原生产数据转换导入该库。
然后对导入的信息进行初步比较、核查、校正以后,采用逻辑推理、经验判断、合理数值范围检验等方法,进行合法性检查及代码过滤等方面的审核和筛选,滤出可疑数据和缺失数据,并提交至外部核对环节,由用人单位或劳动者本人补充确认。
业务部门对外部核对返回后的数据进行审核,据此进行完整性和正确性修正,包括补充缺失数据、更正错误数据、剔除冗余数据、清理垃圾数据、调整矛盾数据等。
随后再次进行上述逻辑审查工作,如此反复直至数据补齐记实。
最后将整理好的数据分期分批提交到业务资源数据库中。
数据整理和迁移目标
数据整合的目标就是保证数据的正确率要达到95%以上;整合后的数据要能够支持市级数据大集中的应用,支持省地市州的收据申报和交换,支持市-区(县)-街道(社区)三级业务经办,支持跨区域转移等业务要求;在大集中数据库中要保
证数据的唯一性,也就是说同一个人在数据库中的信息不能重复;同时通过数据核对要确保数据内容的真实性和准确性。
数据整理原则
保证新系统启动优先原则
在进行数据整合时,必须首先满足新系统启动最基本的条件,在时间进度以及人力、物力能够得到充足保障的情况下,再进行其他项的整合。
数据过滤原则
在数据资源整合过程中,为了减少由于数据资源整合时限制条件过于苛刻造成的数据大量过滤,保证新系统能够正常运行,减少新系统运行后大量补录数据的麻烦。
因此在数据数据资源整合过程中,需要对系统过滤的数据放宽条件,但是需要对错误的数据的数据分错误级别进行标示,有利于新系统运行后操作人员修改错误的数据。
对于有些数据,不影响新系统业务的正常运行,但是建议补填的,不需要在数据资源
整合前进行纠正,只是在数据资源整合时加上相应的错误标志进行标识,等新系统运行后,在新系统中进行调整;对于有些数据,严重影响系统运行的,则必须在转换前进行处理。
数据照搬原则
在数据资源整合过程中,对原系统的数据,原则上不要做修改或拆分,在必要的
情况下,可以对原数据进行一些简单的加减运算,以适合新系统的需要。
新旧系统对照原则
由于数据资源整合牵涉的业务比较复杂,需要转换的系统较多,因此在数据资源整合的过程中难免会出现一些错误,为了及时清楚数据的错误来源,所以必须建立新旧系统的对应关系,便于尽快查找错误或者是对数据转换中的转换错误进行及时的纠正。
数据整理组织管理
数据资源整理在本项目的实施过程中是一项重要的、独立的工作任务,并且涉及
到湖南省几个地市和多个区县,涉及面广,历史数据量大且情况复杂,所以必须将数据整理工作放在同软件的设计、开发同等重要的位置上来,必须成立独立的数据资源整合小组,有独立的负责人来负责数据资源整合全过程的实施。
人员要求
数据资源整合小组需要配置如下人员:
养老保险业务分析人员
数据库系统精通人员
熟悉原系统情况的人员
工作要求
数据资源整合实施小组的工作成败对于整个系统建设至关重要,因此数据资源整理小组的工作人员显得尤其重要。
数据资源整理实施小组负责人必须经常保持和软件
开发负责人、用户方系统切换负责人的沟通与联系,及时将数据资源整合小组发现的问题与他们取得沟通,以保证开发的软件既能满足新系统的要求,又能满足历史数据对新系统的要求。
组织机构
根据数据资源整理项目的特点,需要将整个项目组分为清理、转换、检核三个组,其中,转换小组中还要根据需要转换的原系统进行划分。
小组结构如下:
数据资頑整台怖调小组
数据资源整合如fe小组奂贵人I
J养老保陰姐
J医疗保险组(
丄劳动业务绍
「I「j■
I数關理组」「数据转鯉IPi盛核组I
屜(IJ融嗣T医疗粽险组ikfT劳动业务鈕iLf區疗保险组Iq劳动业务组
小组结构图
小组职责说明:
数据资源整理协调小组:
负责数据资源整理过程中对各业务部门的总协调。
数据资源整理实施小组负责人:
具体负责数据资源整理的各个过程,协调整理过程中的资源与进度,并将实施进度及问题按时向协调小组汇报。
数据清理组:
补充不完整或者修正不正确的数据,并建立数据之间的关联关系;
数据转换组:
编写《数据转换方案》并根据《数据转换方案》编写数据转换工具,根据编写的数据转换工具辅助进行数据转换。
记载数据转换过程的中间记录,对转换前后数据进行比对,编写《数据转换报告》。
其中,基础数据组负责单位、个人基础数据、单位缴费申报数据、各业务办理部门数据、代办机构数据的转换工作;养老保险组负责与养老保险有关的缴费数据、个人帐户数据、单位实缴数据、单位实付数据、养老保险待遇数据、养老保险待遇支付明细记录的转换工作;时间上,要求基础数据组的工作先行开展,其它养老保险组的工作可以随后并行开展。
数据检核组:
保证数据的单个字段的取值正确,以及相关数据的关联关系正确。
保证数据的准确性和完整性。
业务资源组:
详细说明待迁移的数据源,整理旧系统数据字典,分析新旧系统的
数据结构差异,编制《数据分析报告》。
数据整理和迁移方法
数据核对
数据核对采用数据分级过滤的方式,数据分级过滤就是把数据按照不同的数据级别进行分类整理进入不同的中间数据库中。
本系统中我们把数据分为三个级别:
废弃数据、待调整数据、可转换数据。
废弃数据就是该部分数据的存在对系统资源造成浪
必须进行人工调
重复缴费信息。
待调整数据就是该部分数据严重影响新系统的运行,
整后,方可进行数据转换。
可转换数据就是该部分数据不需做任何处理,基本满足数
系统运行后再调整,这样可以为数据转换工作节省很多时间。
数据整理
阶段就是将原始数据进行整理,按照湖南省各地市的要求分类进入不同的中间数据
库,为数据转换提供中间数据。
数据整理过程中采用的方法示意图如下:
Oralce数
据库
系统数据整理示意图
方法示意图
综合上图我们可以看出,数据整理过程采用了如下方法:
确保原始数据的完整性
在进行数据整理之间,我们先需要对原始采集数据进行备份。
备份的目的有两个:
一个是统一数据库,便于数据转换,另一个就是为以后数据追根溯源提供参考依据。
借助数据整理相关工具
数据整理非常艰巨,涉及的数据量很大,通过人工检查是不可能完成的,因此必
须编写相关的数据整理工具完成数据整理。
包括数据整理工具和数据纠错工具。
数据
整理工具负责将原始备份数据库中的数据进行分类进入不同的中间数据库;数据纠错工具负责提供友好、方便的工具界面供用户方相关人员完善和纠正错误数据。
利用中间库作为桥梁
由于原系统和新系统的数据库结构可能不一样,所以采用中间库作为衔接新旧系统数据的重要桥梁,对于建立新旧系统的对照关系很重要。
一旦业务人员对新系统中某项转换数据存在疑问的情况下,就可以通过中间库的关联,顺利找出原数据。
数据补录方案数据补录概述
数据补录主要是对于一些劳动部指标体系所要求的以及新系统中需要扩充的业务数据,并且这些业务数据原系统没有收录,这些数据多数是非电子格式或非结构数
据,或者原系统中已收录但数据结构和格式与新系统相差太大,而无法通过数据整理工具整合,这些数据需要人工补录或补录工具软件转换补录到新系统中。
数据补录工作在本项目的数据整理工作中是一项重要的、独立的工作任务,需要开发数据补录软件支持本项工作的完成。
必须将其放在同软件的设计、开发同等重要的位置上来,必须成立独立的数据采集工作组,有独立的负责人来负责数据采集工作的全过程。
数据补录管理
时间计划
并考虑
按照云南省劳动和社会保障厅劳动力市场信息系统项目建设的时间要求,到数据采集的涉及面广、工作周期长的特点,数据采集工作建议系统需求调研的同时开始的同时进行为宜,在系统设计开发接近尾声的时候系统实施之前,数据采集、入库工作进行完毕。
数据补录软件开发
根据业务要求、指标体系规范和系统数据要求整理数据采集软件需求功能报告、数据采集指标项,设计开发数据采集软件。
人员要求
数据采集工作组需要如下类型的人员:
数据采集标准制定人员
数据采集具体执行员数据批量录入人员数据检核人员数据采集工作组负责人
工作要求
数据工作组的工作成败对于整个系统建设至关重要,因此数据采集工作组的工作人员显得尤其重要。
工作组负责人必须经常保持和采集各类工作人员、应用软件开发负责人、用户方系统切换负责人等保持沟通与联系,及时将数据采集工作组发现的问题与他们取得沟通,以保证采集的数据能够满足新软件系统的要求。
组织机构
根据数据数据采集工作的特点,需要将整个工作组分为标准制定、数据采集、数
据录入、数据检核四个组,由工作负责人统一协调和控制整个过程的工作。
各小组的职责分工如下:
工作组负责人:
负责数据采集过程中对各小组人员的任务分配、工作监督、控制,
以及和其他相关部门之间协调共作等。
数据检核小组:
确保数据录入准确,以及相关数据的关联关系正确。
保证数据的准确性和完整性。
基础数据采集
数据采集的具体过程是:
、由标准制定小组,按照全国统一标准并结合本地需求,建立结构规范的数据
米集标准。
二、由数据采集小组工作人员按照标准进行原始数据采集,填报被采集对象的各项信息。
基础数据入库
基础数据采集完成后,需要将数据录入到数据库中。
、由数据录入小组将采集来的数据,通过计算机批量录入到数据库中。
二、由数据检核小组对录入的数据进行系统地检查、核对,纠错等。
数据校验方案
数据校验通俗的说,就是为保证数据的完整性,用一种指定的算法对原始数据计算出的一个校验值。
接收方用同样的算法计算一次校验值,如果和随数据提供的校验值一样,就说明数据是完整的。
最简单的校验就是把原始数据和待比较数据直接进行比较,看是否完全一样这种
方法是最安全最准确的,但这种做法效率比较低,东软公司总结了多年来数据校验经页脚内容
验,通常情况下是先对历史数据结构进行分析,对于比较规范的业务数据先导出至上面提到的中间库,再对剩下的数据通过数据积累的校验方法库进行数据校验,校验并修正数据的类型、范围以及合法性等相关数据属性,以确保数据整理的快速有效。
对于源数据库、目标数据库结构有差异的数据,建立中间过渡库,中间库在原数据库平台中建立,但结构与目标数据库的结构相同。
将是转换的
对每一个数
将源数据库转入中间库的过程是一个数据的重新组合和关联的过程,中心和重点工作,需要对源数据库与新数据库的数据关系进行深入分析,据库写出转换策略。
非空处理:
对于应该非空但实际为空的记录制定处理规则。
取值约束处理:
对于有取值范围约束的字段进行规范化处理,即将转换后的数据取值规范到该范围内。
主键处理:
重新对中间库进行编号。
填写外键:
每个数据库或多或少存在外键,外键越多,标明与其它库关联越多,这样的库应后处理;反之,外键越少的库应该先处理。
唯一键处理:
对要求唯一的数据项(主键、唯一键)进行唯一检测,并对检测出的不唯一的记录,制定处理规贝y。
附加分散处理:
对某些表中的某些字段进行数据规范化处理,即将不合规范的数据替换成规范的数据,几个表之间的关联处理,以及一些特殊处理等。
数据一致性处
理:
对于有多个数据源的数据进行一致性检查制定处理规则。
新系统对历史数据的容错性
有些重要的历史数据虽然格式不能满足要求,但也要导入到新系统中来,这就要求新系统能够兼容这些数据,提供对这些历史问题数据继续进行分析修订功能。
系统迁移方案
为了确保新旧数据的一致性,以及确保旧系统的数据能完整、真实、合法地保存和延续,我们考虑采用两套系统同时运行的方式来做一个过渡,这种方式可以保证在出现故障时,数据至少可以在旧系统中顺利进行,同时也可以发现新系统的问题或者验证新系统的正确性,具体说来,就是一笔业务在新老系统中同时进行,考虑不影响业务处理的速度,由两个操作员分别操作新老系统。
新旧系统并行的系统迁移通常分以下几步,首先新系统部署,然后进行系统的割接,待双系统并行一段时间,新系统运行稳定以后,切换掉旧系统运行新系统。
部署
在部署整个系统时,主要从两个方面进行考虑:
一方面,从保证各部门内部系统的安全方面的考虑,将公众服务业务建立在业务网络以外,公众信息网作为该项目前期面向公众的一个服务窗口,社会公众可通过利用语音、网上服务、手机等通讯手段进行访问,平台提供群众上访、举报、咨询、交流等的功能,方便群众和政府之间的信息交流。
另一方面,按照割接方案,对系统进行分步实施。
割接
系统是否能顺利实现,一方面取决于策划、组织、领导、部门配合等主观因素,但最重要还要取决于计算机系统集成质量这一客观因素。
制定系统割接方案
在制定系统割接方案时,需要考虑采用缜密、灵活的新旧系统割接方案,使新系统的使用不对旧系统产生任何影响,并实现与现有系统的无缝割接。
分批割接
分批进行系统割接。
按照工作量、人员熟悉程度等因素对所有相关部门分批进行各应用系统的割接。
分批时,可按政务系统不同进行划分,另外先在小范围内试用以便于控制。
两套系统同时运行
在两套系统同时运行时,需要对新老系统的输出结果进行比较以检验新系统运行正常与否,但这项工作较繁杂,速度较慢,如果在业务进行的同时进行,将会对业务处理的速度产生很大的影响。
因此,可考虑利用晚上业务量小时进行比较,或采用自动化的方式如编写专门的比较程序等来进行比较。
在系统并行过程中,如用户方原设备性能能够满足新系统的要求,并且用户方未购置新设备,那么系统并行期间需要把原系统移植到过渡设备上,这种情况下,我公司免费提供过渡设备,保证系统的切换工作顺利完成。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 整理 迁移