当前位置:首页 > 解决方案
物资数据清洗解决方案
  • 发表时间:2017-08-20 点击数:439
  • 来源:未知

中翰软件根据数据类型的不同研发了不同的数据清洗工具,系统操作步骤简要如下:

数据清洗是数据完善及数据映射的过程,中翰ODC支持手动清洗及智能清洗。
手动清洗是首先通过人工完善数据属性信息,然后自动生成映射表;智能清洗是在建立数据质量模型的基础上,历史数据与质量模型自动匹配,历史数据规范完成后,通过ODC工具自动生成新旧数据映射表。如下图(企业数据清洗整体架构及中翰数据清洗流水线):





数据清洗背景:

l  清楚哪些数据是重复的;

l  不清楚哪些老数据是重复的;

l  针对老数据的模拟,某一个人很难确定所有的具体属性参数值,需要多人协同补充完善;

根据上图,系统操作步骤如下:

u  首先批量加载老数据到中翰数据清洗(简称ODC)系统;

u  模糊查询出需要清洗的批量历史数据,一般是某个类别或者有共同特征的历史数据集合;

历史数据自动清洗处理模式步骤:

u  初步手动合并模拟已知重复数据;

u  匹配历史数据参数值被自动提取到的数据模拟目标单据;

u  根据目标单据和历史数据描述格式,制定历史数据参数值自动提取规则;

u  系统自动添加被提取的参数值进入目标单据,进入多人补充数据流程;

u  审核通过后,自动查重生成新数据、编码、映射关系表等;

u  如再有重复历史数据被模拟到此,系统依然会自动追加产生映射关系;

历史数据手动清洗处理模式步骤:

u  查找已知重复数据,选中后点击‘合并模拟’;

u  选择匹配目标模拟单据,生成单据,进入多人补充申请流程;

u  选中全部剩余数据,点击‘单独模拟’;

u  选择匹配目标模拟单据;

u  根据目标模拟单据格式,制定参数值自动提取规则;(可选步骤)

u  批量生成单据,如有分词表达式,系统会自动添加相关参数值进入目标模拟单据,如没有就直接由补充申请流程中的人工操作添加;

u  审核通过后,自动查重生成新数据、编码、映射关系表等;

u  如再有重复老数据被模拟到此,系统依然会自动追加产生映射关系;

u  系统支持后期手工追加映射操作。