前沿技术

TECHNOLOGY

首页 - 前沿技术 - 人工智能 -

数据治理迈入AI智能化时代

伴随全球信息化的浪潮,人类社会的数据量高速增长,数据的巨大价值逐渐被认识,数据正在成为新时代的石油和生产要素。在国家层面,政府对数据发展进行了顶层设计和整体布局,大力推动产业政策、法规和标准的建设,并在十四五规划中提出“加快数字化发展,建设数字中国”的目标,加快国家数据战略布局步伐。在产业层面,数据治理是数字产业化和产业数字化转型的关键。随着企业信息化进程,数据治理同步演进。数据治理历经手工时代,以结构化数据为主的大数据时代,发展到如今全面应用AI人工智能技术的智慧化数据治理时代。下面简单回顾数据治理的发展阶段。

 

一、数据治理发展阶段

 

手工阶段

 

在信息化初期,企业通常以建设信息系统来处理业务流程,不同的业务数据存储在不同的文件系统或者数据库中。大量独立的信息系统导致数据隔离、数据壁垒严重,难以对用户、企业提供融合数据服务,严重影响数字化管理。

 

大数据时代

 

企业信息化产生了大量的数据。企业通过数据汇聚,打破了数据壁垒,将不同业务部门的数据汇聚到一起,提供数据服务,从而将数据服务从业务系统中独立出来。本阶段数据治理以结构化数据分析为主,为了避免再次形成结构化和非结构化数据壁垒,全面引入人工智能势在必行。

 

智慧化时代

 

数据汇聚为数据治理奠定了良好的基础。AI技术的快速进步帮助数据治理迈入智慧化时代。AI智能技术被广泛引入到数据治理中,实现数据挖掘,形成高价值的资产数据。与大数据技术融合的AI智能技术会加速金融、政务、教育等行业的数据智慧化进程,提升用户体验、降本增效、支撑科学决策,充分发挥数据的社会价值,推动整个产业蓬勃发展。

 

二、数据治理智慧化

 

数据治理智慧化是通过应用人工智能技术,融合处理结构化、半结构化、非结构化数据,达到数据智能治理、价值挖掘、安全流通等目标。下面依次描述在数据治理的标准构建、智能捕获、核心数据识别、价值数据挖掘、敏感数据过滤、精准数据服务等关键流程中对人工智能技术的需求。

 

数据标准构建

 

行业数据治理最关键的步骤是数据标准构建。结合行业对流程、服务、决策的需求,建立数据定义、数据处理、数据应用以及数据安全的标准,难度大、成本高,需要利用人工智能技术对构建过程进行提升和改进。

 

数据智能捕获

 

治理数据的来源多样,可能是文件系统、消息中间件、数据库、实时数据接口等;数据类型千差万别,包括结构化和非结构化数据;数据质量参差不齐。现有的数据采集方法大多依靠人工规则或策略,智能化程度低。

 

核心数据识别

 

核心数据识别是数据治理前提。从海量的数据中识别核心数据仅靠专家经验耗时耗力、成本高,需要引入AI智能技术进行辅助识别。

 

价值数据挖掘

 

价值数据挖掘是数据治理的核心和目标。经过预处理的数据进入治理系统之后,需要根据业务场景要求,定义数据分析任务,训练支持结构化和非结构化数据的算法模型,进行价值数据的挖掘。

 

敏感数据过滤

 

实际业务系统中的数据存在大量风险和敏感的信息,这些数据只适合给授权的用户访问。需要有智能化的方法过滤、筛选需要开放的数据,以降低风险。

 

精准数据服务

 

数据最大的价值在于应用、流通和开放共享服务。数据开放的难点之一是面对大量的非结构化数据包括语音、图像、视频和文本数据,用户很难快速找到自己需要的信息和知识,亟需引入有效的技术手段实现信息抽取和精准数据服务。

 

三、海泰方圆数据内容智能分析平台(HT-DIP)

 

1、行业挑战

 

行业经过多年的信息化发展,逐步建立了汇聚各类数据的数据中心,完成了数据集中。但因为缺乏先进有效的技术手段对多源异构的数据进行智能分析挖掘,只能大量依靠专家经验和人工投入进行数据分析处理,成本高且效果有限,难以支撑行业用户体验提升、业务流程改善和科学决策需求,实现从信息化、数据化向智慧化转换。

 

2、产品定义

 

海泰数据内容智能分析平台(HT-DIP)是一款基于深度学习、自然语言处理、预训练等人工智能技术,融合行业经验和知识,面向各类政企用户提供内容分析、智能数据治理、流程智能化服务的软件平台。

 

3、系统架构

 

HT-DIP包括语义智慧语义学习系统、智慧语义能力库、智慧语义服务引擎三个子系统。智慧语义学习系统用于行业数据管理和行业模型训练、评测与发布,生成语义能力,形成语义能力库。智慧语义服务引擎通过集成语义能力库,与客户应用系统对接,提供内容智能分析服务和业务流程智能化服务。智慧语义能力库包括预置语义服务能力和自主训练产生的行业语义服务能力两部分。

 

图:海泰方圆数据内容智能分析平台架构

 

4、智慧语义能力库能力

 

  • 系统预置语义服务能力

 

包括词法分析、句法分析、词向量、句向量、内容纠错、摘要生成、信息检索等系列基础语义服务能力。

 

  • 用户训练语义服务能力

 

用户可利用行业数据,训练、评测、发布、部署行业专用的AI模型,生成用户自定义的语义服务能力,包括分类、查重、相似、实体、关系抽取服务。

 

5、产品特色

 

  • 基于国密技术的模型安全

 

平台基于国密技术保护行业AI算法模型服务和应用数据的安全。

 

  • 零门槛模型定制能力

 

平台屏蔽底层计算资源、深度学习框架,用户可以根据业务需求完成建模和训练,零代码开发,无需关心底层技术。

 

  • 深度行业融合、成熟可靠的AI技术

 

平台已经在相关行业进行规模商用部署,融合深度学习、自然语言处理、预训练等AI技术和行业专家经验,利用行业数据构建AI算法模型,为用户提供稳定可靠的智慧化服务。

 

  • 灵活广泛的部署适配能力

 

平台支持在信创环境和常规X86环境下部署,提供人工智能内容分析服务和业务流程智能化能力。

 

  • 智能服务全程可视化

 

平台为用户提供可见的数据质量、可视化的模型训练过程、直观的模型语义能力、可量化的模型应用效果。

 

6、典型应用场景

 

HT-DIP的典型应用场景包括提供智能咨询、智能审批、科学决策服务的智慧政务场景;提供案件推理、法务助手服务的智能法务场景;提供学习效果评估、个性化推荐、教学评测服务的智慧教育场景;提供报告审核、智能客服服务的金融风控等场景。HT-DIP可应用于智慧数据治理的标准构建、数据采集、价值数据挖掘、敏感数据过滤、精准数据服务等环节,利用人工智能技术实现业务流程智慧化,充分释放业务数据的社会价值。

 

在标准构建阶段,平台利用指标建模、编码去重、数据模型分类等方法实现标准构建方法提升。在数据采集阶段,通过模型将业务经验转换为模型策略,智能捕获有潜在价值数据。在核心数据识别阶段,通过样本数据建模业务模型,一方面扩展领域知识库,一方面从海量数据中识别核心数据资产。在价值数据挖掘阶段,平台不仅能通过文本向量化、分类打标、信息抽取等手段,形成价值数据资产。平台还能对多源异构数据进行融合分析,实现业务流程智能化。在敏感数据过滤阶段,平台可以识别和筛选潜在违规的风险数据实现分类分级。在数据开放服务阶段,平台通过对用户和数据的双向建模,既能理解用户查询内容,获取用户需要的信息,还能根据用户行为,主动推荐用户可能感兴趣的内容。

 

HT-DIP已经在行业大规模部署应用。以某政务用户应用为例,HT-DIP利用用户数据训练生成专用的算法模型,融合业务应用,实时接入用户数据进行内容分析挖掘,为终端用户提供内容检查、摘要生成、信息检索等精准数据服务,为工作人员提供信息抽取、文献智能分类、敏感性过滤、内容查重、智能审批等流程智能化服务,为主管领导提供价值数据挖掘、总结性结论生成等科学决策服务。

 

售前咨询
010-59790009转8055/8192

售后服务
010-56592388