基于数据中台的科技文献数据采集及规范处理解决方案
数据中台支撑航天云网INDICS平台应用,以数据资产化为导向进行数据治理,以共享数据服务的方式实现数据共享,打通INDICS平台业务和数据环节,减少数据冗余,增加复用,实现数据驱动业务创新。同样可定制、裁剪、灵活、可扩展地部署在用户进行数据治理。
基于数据中台的科技文献数据采集及规范处理解决方案
数据中台支撑航天云网INDICS平台应用,以数据资产化为导向进行数据治理,以共享数据服务的方式实现数据共享,打通INDICS平台业务和数据环节,减少数据冗余,增加复用,实现数据驱动业务创新。同样可定制、裁剪、灵活、可扩展地部署在用户进行数据治理。
痛点问题

生物医学作为一门需要大量论证、实验、测试的领域,其研制工作需要大量的参考文献数据支撑,各类科学文献数据没有科学采集、规范化处理、有效汇集,需要进行更专业的标准化管理和服务管理以及挖掘数据潜在价值,需要一套开放、灵活、可扩展的面向科技文献数据采集及规范处理的系统。

解决方案内容

科技文献数据采集及规范处理系统涉及多种数据处理工具、模块,需要建设专业的数据中台。采用持续集成方式逐步完成系统整体的构建,系统整体以数据中台为基础,向下与用户的专用服务器相连实现数据的存储和读取,向上逐步定制研发并集成数据采集工具、数据交互工具、数据可视化展示工具、数据过滤分析工具、权限管理工具、学科分类工具、主题标引工具、科研实体规范工具和数据更新维护工具,实现对领域内科技文献的数据采集、数据预处理、数据交互、数据过滤分析、数据分类、数据规范、数据更新维护等科技文献数据全生命周期管理。同时,在数据中台对科技文献数据规范化的基础上,将标准化的文献数据以API接口的形式对外提供数据服务,使相关单位各系统模块之间数据实现互联互通,从而打造一套集数据采集、融合、加工、规范、更新、管理与服务为一体的科技文献数据全流程生态链。

基于数据中台的科技文献数据采集及规范处理解决方案包括科技文献基础数据采集、结构化数据采集及解析、科技文献数据本地保存与管理、科技文献数据规范化处理、科技文献数据更新维护。通过大数据与人工智能技术构建科技文献数据采集及规范处理系统,搭建一套面向生物医学领域科技文献数据管控的数据中台。

应用成效

目前面向科技文献数据处理的数据中台,以在中国医学科学院医学信息研究所建设,一期完成生物医学科技文献基础数据采集5000多万条。完成科技文献全文数据来源分析,结构化数据采集及解析,全文数量达到400多万条。通过提供数据中台及服务帮助研究所实现对科技文献数据的采集、融合、加工、规范、更新、管理与服务,构建成为一整套面向科技文献数据采集及规范处理的工具,实现各个模块之间数据的互联互通。

推广价值

针对高水平数字文献信息资源的需求,提供一套可借鉴、可复制、具有普适性的科技文献数据治理解决方案,科技文献数据治理形成具有基础、共性的技术标准和规范体系。构建开放、灵活、可扩展的面向科技文献数据采集及规范处理的管理系统,支持权益管理、各类数据采集,实现科研论文全文集中管理,覆盖自主加工、开放获取、购置等多来源国际高质量期刊、文摘数据、规范化引文数据的集成文献数据仓储,为科技文献智能服务、科研学术分析提供基础数据支撑,提升科研院所科技文献数字化分析水平,全面支撑科研院所相关领域科学技术发展

微信公众号

航天云网

工业互联网观察

微博

工业互联网观察

关注

咨询建议