原标题:AI研习丨专题:面向开放协同的科技大数据汇聚融合与演化分析平台研究
本文围绕多源异构科技大数据的汇聚融合和演化分析难题,分析科技大数据汇聚融合的具体需求,理顺并优化科技大数据汇聚融合业务流程。在此基础上,设计一套面向开放协同的科技大数据汇聚融合与演化分析平台技术架构。最后,重点介绍该平台所涉及的关键技术,包括多源异构科技大数据采集和清洗技术、科技大数据汇聚融合机制、科技大数据分布式存储、科技大数据实体智能匹配、科技大数据检索服务接口、基于区块链的科技大数据交换与可信确权等。该平台的实现能够为多源异构科技大数据的汇聚、融合、演化和应用提供坚实的理论基础与支撑。
科技大数据不同于传统论文数据,也不同于一般意义上的网络及行业大数据,数据内容包括科技成果数据、科技活动数据,以及互联网自媒体科技资讯数据。科技成果数据包括各学科内记录形成的数据、资料、文献、报告、网络科技报道等承载知识的数据;科技活动数据包括科技实体数据与知识关系数据,其中科技实体数据包括科技项目、学术会议、科技团队、科技组织、科技人才、科技机构、科技奖项、科技主题、科技概念、研究设备、研究模型、研究方法等,知识关系数据包括语义关系及计量关系等;互联网自媒体科技资讯数据,特别是微信数据,每天发布的科技信息及时、权威及互动性较好。
科技大数据理论与技术研究是一项顺应目前科技行业信息化技术水平发展、服务政府职能改革的科学研究工作,主要目标是强化科技与经济运行监测分析,实现科技管理者、参与创新创业的科研机构、企业和个人的全方位、一站式的云管理和服务平台,实现科技资源、科技数据、科技服务、科技管理的互联互通和开放共享,推进科技数据共享和业务协同,以信息化提升数据化管理与服务能力,及时准确掌握科技发展宏观和微观动态,为科技政策的制定提供依据。
多源异构科技大数据融合技术,是一种针对多个数据来源的大规模科技类数据及其资源进行数据汇聚、过滤、融合,以及知识提取的一系列方法的统称。多源异构科技大数据的有效融合,不仅能够满足科技企业、事业单位、科研院校,以及广大科研人员和公众对科技数据的检索、浏览,并且满足了他们对科技数据内容的丰富度、准确性、实时性等方面的要求。加快科技服务业发展,是推动科技创新和科技成果转化、促进科技经济深度融合的客观要求,对于深入实施创新驱动发展战略,推动经济提质增效升级具有重要意义。
本文基于国家重点研发项目“科技大数据理论与技术”,深入分析当前多源异构科技大数据的汇聚融合需求及难点,结合当前主要科技大数据资源和数据存储机构,理顺并优化科技大数据汇聚融合业务流程。进一步的,基于分布式计算、云存储、大数据、人工智能等前沿支撑技术,设计一套面向开放协同的科技大数据汇聚融合与演化分析平台技术架构,重点介绍该平台所涉及的关键技术。
我国科技服务业仍处于发展初期,存在科技资源共享困难、服务模式单一等问题,具体体现在科技数据孤岛化、科技知识隐性化、科技价值断链化、科技服务盲目化等具体问题。《国务院关于印发促进大数据发展行动纲要的通知》中指出大数据已成为推动经济转型发展的新动力,这也给科技大数据服务业的发展带来新契机。开放共享经济环境下,借助于云计算技术、大数据和人工智能等技术的信息精准定位与科技数据挖掘,探索多源异构科技大数据的采集、汇聚、融合,有利于实时跟踪各项科技数据的生命周期和应用场景,进而促进科技向生产力的快速转化。本文深入调研国内各大科研院校、科技企事业单位和科研人员对科技大数据的使用现状,分析他们对多源异构科技大数据的汇聚融合要求和数据使用需求。
不同科技企业、事业及相关单位需要从多个不同来源的科技数据提供商或者网站获取各类科技数据和资源,例如中科院科技资源共享平台、科学数据库平台、知乎、新浪科技等;同时,国内各个院校及科研机构需要从多个不同来源的科技数据库及文献数据库中获取各类文献和科技信息,例如中国知网、等网站。因此,广大科技大数据用户希望通过单一的科技大数据检索平台,以规范化的、统一的服务接口方式,调用不同来源的科技大数据,实现不同数据源之间的信息互补,形成实时全面的科技大数据。
每一条科技数据从产生到发布、转发、引用、转化、更新,以及消失的过程被称为该科技数据的整个生命周期。数据生产者、使用者和管理者都希望能够有效地对每一条科技数据的生命周期进行有效跟踪,以可视化方式跟踪及分析其演化过程。科技大数据的演化分析能够清晰地跟踪和量化分析各类科技数据在各个生命周期环节中的情况,从而为相应的科技数据管理方案和各级决策提供科技依据。
在分析多源异构科技大数据的汇聚融合和演化分析难题及其需求的基础上,结合当前可用资源,设计出适合于当前实际应用场景的科技大数据汇聚融合与演化分析业务流程,如图 1 所示。
根据需求分析和业务流程设计结果,本文提出一套面向开放存取的科技大数据汇聚融合与演化平台设计方案。该平台的技术架构,如图2所示。
平台采用多源异构数据采集和清洗、科技资源数据结构分类、高效流转和安全可靠交换机制,以及科技服务规则设计与科技服务构件加工技术。并且使用不同的深度学习和机器学习等人工智能模型,以完成汇聚的科技大数据进行对齐融合技术、基于特征表示学习的人机融合数据处理方法。最后,平台采用动态化的数据与服务需求管理、数据分布多样化和数据流动关联化的科技大数据汇聚融合方法,提升科技大数据的智能汇聚融合效率。
平台采用科技大数据智能探测与汇聚融合技术,实现实时自动监测、自动采集与多类型数据智能汇聚。同时,制定了科技大数据外部特征与内容语义特征关联机制,形成一套对多源异构知识进行解析、筛选的有机关联机制,分别从元数据记录层、知识实体层和知识关系层进行全面的智能化数据融合。最后,平台采用符合科技数据的生命周期采集和跟踪方法,实现动态、实时地刻画数据的演进变化过程。
平台采用跨平台、跨系统、跨业务、跨场景的大数据共享交换机制技术,实现多源异构业务数据的无缝接入等。同时,平台运用数据可信确权与追踪保护和科技大数据的生命周期划分与管理方法,实现跨时空跨系统跨平台数据的动态生命周期划分、生命周期的数据侵权监控与实时侵权取证。
本文围绕科技大数据价值评估的难题,综合考虑从数据、信息、知识的集层式增值建模方法,形成科技大数据价值链的全过程刻画,构建基于特征选择和人机协同的第三方价值评估指标体系,通过构建交易机制与盈利模式、定价策略与价值分摊模型,对科技大数据交易与服务进行协同设计,为科技大数据价值链构建和探索发展商业服务模式提供坚实的理论基础与支撑。介绍了符合科技大数据的生命周期采集和跟踪方法,并构建演化分析模型,实现动态、实时地刻画数据的演进变化过程;提出科技大数据的安全可信保护策略,以及跨领域大数据交互管控方法和云安全科技大数据服务确权追踪方法,实现科技服务实时可检测,保证大数据边界访问控制与安全可控,以及科技大数据跨领域服务的多级封装,实现数据的安全统一验证,最终形成支持数据交换、可信确权与追踪保护的科技大数据服务平台。