大科学研究越来越依赖大数据的分享和应用 科学数据开放共享亟待加快

发布时间:2016-09-07 作者:上海科学院

2016年08月30日    来源:文汇报    作者:姜澎

 

       在大数据时代,科技创新越来越依赖于科学数据综合分析,尤其是大科学项目,更是依赖于大量系统、高可信度的基础科学数据,对科学数据的综合分析,本身就是科技创新的一种方式,而且数据密集型科学研究范式应运而生。昨天,在上海举行的第三届科学数据大会上,有学者建议,在世界科学界都在研究甚至争夺大数据的时候,我国要加快科学数据的开放和共享,才可能实现真正的创新发展。

 

科学研究已经进入大数据时代

       国家科技基础条件平台中心主任叶玉江在论坛上透露了一组数据。近10年来,我国公共财政先后支持建设了上万个规模不等、质量各异、应用程度不同的科学数据库。以生命科学领域为例,全国基因组测序仪每年产生原始数据10PB(存储单位,2的50次方个字节),中科院牵头立项的首个精准医学项目测序产生的原始数据量约为200-500TB (存储单位,10的9次方个字节)。重大科研基础设施建设与更新也引发数据的快速积累,比如大型强子对撞机实验每年采集的原始数据超过过去10年通过大型电子—正电子对撞机产生数据的600倍。散裂中子源每年产生原始数据1TB,遥感卫星每年产生数据超过3PB。

正是这些海量科学数据,对生命科学、天文学、空间科学、地球科学、物理学等多个学科领域的科研活动带来了世界瞩目的成果。

      我国在2001年底启动了第一个数据共享的试点项目———气象科学数据共享试点。截至目前,国家科学数据共享工程累计支持整合、改造864个数据库,数据表单超过1万个,涉及我国三分之一左右的公益性、基础性科学数据种类,为国家973、863、科技攻关方面的1225个项目提供基础数据支撑。

 

科学项目数据开放仍然有限

       虽然大数据对于科研来说越来越重要,但是目前国内公共财政支持的科学项目,数据开放仍然非常有限。

       据叶玉江介绍,截至目前,我国科学数据仍然分布在课题组、科学家和科研人员手中,部门行业或者单位的数据库之间也缺乏交流和沟通,更没有形成面向社会的科学数据开放共享。这些科技计划所产生的科学数据,也没有得到有效的管理和利用。

       在论坛上,某985高校大数据学院的一位院长在接受记者采访时说,虽然有关部门也都提出了要开放科研数据,但是实际上却很难做到真正的开放数据。因为,科学家开放科研数据的动力并不足,目前国家在科研投入方面,对此并没有硬性的规定。而开放的科研数据如果只是原始数据的话,开放意义并不大,必须由科学家们对数据进行处理后才有意义。

       事实上,叶玉江也称,由于在科学数据方面的经费投入不足,导致许多科学数据库按照项目方式一次性建设,缺乏持续的数据来源,逐渐降低或丧失其应用价值。国外权威数据中心占据竞争优势,有可能导致我国科学数据资源的流出。

科研大数据开放须有一揽子政策推动

       论坛还透露,2016年,科技基础资源调查将对14个重点方向进行部署,建成一批科研大数据库。中科院计算机网络信息中心主任廖方宇等学者认为,对于科研大数据的开放,必须有一揽子的措施来推动。

       据介绍,在一些发达国家,政府投入大量资金支持大型科学数据中心(库)群或信息网的建设,促进科学数据的长期积累、高效流动和低成本使用。在美国,科研数据共享是上世纪80年代末由国家航空航天局(NASA)率先提出,目前联邦政府已经投资建成了国家级科学数据中心群,国家航空航天局、国家海洋与大气管理局(NOAA)、地质调查局(USGS)和国立卫生研究院(NIH),都在政策支持和大量资金投入下,建成了一批规模化的科学数据中心(库)群,并面向全世界提供服务。而所有这些基金会支持的科研项目,都必须附加2页以上的报告,描述数据管理计划。这个报告必须说明,该科研项目中有哪些数据是可以公开、分享或者是继续进行研究的,而投入的基金中有一部分是明确支持数据开放计划的,如果缺少这一数据开放计划,则不能全额获得基金。英国和欧盟都建成了科学数据中心,涵盖了南极环境、考古学、生物医学、海洋学、经济和社会、视觉艺术等领域的数据,规定所有国家级别基金支持的项目都必须开放科研数据,并且在这些研究领域之间进行开放。

       论坛上,不少学者建议,对于我国目前公共财政支持的科研项目,也应明确规定,划出一定比例作为课题组开放科研数据的经费,在一定的范围内开放这些科研数据,并且建立第三方评估机制,对这些数据进行评估,根据评估结果来决定数据开放是否合理。

        此次论坛由国际科技数据委员会中国委员会、国家科技基础条件平台中心和中科院联合主办。

相关信息