English
联系我们
网站地图
邮箱
旧版回顾



计算机网络信息中心开发的“PiFlow大数据流水线”
获“GVP-码云最有价值开源项目”奖

文章来源:计算机网络信息中心   发布时间:2019-04-12  【字号:     】  

  近日,由中国科学院计算机网络信息中心大数据部团队研发并开源的“PiFlow大数据流水线系统”获2019年开源中国“GVP-码云最有价值开源项目”奖。

  PiFlow系统面向空间科学、高能物理、微生物等学科领域大规模多源异构数据的快速采集、灵活处理和高效存储等核心关键技术挑战,采用Hadoop/Spark分布式存储与并行计算技术,实现组件式的大通量、高并发的大数据流水线自动化处理。目前该系统已实现100+的数据处理组件,包括Hadoop、Spark、MLlib、Hive、Solr、Redis、MemCache、ElasticSearch、JDBC、MongoDB、HTTP、FTP、XML、CSV、JSON等,为用户提供所见即所得的流水线配置界面,从而实现大数据组件式、自动化采集、清洗、计算、存储及监控的全流程服务,同时支持用户快速自定义数据处理组件的扩展开发,满足数据的个性化处理需求。该系统已支撑了科技资源情报服务、微生物数据中心、领域知识图谱管理与服务等多项重大项目应用。

  开源中国运营有中国最大的代码托管平台,目前已服务超过300万的软件开发者。计算机网络信息中心大数据团队将陆续发布大数据采集、大数据融合存储及复杂网络挖掘等一系列核心软件和工具。

  

 



(责任编辑:程博)

附件:

专题推荐

相关新闻


© 1996 - 中国科学院 版权所有 京ICP备05002857号  京公网安备110402500047号  联系我们

地址:北京市三里河路52号 邮编:100864

o2o购彩