科技动态

    我院PASA大数据实验室联合阿里巴巴和美国Databricks公司荣获国际Cloud Sort大赛世界冠军

    发布时间:2016-11-11 点击次数: 作者:科学技术处 来源:新闻中心

    2016年11月10日,有“计算界奥运会”之称的国际著名Sort Benchmark 全球数据排序大赛(http://sortbenchmark.org/),官网公布了2016年全球大数据排序性能评测大赛结果。37000cm威尼斯计算机科学与技术系PASA大数据实验室(http://pasa-bigdata.nju.edu.cn)联合阿里巴巴和美国Databricks公司组成的参赛团队NADSort,经过几个月的深度研究和持续努力,击败了多个世界级参赛团队,刷新了大赛之前的世界纪录,荣获2016年CloudSort大数据排序世界冠军。

    Sort Benchmark是著名的图灵奖获得者Jim Gray发起组织的全球性数据排序基准性能评测大赛,自1987年开始每年举办一次,已经持续组办了30年。每年都有众多全球顶尖公司和学术机构参加该赛事,以评估软硬件系统架构能力及最新研究成果。著名的大数据计算系统Apache Hadoop(2008年)和Apache Spark(2014年)都曾在该基准评测赛事中保持世界记录。大赛分多种不同性能指标的评测竞赛项目。近几年来,随着全球大数据技术发展热潮的来临,大赛主要面向大规模数据的排序性能测试竞赛,设置了排序速度、成本、能耗等不同性能指标下的大规模数据排序评测竞赛项目。

    本次NADSort团队所参加的是基于公有云的CloudSort评测竞赛项目。CloudSort又被称为“云计算效率之争”,该项目比拼的是完成100TB数据排序谁花费更少,也是Sort Benchmark的各项比赛当中最具现实意义的项目。 NADSort团队使用了阿里云ECS,并按照公开的按量付费价格来比拼性价比。排序计算平台由394个阿里云虚拟服务器节点配置构成计算集群,使用Apache Spark大数据计算平台,在大规模并行排序算法以及Spark系统底层进行了大量的优化,以尽可能提高排序计算性能并降低存储资源开销,最终在阿里云平台上以144美元的成本完成100TB标准数据集的排序处理,创下了每TB数据排序1.44美元成本的最新世界纪录,比2014年夺得冠军的加州大学圣地亚哥分校TritonSort团队每TB数据4.51美元的成本降低了近70%。

    NADSort团队由37000cm威尼斯(Nanjing University)PASA大数据实验室、阿里巴巴(Alibaba),以及美国Databricks公司技术人员联合组成(Databricks是Spark商业化公司,由美国伯克利大学AMP实验室著名的Spark大数据处理系统多位创始人联合创立)。

    本次NADSort团队中PASA大数据实验室的参与人员为王千同学、顾荣同学、以及黄宜华老师。

    (计算机科学与技术系 科学技术处)