在山东济南拉开序幕。这是全国首个以数据中心算力赋能为主题的省部联办会议,会上重磅发布了我国首个算力产业高质量发展指数、《算力白皮书》《算力设施产业图谱》等系列成果,规格高、参与广、内容实、成果丰,引发了社会各界的广泛关注。
会上,由中国电子技术标准化研究院联合华为技术有限公司及鹏城实验室、北京航空航天大学、中国移动、中国电信、中国联通、武汉人工智能计算中心、西安未来人工智能计算中心等单位编写的《计算中心有效算力评测体系白皮书》正式对外发布。白皮书首次定义了计算中心有效算力的概念和内涵,给出了有效算力的评测指标和评测方法,以及有效算力和有效算力评测指标体系的应用场景、标准进展与下一步规划等,为计算中心新基建高质量建设指明了方向,尤其引人注目。
在今天的数字世界里,相信我们大家对算力的魔力已经不陌生。 智能手机里的 APP 越来越懂你的爱好习性,电子商务平台的客服机器人几乎能够回答你的所有问题,工厂里的智能机器人能够从事慢慢的变多的生产作业,马路上穿梭的车辆中偶尔会出现一辆“无人驾驶”的出租车……背后不能离开算力的支持。
那么时至今日,业界为何需要提出有效算力,并致力于构建有效算力评测体系?它是如何评测的,相比传统评测方式有何独特价值?这一举措对当前我国推动人工智能计算中心等算力基础设施建设有何意义?让我们一探究竟。
数字经济时代,算力已成为生产力,重大科研突破与产业高质量发展都需要大算力的支撑,这对计算中心新基建的发展提出了更高的要求。近年来,以AI计算中心为代表的算力基础设施成为各地建设热点,国家总体布局设计“东数西算”,更是要将包括AI计算中心、一体化大数据中心、超算中心在内的计算中心联接起来,组成全国一体化算力网络,全面支撑数字经济高质量发展。
与此同时,计算中心的高速增长也带来了一系列能源消耗问题,使得计算中心发展站在了实现国家“双碳”目标的第一线,这要求各地在设计建设计算中心时,不仅要关注市场所需的算力场景和算力总量,还得重视相应的能耗和碳排。这对算力的效率提出了更高要求,高效计算中心建设成为必答题。只有通过节能、增效两手抓应对能耗,才能建设高质量的计算中心,提升算力质量。
质量提升,标准先行。要建设高质量计算中心,提升算力质量,首当其冲的就是需要构建合适的算力评测体系。
这些年来,从最基本的能源使用效率PUE(Power Usage Effectiveness)、芯片标称的规格算力,到SPEC关注单机或单服务器的单台设备性能评价,IO500重点呈现的系统整体存储方面的性能,再到通过真实应用完整呈现整系统能力的AIbench和MLperf等,算力评价指标正逐步从单点、部件能力评测过渡到场景化、全栈全场景业务生产力评价。《计算中心有效算力评测体系白皮书》提出的计算中心有效算力,正是要通过评测真实业务性能表现,来衡量算力基础设施对业务的支撑效果,也就是业务实际可获得的算力水平。相比规格算力更偏向于统计意义上算力的数量,有效算力更强调算力的质量。
相应地,计算中心有效算力评测体系确立了一个规范有效算力如何进行计量的指标体系,其包含了方法、工具和数据集等。该评测体系的核心是有效算力指标(CUE:Computing Usage Effectiveness),用以表示有效算力的量化数据。CUE公式的设立,可以有效避免多个真实业务性能测试所带来的单位不统一、描述过于复杂等局面,通过几何加权平均的方式获得一个单一数值,有助于进行定量、对比性分析。
从白皮书披露的情况看,计算中心有效算力评测方法与评测体系的标准化已经率先落地人工智能领域。这不难理解,因为据权威机构预测,随着视频、图片等更多需要AI技术来处理的非机构化数据的大量涌现,未来10年通用算力将增长10倍,而人工智能算力将增长500倍,算力的增量将主要是AI算力。
2021年8月26日,由中国电子技术标准化研究院牵头起草,中国科学院软件研究所、北京航空航天大学、华为技术有限公司等共同研制的T/CESA 1169—2021《信息技术人工智能服务器系统性能测试规范》发布,并于同年9月1日起实施。该标准提出了有效算力指标公式,制定了面向AI计算中心的有效算力测试集,并给出了人工智能领域的有效算力测试方法,展现了CUE测试的独特价值。
在人工智能领域,实际吞吐率代表人工智能服务器系统对特定训练或推理作业的有效计算能力。提升有效计算能力可达到硬件系统扩容的效果。有效算力的提升,软件方面的优化可包含如计算设备加速库中算子的优化、软件栈的轻量化等技术的应用。比如对特定训练作业的有效计算能力,是单位时间内训练过程能消耗的样本数量(视觉类测试是图片数每秒、自然语言处理类测试是句数每秒)。评价人工智能服务器系统的综合训练能力,可将多个代表性训练作业的有效计算能力综合起来,形成整系统的有效计算能力,即根据上述公式,计算整系统在给定任务集合S上,实际吞吐率与每任务基线吞吐率之比的加权几何平均。
从中可见,在一定规模规格算力集群系统上进行有效算力测试,通过优化硬件配置、基础软件版本以及应用参数等,可以实现全栈优化的效果,并根据实测工具获得最终性能数值。这样的数值可以作为不同技术路线集群系统的性能对比,以牵引技术架构与软硬件设计的演进。
换句话说,有效算力评测体现的是全栈垂直优化的价值,可真实反映计算中心资源使用情况,通过效能分析,指导计算中心面向业务场景,从全栈融合的角度——自机房、能源基础设施、硬件基础设施至软件基础设施各层的整体设计与建设,提高计算中心资源使用率。
很显然,这样的评测指标和方法立足真实业务应用性能,覆盖了计算中心全生命周期,可用于评价计算中心建设的绿色性、先进性、实用性。各地的建设主体可按照有效算力标准对计算中心进行系统化设计,牵引软硬件的深度协同,从全栈优化中获取更优的有效算力,实现从能耗比到算能比的演进,提升资源可分配的效能。
当前,在数字化的经济高质量发展、“东数西算”、“双碳”目标等国策的综合牵引下,全国各地的AI计算中心、一体化大数据中心、超算中心等算力基础设施建设正如火如荼。在这些大并行/并发集群系统特征更为明显的业务场景,有效算力评测体系整系统评测、全栈垂直优化的理念和方法将最能够更好地推动算力基础设施建设。
资料显示,华为等业界伙伴也已基于该体系在计算中心的项目建设中取得显著成效。早在2021年9月,面向人工智能计算中心、高性能计算中心,和一体化大数据中心等多种场景,华为已经推出集群计算解决方案,通过系统工程与架构创新,实现从能源效率指标PUE最佳到有效算力指标CUE最佳的跨越。目前,该集群计算解决方案已用于武汉、西安、中原、成都、南京、杭州等各地的人工智能计算中心项目。
在先行者的带动之下,全国20多个城市已陆续启动或规划了人工智能计算中心的建设。就在本届中国算力大会期间,华为透露今年5月开建的青岛人工智能计算中心项目预计将于9月上线投运,同时还在积极配合济南人工智能计算中心的建设。这些已上线或即将上线的人工智能计算中心,大部分已经或将要接入中国算力网络,推动全国算力一张网的整体布局。
细究这些人工智能计算中心快速建设上线并高效运行的背后,可以发现它们均以昇腾AI基础软硬件平台为基础,并引入CUE指标做了全栈设计与优化,让“计算中心作为一台计算机”高效运转,在支持AI、HPC、大数据等多种算力场景的同时,实现了各类算力的高效利用,大幅提升了有效算力。
有预测指出,算力指数每提高1%,国家的数字化的经济和GDP将分别增长3.5‰和1.8‰。工信部数据显示,2021年底我国算力核心产业规模达1.5万亿元,位居全球第二,近五年平均增速超过30%,带动关联产业规模超过8万亿元。很显然,提供算力生产力的计算中心,将成为现代科技与产业发展的加速器,数字化社会必备的基础设施。
当算力逐步成为经济社会的基础设施,其价值不仅在“量”,更需要“质”,正如《计算中心有效算力评测体系白皮书》所述——将以有效算力为衡量方式牵引计算中心新型基础设施高质量建设,达到以业务应用为牵引、以全栈优化为手段、以节能增效为目标的计算中心建设,提升计算中心新型基础设施建设的质量,支撑数字化的经济等宏观政策与顶层设计落地。