资讯中心

《人工智能 服务器系统性能测试规范》国家标准征求意见

2024/4/8 13:36:32    20756
来源:仪表网
摘要:本文件规定了人工智能服务器系统,完成深度学习训练及推理任务的性能(运行时间、能耗、实际吞吐率、能效、效率、弹性、承压能力等)测试方法。
  【仪表网 行业标准】近日,由中国电子技术标准化研究院 、华为技术有限公司 、中国科学院软件研究所 、北京航空航天大学 、浪潮电子信息产业股份有限公司等单位起草,TC28(全国信息技术标准化技术委员会)归口的国家标准计划《人工智能 服务器系统性能测试规范》征求意见稿已编制完成,现公开征求意见。
 
  当前具有代表性的通用 AI 测试基准、HPC 性能测试基准或服务器技术规范,如 MLPerf、AI Benchmark、benchcouncil、AI-HPL、Linpack、DAWNBENCH、T/CESA 1043-2019《面向深度学习的服务器规范》、GB/T 9813.3《计算机通用规范 第 3 部分:服务器》《人工智能芯片 面向云侧的深度学习芯片测试指标与测试方法》以及 AIIA DNN benchmark 等,在 AI 服务器系统性能测试方面,仍存在一些未解决的问题。
 
  1) 通用服务器技术规范对 AI 服务器系统的性能测试的规定不深入、而且存在同质化倾向。在测试指标方面,仅端到端运行时间、能耗等不能准确反映AI 服务器系统。系统内部运行时效能方面,尚不存在标准化的测试方法。
 
  2) 通用 AI 性能测试,使用公众可获得的模型、数据集。它们与行业(如金融、医疗)实际使用的模型、数据有较大差异。通用测试的结果,对行业指导意义不强,行业业务在 AI 服务器系统计算设施上的运行效果,无直接评判依据。
 
  3) 当前的测试基准对测试科学(test technology)理论的实践相对较薄弱。这些测试基准对性能的理解、解释及测试方法仅限于稳定状态运行时间,而未考虑真实运行环境及系统自身现实状态。
 
  针对以上问题,该标准拟结合测试技术,在通用及行业应用两方面,研究并标准化测试方法、用例,达到较为全面、准确的测试效果。
 
  人工智能服务器系统,包含人工智能服务器、集群和高性能计算设施等形态。人工智能服务器系统,是各类深度学习模型(包含大规模预训练模型)的训练和推理的核心载体,是各行业应用人工智能技术提升生产效率的核心工具。人工智能服务器系统专为处理人工智能计算任务设计,在架构、运算方式和用途用法上,与通用服务器系统有较大差别,其测试过程、负载和指标等,皆有独特性。本文件提出人工智能服务器系统性能基准测试的方法,并对基准测试工具提出技术要求。
 
  本文件规定了人工智能服务器系统,完成深度学习训练及推理任务的性能(运行时间、能耗、实际吞吐率、能效、效率、弹性、承压能力等)测试方法。本文件适用于人工智能服务器系统的性能评估。
 
  本文件内容框架如下:
 
  1. 测试类型
 
  a) 开放测试
 
  b) 封闭测试
 
  2. 训练
 
  a) 训练过程;
 
  b) 测试控制要素(含准确率门限、机器学习框架、混合精度训练、训练结果精度要求、数据读入要求、数据预处理过程、数据遍历要求、目标模型要求、超参选取规则、优化算法技术要求、损失函数技术要求、操作系统及环境要求等);
 
  c) 结果符合性(含元数据、结果模型一致性、训练代码要求、日志要求等)
 
  d) 场景(含通用及行业专用场景);
 
  e) 指标及获取方法(含通用指标、测试学相关指标、行业专用指标等);
 
  f) 测试工具要求(构架、功能要求、公平性保障要求);
 
  3. 推理
 
  a) 推理过程;
 
  b) 测试控制要素(含作业到达控制、准确率、机器学习框架、量化、重训练、数据预处理、数据后处理、数据遍历、数据缓存、作业延误及丢失控制、操作系统及环境要求等);
 
  c) 结果(含元数据、模型一致性要求、代码技术要求、日志要求等);
 
  d) 场景(含通用及行业专用场景);
 
  e) 指标及获取方法(含通用指标、测试学相关指标、行业专用指标);测试工具要求(构架、功能要求、公平性保障要求等)。
 
  更多内容详情请见附件。

全部评论

上一篇:计量人请注意!33项国家计量技术规范本周实施

下一篇:《隐丝式光学高温计校准规范》等两项计量技术规范征求意见

相关新闻
热门视频
相关产品
写评论...