发布时间:2024-03-18
AI算力机房
指基于人工智能芯片构建的人工智能计算机集群的机房,它包括了基建基础设施(机房基建)、硬件基础设施和软件基础设施的完整系统。
AI算力机房主要应用于人工智能深度学习模型开发、模型训练关键作用
关键作用
人工智能计算中心将重点打造“一中心四平台”,以人工智能计算中心为主体,提供公共算力服务平台、应用创新孵化平台、产业聚合发展平台和科研创新人才培养平台,以此实现“政产学研用”五位一体打通,形成区域乃至全国的人工智能产业的汇聚。
(一)公共算力服务平台
将人工智能计算中心算力资源开放给本地软件开发企业、科研机构和高校,解决高校、科研机构和企业的算力需求问题。
(二)应用创新孵化平台
结合本地优势产业特点,编制人工智能应用场景的项目机会清单,面向人工智能企业、高校院所、科研机构进行公开发布,鼓励开展人工智能竞争性和先导性应用开发和场景试验,牵引科技创新成果做商用转化,形成重大产品创新和示范应用。
打造一批有影响力、有实际效果的应用示范项目,进一步带动本地相关产业智能化升级。
(三)产业聚合发展平台
依托人工智能计算中心建设配套园区,并联合AI头部公司联合建立人工智能生态创新中心等生态运作组织,进行企业交流、初创孵化、技术赋能、人才培训、技术方案对接,产业推广等活动,促进和推动人工智能产业集约集聚发展。
(四)科研创新人才培养平台
结合本地教育资源情况,鼓励高校院所联合行业龙头企业,采用产学研合作模式,创建一批人工智能重点实验室、研究院等创新科研组织,基于人工智能计算中心算力资源,围绕产业技术创新需求,开展人工智能技术研发、科技成果转化等重点工作,落地一批科技创新成果,培养一批关键人才。[2][3]
现状
人工智能计算中心以人工智能专用芯片为计算算力底座,是当前人工智能快速发展和应用所依托的新型算力基础设施。具备训练复杂先进模型和处理海量数据能力的人工智能计算中心属于投资较大的信息基础设施,是包含了机房基建、硬件基础设施和软件基础设施的大规模的系统工程,当前的建设模式和现状主要为政府主导建设和头部企业自行建设。
政府主导建设
在国家层面,出于保持国家竞争力、带动产业发展等考量,各国政府纷纷出资或政策引导建设人工智能计算中心。在我国人工智能战略和深圳“双区驱动”整体布局下,鹏城实验室和华为合作,共同研制人工智能大科学装置——鹏城云脑,打造人工智能计算中心、面向全国的人工智能基础开源开放平台和人工智能开源开放创新生态环境。支撑粤港澳大湾区人工智能重大应用需求、提升大湾区人工智能研究基础地位与创新力和吸引全国人工智能资源、技术与人才。
头部企业建设
近年来人工智能技术领先的企业已普遍开展人工智能算力平台建设,部分龙头企业根据自身的业务特点投资人工智能专用芯片,并依托人工智能芯片建设专有集群。如Google、微软、华为、科大讯飞、商汤、旷视。
发展趋势
(一)全栈一体化趋势:专用人工智能芯片与软硬件协同优化提升计算效率
各类人工智能加速芯片适应人工智能的算法特征,进行矩阵元操作的并行化加速,或进行针对特定人工智能计算任务的精简优化,发展方兴未艾。我国人工智能芯片起步较晚,但发展较快,当前华为、寒武纪等已推出商用人工智能芯片,还不断有新的人工智能芯片出现。
(二)技术融合趋势:云与人工智能融合
云平台带来了人工智能计算中心运营模式的改变,通过云上租户粒度的安全隔离、完善的运维运营系统,人工智能计算中心可以为不同用户提供安全可靠、按需使用、弹性伸缩、有服务等级保障的自助式服务。云化计算中心提供裸金属服务器、虚拟机、容器等多样化的算力资源和人工智能使能平台服务,人工智能服务与云上大数据、物联网、边缘计算等服务的相互协同,满足新型应用场景综合复杂多层次的计算需求。
(三)平台赋能趋势:人工智能计算中心赋能企业,形成算力生态
具备强大软硬件能力的核心企业集聚研发能力、生产经验和产业资源,在人工智能计算中心搭建基础应用使能能力,对平台上的小型人工智能企业和欠缺人工智能能力的传统企业进行赋能。人工智能计算中心将成为人工智能核心企业和大量初创企业能力输出的主要方式,如通过平台开放接口的方式输出龙头企业的算法能力,资源、数据支撑、运营辅导和模式优化等。[5]
总体架构
人工智能计算中心的总体架构划分为基建基础设施(机房基建)层、硬件基础设施和软件基础设施层,在人工智能计算中心之上,是行业应用层。
基建基础设施层包括土建、电气等底层设施。为人工智能计算中心提供空间、水电、散热等基本条件。行业应用层是人工智能产业的核心,将基础能力转化成人工智能技术,如计算机视觉、智能语音、自然语言处理等应用算法研发,广泛应用到多个不同的应用领域。
人工智能计算中心总体架构
关键技术
1.硬件基础设施
由人工智能计算子系统、存储子系统、网络互联子系统组成。人工智能计算子系统主要提供硬件算力,由人工智能芯片、基于人工智能芯片的服务器与芯片间和服务器间互联网络构成。存储子系统、网络互联子系统围绕计算子系统提供数据存储传输、人工智能网络模型参数传输更新等功能。其中,人工智能芯片是人工智能硬件基础设施中人工智能算力最重要的承载。
2.软件基础设施
软件基础设施层包含基础软件(AI系统软件包括AI开发框架和芯片使能软件,以及云平台)、AI使能软件、行业算法、AI市场。基础软件中,芯片使能软件驱动AI芯片,提供深度学习软件加速库(算子)的集合,AI开发框架封装了如卷积等基本操作,提供人工智能网络模型开发环境;基础软件还包括云平台,对计算、存储、网络资源进行统一调度和鼓励,提供统一算力支持。AI使能软件支持作业的自动调度、大规模分布式训练,对AI计算子系统的算力资源进行统一管理、调度和实时分配,提供算子开发研究、神经网络开发研究、全流程AI开发能力,帮助AI开发者和科研人员高效完成算子开发、算法开发、数据处理、模型训练和模型部署等开发活动。行业算法通过行业知识和积累,预置行业经验,实现更快更高效的赋能行业。
建设指导
由中国科学技术信息研究所发布的《人工智能计算中心发展白皮书》对人工智能计算中心的概念、发展现状、总体架构和关键技术以及加快发展我国人工智能计算中心的建议作出了解释与介绍。
建设意义
人工智能计算中心是一个非常重要的基础设施,旨在让人工智能“用得起、用得上、用得好”。
“用得上”是指构建一体化方案,通过一个人工智能计算中心,让各种交叉技术一站式解决;“用得起”是指在不浪费有限的社会资源的条件下,把所有的成本降至最低,统筹规划解决人工智能算力,使人工智能计算中心作为标杆,解决人工智能基础研究上的需求和产业发展,满足中小企业加入人工智能行业中所需要的算法需求;“用得好”则是指未来将推出多个公共服务平台,并实现平台迭代升级,让受益面更广。