Scheduling Deep Learning Workloads at Scale in GPU Data Centers

面 对人工智能 日益增长的问题解决能力和泛化能力需求,现代深度学习模型变得越来越庞大且复杂,需要消耗大量计算资源和时间。利用大规模GPU数据中心进行模型训练和推理优化已成为常见做法。然而,由于深度学习任务的高计算需求和底层硬件的异构性,GPU数据中心管理和调度任务面临多重挑战。
第十三期AIRS-TNSE联合杰出讲座系列活动,我们有幸邀请到南洋理工大学的文勇刚教授介绍GPU数据中心大规模深度学习负载调度,并分享他在这个领域内的相关研究成果与有趣发现。
AIRS-TNSE Joint Distinguished Seminar Series is co-sponsored by IEEE Transactions on Network Science and Engineering (TNSE) and Shenzhen Institute of Artificial Intelligence and Robotics for Society (AIRS), with joint support from The Chinese University of Hong Kong, Shenzhen, Network Communication and Economics Laboratory (NCEL), and IEEE. This series aims to bring together top international experts and scholars in the field of network science and engineering to share cutting-edge scientific and technological achievements.
Join the seminar through Bilibili (http://live.bilibili.com/22587709).
-
Jianwei HuangVice President, AIRS; Presidential Chair Professor, CUHK-Shenzhen; Editor-in-Chief, IEEE TNSE; IEEE Fellow; AAIA FellowExecutive Chair
-
Yonggang WenProfessor and President's Chair in Computer science and Engineeringat Nanyang Technological University; Editor in Chief of lEEE Transactions on Multimedia; lEEE FellowProfessor and President's Chair in Computer science and Engineeringat Nanyang Technological UniversityEditorin Chief of lEEE Transactions on Multimedia lEEE Fellow
文勇刚,南洋理工大学计算机科学与工程学院校长讲席教授,于2008年在美国剑桥的麻省理工学院获得电子工程和计算机科学博士学位(辅修西方文学),目前担任新加坡南洋理工大学副教务长(研究生教育)和研究生院院长。此前,他曾担任新加坡南洋理工大学校长办公室协理副校长(能力建设)(2023年)、工程学院副院长(研究)(2018-2023年)、南洋科技创业中心代理主任(2017-2019年)和计算机科学与工程学院助理主席(创新)(2016-2018年)。文教授在顶级期刊和著名会议上发表了300多篇论文。他的系统研究获得了全球认可,他在多屏云社交电视方面的工作曾受到全球媒体的关注(来自29个国家的1600多篇新闻文章),并获得2013年东盟ICT奖(金奖)。他在数据中心认知数字孪生方面的工作,获得了2015年数据中心动力学奖- APAC(数据中心行业的“奥斯卡”奖)、2016年东盟ICT奖(金奖)、2020年IEEE TCCPS工业技术卓越奖、2021年W.Media APAC云与数据中心技术领袖奖,以及2022年新加坡计算机学会数字成就技术领袖奖。他是2019年南洋研究奖获得者和2016年南洋创新创业奖唯一获得者,这两个奖项都是南洋理工大学的最高荣誉。他曾获得多个最佳论文奖,包括2019年IEEE TCSVT和2015年IEEE Multimedia的最佳论文奖,以及多个国际会议的最佳论文奖,包括2023年ASPLOS、2016年IEEE Globecom、2016年IEEE Infocom MuSIC Workshop、2015年EAI Chinacom、2014年IEEE WCSP、2013年IEEE Globecom和2012年IEEE EUC。他是IEEE Transactions on Multimedia (TMM)的主编,担任或曾担任多个IEEE和ACM Transactions的编辑委员会成员,并当选为IEEE ComSoc多媒体通信技术委员会主席(2014-2016)。文教授的主要研究方向为云计算、绿色数据中心、大数据分析、多媒体网络和移动计算。他是IEEE会士、新加坡工程院院士,也是ACM的杰出成员。
To meet the ever-growing demand of problem-solving capability and generalizability via artificial intelligence, modern deep learning models are becoming larger and more sophisticated, while at the cost of huge amounts of computing resources (e.g., GPU) and prolonged training time. it has become a common practice to leverage large-scale GPU data centers (i.e., AI data centers) to optimize and accelerate model training and inference. However, the management and scheduling of these deep learning workloads in the GPU data centers present numerous challenges, due to their high computational requirements, distinct and diverse runtime characteristics, and heterogeneous nature of the underlying hardware.
In this talk, we will investigate deep learning workload scheduling accelerating, training execution over GPU datacenters, with a multifold objective of improving resource utilization, enhancing users’ experience, and easing operators’ management. Specifically, we will introduce novel and practical methodologies and system designs to achieve those goals. These solutions are highly integrated to tackle different challenges, paving the way for optimal utilization of GPU resources and accelerated progress in deep learning applications.
Video Archive