AIRS in the AIR
AIRS in the AIR | 非策略评估问题的稳健型算法和提升分布式随机梯度算法的暂态时间

近日,AIRS 机器学习与应用中心在运筹与管理科学领域顶刊 Operations Research 和自动控制领域国际顶刊 IEEE Transactions on Automatic Control 发表论文。
本期 AIRS in the AIR,我们邀请两位论文一作,围绕非策略评估问题的稳健型算法和提升分布式随机梯度算法的暂态时间,为我们带来最全面的论文解读,欢迎观看直播,与作者实时交流。
第一位报告嘉宾王捷是佐治亚理工学院工业工程系博士生,2020年获香港中文大学(深圳)数学与应用数学理学学士学位(乙等一级),本科期间导师为香港中文大学(深圳)校长学勤讲座教授、AIRS 机器学习与应用中心主任查宏远,香港中文大学(深圳)校长讲座教授张寅,和香港中文大学(深圳)助理教授杨升浩。
第二位报告嘉宾黄琨是香港中文大学(深圳)数据科学学院博士生,导师为香港中文大学(深圳)助理教授、AIRS 机器学习与应用中心副研究员濮实。黄琨2018年获同济大学数学与应用数学学士学位,2020年获康涅狄格大学统计学硕士学位。
点击链接报名参加:http://hdxu.cn/joFps,或通过Bilibili(http://live.bilibili.com/22587709)参与。
呼吸新鲜空气,了解前沿科技!AIRS 重磅推出 系列活动 AIRS in the AIR。每周二与您相约线上,一起探索人工智能与机器人领域的前沿技术、产业应用、发展趋势。
-
查宏远香港中文大学(深圳)校长学勤讲座教授、数据科学学院执行院长、AIRS 机器学习与应用中心主任执行主席
-
郭丹丹香港中文大学(深圳)博士后研究员主持人
郭丹丹2020年博士毕业于西安电子科技大学,此后在香港中文大学(深圳)机器人与智能制造研究院(IRIM)、数据科学学院进行博士后研究,师从数据科学学院执行院长、机器学习著名学者查宏远教授。她的主要研究方向是模式识别机器学习,包括概率模型构建与统计推断,元学习,算法公平性研究,最优传输理论。所涉及的应用有图像生成及分类、文本分析、自然语言生成等。目前,她专注于现实应用中小样本分类、小样本生成、训练数据分布有偏等问题,着重从分布校正、分布拟合、分布匹配等角度展开研究。她的科研成果发表在机器学习国际顶级会议、期刊上,如NeurIPS,ICML,ICLR, IJCV, TNNLS等。 她也是多个国际会议的程序委员会委员和期刊审稿人,如ICML,NeurIPS,ICLR,JMLR, TSP等。
-
王捷佐治亚理工学院工业工程系博士生Reliable Off-Policy Evaluation for Reinforcement Learning
王捷于2020年获香港中文大学(深圳)理工学院数学与应用数学理学学士学位(乙等一级),目前在佐治亚理工学院攻读工业工程系博士。他的研究兴趣包括统计学习、优化理论与算法,以及网络信息论等方向。
In a sequential decision-making problem, off-policy evaluation estimates the expected cumulative reward of a target policy using logged trajectory data generated from a different behavior policy, without execution of the target policy. Reinforcement learning in high-stake environments, such as healthcare and education, is often limited to off-policy settings due to safety or ethical concerns or inability of exploration. Hence, it is imperative to quantify the uncertainty of the off-policy estimate before deployment of the target policy. In this paper, we propose a novel framework that provides robust and optimistic cumulative reward estimates using one or multiple logged trajectories data. Leveraging methodologies from distributionally robust optimization, we show that with proper selection of the size of the distributional uncertainty set, these estimates serve as confidence bounds with nonasymptotic and asymptotic guarantees under stochastic or adversarial environments. Our results are also generalized to batch reinforcement learning and are supported by empirical analysis.
-
黄琨香港中文大学(深圳)数据科学学院博士生Improving the transient times for distributed stochastic gradient methods
黄琨于2018年获同济大学数学科学学院数学与应用数学学士学位,2020年获康涅狄格大学统计学硕士学位,目前在香港中文大学(深圳)数据科学学院攻读数据科学博士学位。他的研究兴趣包括分布式优化。
We consider the distributed optimization problem where n agents, each possessing a local cost function, collaboratively minimize the average of the n cost functions over a connected network. Assuming stochastic gradient information is available, we study a distributed stochastic gradient algorithm, called exact diffusion with adaptive stepsizes (EDAS) adapted from the Exact Diffusion method and NIDS and perform a non-asymptotic convergence analysis. We not only show that EDAS asymptotically achieves the same network independent convergence rate as centralized stochastic gradient descent (SGD) for minimizing strongly convex and smooth objective functions, but also characterize the transient time needed for the algorithm to approach the asymptotic convergence rate, which behaves as KT=O(n/(1-λ2)), where 1-λ2 stands for the spectral gap of the mixing matrix. To the best of our knowledge, EDAS achieves the shortest transient time when the average of the n cost functions is strongly convex and each cost function is smooth. Numerical simulations further corroborate and strengthen the obtained theoretical results.
视频回顾