【太阳神网站106666 宣】(于康萌 周彬 徐增林/文、受访者/图)近日,我院博士生潘宇在导师徐增林教授指导下在2022 年International Conference on Machine Learning (ICML)即国际机器学习大会上发表一篇会议论文,题目为“张量化卷积神经网络的统一权重初始化范式”,潘宇为第一作者,徐增林为通讯作者,哈尔滨工业大学(深圳)为第一单位。
据悉,ICML与NeurIPS一同被认为是人工智能、机器学习领域难度最高的国际会议,在整个计算机科学领域享有崇高的声望。该会议不仅要求文章具备很高的创新性,同时也需要具备较深的理论水平,而在保证这两点之外还需要具备领先的实验表现。 ICML是中国计算机学会(CCF)推荐A类会议,CORE Conference Ranking A*类会议,H5指数237。每年,世界各地的学术机构和企业都会相聚在这个会议上,讨论分享最新的学术进展。因此,ICML被认为是推动机器学习发展的重要会议。
潘宇的这篇论文对张量化卷积网络一直悬而未决的初始化问题提供一种通用的初始化范式。张量化网络模型利用张量表达的低秩低维特性,来构建紧致的神经网络模型,因此在维持传统卷积神经网络性能的同时,具备很好的训练效率,可以减少训练过程中碳排放量。另一方面张量化的模型能够作为量子模型的研发基础,因此广受人工智能领域和量子物理领域的关注。张量化网络很适用于在资源受限终端进行推理,如移动设备、嵌入式设备等。但长期以来困扰张量化网络模型广泛应用的瓶颈在于其训练的不稳定性,为此论文作者们巧妙地通过初始化的方式为该问题提供了答案。
对张量化卷积网络进行初始化存在两个主要难点,一是由于张量分解的方式很多,因此用一种方法来解决所有的张量化模型难度很大;二是初始化要同时考虑模型的前向传输与反向传输。针对这两个难点问题,作者们首先用维持数据流在网络中传递方差的方法,为不同的张量化卷积模型赋予了等价表达方式;然后提出了一种将后向过程转化为卷积的前向过程,从而统一了前后向传播(见图1)。大量数据集上的实验表明,统一的张量初始化可以使张量化卷积网络稳定训练,从而有利于后续的研究进一步对不同形式的分解模型进行开发,并推动张量化模型的发展(见图2)。
图1 重构转换(Reproducing Transformation)
图2 部分实验结果
让我们一起走近潘宇同学,了解他的学习和生活情况。
潘宇:追求极致 张弛有度
谈到写论文中遇到的困难和解决方法时,潘宇说“张量网络涉及张量图示,对领域外的读者是一种全新的图示,如何让他们理解我们的模型构思和核心思想,是论文过写作中的最大困难。”为此,潘宇反复打磨了论文中图片和文字介绍部分,并且仔细地讲解了相关的基础知识,来方便业外人士理解论文内涵。
“兴趣!”被问及促成自己取得优秀成果的原因时,潘宇回答“作为一个科研人员,吃苦耐劳是基础品质;但是要是想坚持下来,并且做出深度和新意,没有兴趣的驱使是无法做到的。张量网络与深度网络分别是从量子力学和神经科学启发的模型,但是二者之间存在非常奇妙的联系,探索二者之间奥妙并设计新型的网络结构无疑是一件有趣的事情。”
“导师对于学生的成长起着至关重要的作用,我的导师徐增林教授具有很好的国际视野和很高的学术素养,也支持我的科研想法,并且时常与我展开讨论,对论文也进行了多轮反复修改,这些对我的帮助非常之大。好的师生关系在于融洽,相互理解以及必要的沟通是最关键的。”谈及科研路上导师对自己的支持与帮助时,潘宇如是回答。
在科研之外,潘宇也有丰富的兴趣爱好。热爱羽毛球、唱歌、打游戏,他看起来与同龄人没什么不同。“我觉得张弛有度很重要,要保持良好的心态。这也是徐老师选择命名实验室为SMILE(Statistical Machine Intelligence & Learning) Lab的原因”潘宇说,“在工作中抽空做一些自己感兴趣的事情来放松身心,对个人的身体健康,以及对科研灵感的出现,都有很大的帮助。”
“既要追求极致的美,也要学会避让暂时无法解决的问题,就像登山过程中,偶尔停一停欣赏一下远方的风景,也为继续攀登积蓄能量,也何尝不是一种乐事。”这是潘宇在科研工作中的心得,也是最想要告诉学弟学妹们的建议。(审核 王宇宁、卢光明)
科研室中的潘宇