加入收藏 | 设为首页 | 会员中心 | 我要投稿 惠州站长网 (https://www.0752zz.com.cn/)- 办公协同、云通信、物联设备、操作系统、高性能计算!
当前位置: 首页 > 云计算 > 正文

张亚勤院士谈“智能计算新发展”

发布时间:2021-11-25 10:08:04 所属栏目:云计算 来源:互联网
导读:作为第四次工业革命的核心,人工智能已经成为全球新一轮科技革命和产业变革的核心驱动力。在2021人工智能计算大会(AICC 2021)上,清华大学智能科学讲席教授、美国艺术与科学院院士张亚勤带来了《智能计算新趋势》主题演讲,分享了在信息、物理和生物智能融
作为第四次工业革命的核心,人工智能已经成为全球新一轮科技革命和产业变革的核心驱动力。在2021人工智能计算大会(AICC 2021)上,清华大学智能科学讲席教授、美国艺术与科学院院士张亚勤带来了《智能计算新趋势》主题演讲,分享了在信息、物理和生物智能融合的新时代下,AI计算面临的新挑战及突破传统范式的新趋势。同时,张亚勤教授分享了人工智能在生命科学、绿色计算及自动驾驶领域最前沿的应用成果,探讨人工智能的技术如何真正赋能各产业,推动社会的进步。
 
以下是张亚勤教授演讲原文(有删减):
 
大家好,特别高兴参加人工智能计算大会,我今天分享的是有关于产业发展的新趋势,包括人工智能在生命科学、双碳趋势下的绿色计算、自动驾驶等领域中扮演的一些角色。
 
AI计算趋势
 
在过去30年中,如果说有一件事是最重要的,那无疑是“数字化”,在80年代、90年代我们所做的是把内容和企业数字化。从当时的语音、图像、视频、文本,后来到企业ERP、CRM,包括云计算,其实是数字化的1.0和2.0阶段。
 
现在,我们进入了新一轮的数字化3.0,这包括两个世界的数字化。
 
■ 一是物理世界数字化,我们的路、车、交通灯,家庭、车间车床工厂,甚至整个城市都在数字化。
 
■ 二是生物世界,即我们的生命世界也在数字化,我们的大脑、身体器官、DNA基因、蛋白质等正在走向数字化,同时各种新的生物电子芯片、脑机接口技术也在不断发展。
 
麻省理工学院多媒体实验室主任Nicholas Negroponte写的《数字化生存》,谈的就是数字化1.0,他认为这是从原子到信息再到比特的变革过程。至于数字3.0阶段,我认为是从比特回到原子、分子的过程,可以说是原子、分子和比特的双方映射。
 
第三次数字化和第一轮、第二轮有完全不同的一些特点。一方面是指数级的数据,比如在无人车领域,每天一辆车产生的数据量是5T;在基因测序领域,每一次测序产生的数据是3T,蛋白质三维结构的数据10300,所以数据在海量地增长。另一方面,这些数据主要不是给人而是给机器做决策的,是机器到机器的环节。
 
人工智能经过了很多发展阶段,最早是更多依靠知识的符号逻辑推理,但知识并不完备,所以造成了AI的第一个冬天。而现在,更多是数据驱动的深度学习;未来,我认为是知识和数据的融合,包括关于大脑的知识,以及大量的现实世界数据,同时也包括第一性原理方程式,比如薛定谔方程、分子动力学方程等等
 
深度学习可以说是这十年来的主流,从RNN、LSTM、CNN,到现在的GAN和Transformer,其经历了丰富的发展阶段,当下的方向是预训练、多模态、大模型。其中有不少挑战,包括因果性、可解释性、透明性,但也有新的解决方案。
 
目前,在感知方面,机器已经达到和人类相当的水平,甚至在某些方面还要更好,虽然认知能力还有一定的差距,但我认为在未来十年左右也将缩小。
 
人工智能发展中很重要的一点,就是三要素里面的“算力”,也即“计算”。摩尔定律已经遇到瓶颈,因此,现在的深度学习,特别是大模型、大计算,其算力不仅仅要达到摩尔定律,而且要超越摩尔定律。它们每年的计算需求几乎达到10倍增长。
 
例如GPT-3,它是1000多亿参数的大模型。OpenAI团队后面没有资金继续做,微软投资把GPT-3模型训练出来。
 
中国和美国在这个领域你追我赶。鹏城的盘古、智源的悟道、浪潮的“源1.0”、微软-AMD的图灵,不管是算力还是参数、数据,都比GPT-3大很多。在此方面,GPT-4可能也会马上出现,一旦出现,我认为中国的企业、科研机构也会超越GPT-4。这是一个好现象,中美两国在这个行业的科技、产业方面形成良性竞争,对整个行业的发展都是有益的。
 
IT产业有三个定律,一个是香农定律,一个是冯·诺依曼架构,另外一个是摩尔定律。我们现在所做的,就是突破这三个极限,特别是冯·诺依曼架构,它已经被使用了将近60年,依然是目前计算的主流架构。在人工智能时代,它有诸多局限,现在很多科研、产业都在想怎么去突破它。比如,在听觉、视觉、触觉、味觉之外打造新的感知,如激光雷达、三维结构、光传感、生物的传感;另外,我们有新的数据流,需要海量的并行计算,包括AI的一些算法,如矩阵、算子、波尔代数等,都需要超越冯·诺依曼架构。我们看到,很多新兴科研产品出现,一些非传统的芯片公司现在也都进入了芯片和程序库领域。
 
长期来看,我们需要突破计算的范式。目前类脑计算、量子计算、光计算、生物计算都有重大进展;在空间分布方面,我们的计算也有很大变化:最早IBM大型机是完全的中央计算,PC阶段则变为完全分布式的,到云计算时又回到中央式的,现在我们正走向云+边+端的协同智能。未来,许多计算将走向边缘,我相信,在未来十年中,90%以上的计算能力可能会到边缘,整个计算会更动态化、分布化。
 
AI+生命科学
 
下面我简单讲人工智能在三个领域的应用,也是我们主要在做的一些科研工作。
 
在生命科学领域,一是刚才讲过生物世界在数字化,产生了天文级的组学数据,基因组学,蛋白质组学,转录组学,细胞组学,这些组学数据再加上各种组合带来的数量是天文级的。二是,整个生物的实验,干实验和湿实验完全闭合会走向自动化,未来越来越少的人介入,这是在实验范式上很大的突破。三是,人工智能科学计算,我们现在生物世界里面更多的是分子动力学,未来AI将走进科学计算。
 
简单看一下,AI在生命科学方面的进展,第一个是基因编辑,编辑的基底清楚之后,AI的算法可以更精准的找到治病基因,治疗的方式让靶点更加准确。其实就是把这个搜索空间大大的减少了。
 
另外,我们不仅仅可以做小分子的制药,也可以做大分子,抗体,以及TCR个性化的疫苗和药物,还有我们看到最近AlphaFold在蛋白质解析方面的进展,从一维的序列到三维的结构到功能,都会加速发展。其次,随着高通量自动化的实验发展,新的范式正在构成。最近新冠疫苗的研发就是一个例子,从2020年1月基因的序列被发布之后,可以看到3个月之后,蛋白质的结构很快就解析出来了,1个月之后,病毒和人的交互方式就被解析了,很快灭活疫苗研发成果,这在人类历史上是最快的一个周期,仅不到一年时间,我们的疫苗就出来了。
 
另外一个工作是我们彭健教授所做的,根据目前我们已有的肿瘤细胞系上药物数据,加上动物的模型、老鼠的模型产生的数据来预测药效。因为人类的这些数据比较少,可解释型的机器学习能够很快的去迁移到人体内药效预测上。右边是乳腺癌患者的实例,可以看到用这样的方式不仅仅加快研发速度而且对于药物推荐使用的准确度也提高了5倍。另外一个例子是我们最近也是彭健教授团队,用几何深度学习,先把蛋白质表面的几何表征训练起来,然后用深度的图网络来做抗体亲和力预测。我们抗体设计不仅仅在过程上加速了很多,也已经成功的应用到新冠的中和抗体药物的开发上。
 
还有我们在基因大数据方面的工作,由兰艳艳教授带领学生完成,我们现在知道基因10%是已经编码的,90%是没有编码的,这些开放区域与转录因子的结合以及和目标基因的调控关系,最终会影响生物的性状。但这些数据过去大家都不用,也不知道怎么用。那我们现在通过人工智能最前沿的预训练技术,通过构造一个全新的模态,建立基因数据的有效表达,继而对下游的基因表达预测,剪切预测,治病性预测等任务都有显著的帮助。这个工作刚刚开始,未来还有很大的发展空间。
 
很重要的是,我们发现这里面有非常大的挑战,我们做人工智能或者说计算机科学,和生命科学,是两个不同的语言体系。过去的合作方式都是比较机械的,或者是生物科学家去调程序包,或者把算法用到生命科学领域。为了打通两个领域,我们做了一系列的工作,从硬件层到数据层,然后到算法层,这些工作叫“破壁计划”。
 
这方面很好的例子是AlphaFold。首先第一点问题——从蛋白质一维序列到三维结构,它是一个科学的问题;第二点的话,就是每次破解蛋白质的结构之后,大家把数据拿出来共享,就可以看到积累的数据越来越多。
 
随着数据更多、算力更大、算法更新,我们希望做的是,把这样的一种方法论用到更广阔的领域,不仅是蛋白质,还有抗体、基因预测等方面。
 
AI+绿色计算
 
人工智能在绿色计算双碳领域也有重要的的应用。当环境与气候已经成为一种挑战,碳中和是可持续发展的必然选择,同时也是能源结构调整的大机遇。
 
人工智能在这个领域也有很多应用。一个方向是物联网,做AIOT,重要的是要感知这个世界,知道碳排放、能源从哪里来、怎么消耗的;第二,有了数据之后,就可以用算法进行智能决策,然后配制资源、进行资源循环。比如在能源融合方面,怎样让火电、核电、水电、风电、太阳能更好地融合到电网里去,在供电、储能、用电各环节都进行数据监控、优化、感知和均衡,这是大问题,人工智能算法会在其中扮演不同角色。
 
讲到双碳排放,IT行业和ICT行业也是一个大的排放源。我和团队讲,先把我们自己的排放问题解决了:数据中心运行的大数据、大计算产生了很多排放;5G本身是特别好的技术,但由于需要很多基站、天线,所以功耗也比较高;另外大的算法、模型也有很多排放。
 
我们近期的一个工作是5G基站。众所周知,5G用的Massive MIMO里面有很多基站,这样计算一下,比如50个基站就有64个MIMO,组合数就很高了,正常应用的时候还要做最优的布阵、部署,有很多种可能性,数量绝对会达到天文级。我们最近做了一些工作,是真实的基站加上一些模拟的场景,用多Multi-agent cooperative Contextual Bandits这个算法,其实也不是特别复杂,也包括一些离散正向学习算法,使得功耗降低了15%左右、5G网络覆盖质量提高了5%左右。这个工作其实才刚刚开始,我想告诉大家,人工智能算法在很多领域都会有应用,应用之后可以起到很好的效果。

(编辑:惠州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

推荐文章
    热点阅读