2023年2月16日,由、挖贝研究院联合举办的“第七届挖贝北交所·新三板领军企业年会”在北京悠唐皇冠假日酒店盛大召开,本届大会以“笃定信心 开新局”为主题,汇集了多家北交所、新三板企业家、投资机构、券商以及多位知名专家学者、权威媒体,与参会嘉宾共同就“笃定信心 开新局”展开热切探讨。
云创数据总经理刘鹏(wabei.cn配图)
云创数据总经理刘鹏在会上作了《人工智能引领未来》的主题演讲,他表示,我们跟另外硬件研发企业一起设计了向量计算一体机,因为我们发现所有人工智能计算,包括人脸识别、自然语言理解,最后卡脖子的地方是卡在向量计算上
【资料图】
以下为云创数据总经理刘鹏演讲实录:
非常荣幸有这样一个机会给大家做分享,我在这里主要讲人工智能在最近这十年的三次大的飞跃,第一次飞跃是2012年图象识别的飞跃,主要来自于神经网络这个技术的突破,第二次飞跃是AlphaGo在2016年挑战围棋的世界冠军李世石,第三次飞跃就是最近特别火的ChatGPT,这是从去年11月份发布的到现在已经引起了全世界的震动。
首先来看看第一次飞跃,在美国有一个比赛,这个比赛是由李飞飞组织数据来筹办的,这个比赛叫ImageNet,这是2010年开始建立这个数据库,数据库里放了128万张经过标注的数据。比如说里面有一辆车写了这个车,有个人说这是个人,有一个植物说这是植物。有10万张数据是用于识别、测试。
在2012年突然之间出来了一个新的算法,叫AlexNet,它的准确度一下子从原来的百分之七十多一下子提升到百分之八十多,从那以后这种技术大行其道,让神经网络的层数越来越高。当时2012年AlexNet用了八层神经网络,后来在2014年谷歌的Net用了22层,后来慢慢发展到152层。神经网络的准确度也越来越高。到了2015年ResNet的时候它的错误率只到3.57%,而人类的错误率是5.1,机器去看一张图片的准确度已经超越人类。
提出这个理论加拿大多伦多大学的教授叫Hinton,他和他的学生创造了这个理论,这个学生叫Alex,Hinton和另外两位搞人工智能的专家三个人都获得了图灵奖,图灵奖计算机界的诺贝尔奖。从那以后机器视觉一发不可收拾,比如说左上角这个图让计算机去看这个图片里到底有什么东西,或者是我们给它一张图片让计算机用语言去描述这个图片里发生了什么情况,里面有什么对象。或者是我们把图片里每个对象扣出来等等,这些应用层出不穷,由于这个技术的突破也产生了中国的人工智能四小龙,现在他们大部分都上市了,他们都是机器视觉领域里的领先者,他们也发表了大量论文,也参加了很多国际比赛,也拿了很多奖,所以他们把这些技术做得越来越专、越来越精。在这方面的应用中国还是比较领先的。
我们也做了一些工作,我们设计了这个算法,这个算法叫视频DNA,我们就把这个人走过去的数据做了三维叠加,做成了体现时间和空间分辨率的数据立方体,而这个数据立方体反映了这个人潜在几乎所有我们能看到的特征,而传统的技术是用特征提取的方法提取这个人的身高、重心、频率等等。我认为传统的方法是不可行的,如果我们在一百个人把这个人特征挑出来是很容易的,如果你在一千万人挑出来,跟他特征相似的人就特别多,所以这个人的特征数据会容易被淹没在数据海洋里,而这种方法就比较能够提取出来。这大概是我们十年前做的技术。
我们还会去解决其他的问题,比如说在高速公路上收费现在都是用ETC或者取卡,为什么不能够直接车牌识别就收费?比如说我们在海南大家有注意到,海南高速公路是没有收费站,是把所有的费就计在油费里的,所以海南加油要比内地贵一些,但是没有收费站。你用油用的多就表示你跑高速公路跑的多。但是海南最近遇到一个很大的难题,现在越来越多的新能源车是不加油的,所以他们的钱就没有办法收,我们必须要追踪每辆车直到每辆车到底跑了多少高速公路。
所以这个问题怎么解决?高速公路上识别每辆车到底有什么难的,因为停车场早就是这样做的,自动识别、自动收费。比如在高速公路会遇到这种情况,在拍照的时候太阳光反光、车牌被太阳光光线遮挡了;还会碰到有的车牌太脏了、太旧了、变形了、太暗了、速度太快了、下雨了、下雪了等等,这些情况我们怎么把这些车牌识别出来。
江苏交通控股就搞了这个比赛,是从2017年10月份开始搞的,对着一条真实的高速公路,很多车在这个路上跑,请了很多人工智能公司参加这个比赛,看大家识别的结果,这个结果是随时随地实时比对的,如果有三家以上的识别结果是相同的,说明这三家肯定是对的,因为大家不会错的一样,其他的人都是错的,如果大家都不统一,由人去检查到底谁是对的。
经过持续这么多年的比赛,可以看到已经识别了上百亿张百亿级别的车牌,在这个比赛里,我们始终保持了第一名水平,是在各种自然条件下。
我们要准确地把每一辆车识别出来,即使我们把速度再加一倍,这样就能够非常准确地把现实世界的状态投射到信息空间,这也是未来元宇宙所需要的,就是把每个人、每辆车真实世界的状态投射到信息空间,由人工智能去管理,这是很重要的一件事。
我们用这样的算法也可以去解决别的问题,比如癌症,它有个特点,这个病人如果发现的很早,就比较容易治,如果发现的晚,基本上预后就很差。怎么能够让病人尽早地得到治疗,但越早的癌症病人症状越不明显,我们拍了一个片子,医生也不确定这个病人到底是不是癌症。
这时候我们就和南京鼓楼医院合作做了前列腺癌的识别,在早期癌症时医生准确率不是很高,但我们能做到99.38%,在国际上也引起了比较大的影响。
机器视觉也可以用在工业里,工业领域一般是去解决目前为止没有人能解决的问题,如果别人能解决,我们就不再接触了。比如在汽车制造的过程中,99%的环境都是机器人在完成,但还有1%是人在做,这1%就是要检查车的每个件表面有没有瑕疵,现在很多都是靠人在检测,为什么不让机器去检测?因为机器速度和精度达不到人的要求。目前在汽车制造领域里还在大量地使用人工,包括我们现在知道的一些知名车企,现在也都在人工检查这些环节,但经常会检查漏,整车出品的时候没发现,结果后来又反工,造成整个成本的浪费,所以我们就设计了系统,对汽车进行快速建模,从而用人工智能算法检查它表面的瑕疵。
比如上面写的字的高度,通过我们的算法就可以把这些瑕疵比人眼更加细致地发现出来,然后用机械手把这种缺陷挑出来。
我们处理了很多类似的事情,比如发动机里边很反光,非常亮,它的缺陷能不能查出来;或者汽车轮毂是很变形的,要正面、反面、侧面、里面全部都要看到,所以要求很高。
我们一般是首先看这个行业里有没有人做出来,如果没有我们就会去做,如果它的应用场景很广,就可以把这个部署在产线上。
第一次飞跃,也带来了很多效率上的提升,带来了生活质量的改善。
第二次飞跃,AlphaGo。是2016年3月9号,李世石和AlphaGo下围棋,这是Google公司子公司DeepMind发起的邀请赛,冠军可以拿到100万美元奖金,当时李世石表情非常开心,他把他女儿也带到了发布会上。
左边这位是哈萨比斯(DeepMind创始人),是一个神童,在4岁时就开始思考两个问题。
1、人的大脑为什么能够思考那么复杂的问题?
2、将来我能不能用计算机模仿人的大脑?
他8岁的时候就开始自学编程,16岁高中毕业的时候就写了第一个软件“主题公园”,后来就去上大学,再后来创办了DeepMind公司。
AlphaGo这个公司非常神奇,做了很多了不起的事情,现在ChatGPT、OpenAI也非常神奇。
这个比赛成绩大家都知道,AlphaGo4:1战胜了李世石。为什么把这个事拿过来说?比赛之前,柯洁当时的评价是计算机战胜李世石的可能性不到5%;聂卫平在3月7号讲,若机器和人比赛围棋,我认为机器是一点机会没有的,我对人工智能有极大的怀疑,你们都是忽悠,围棋,大脑绝对不可能战胜人类;李世石讲,除非出现不可理喻的低级事故,否则我绝不会输,人工智能向人类发起挑战还处于起步阶段。
这些大佬们当时都没有意识到,居然会有一个程序能够打败世界冠军,因为在这个比赛之前,AlphaGo这个软件根本没跟高手下过棋,只跟二段的高手下过棋,现在从二段下完之后直接挑战世界冠军,大家都觉得这是不靠谱的做法,而且AlphaGo整个公司会围棋的就一个人,下的一手臭棋,就是一个下臭棋的人把规则告诉程序,让程序自学成才,跟世界冠军挑战,谁也没干过,当时不确定性非常大,到比赛中间的时候,大家都傻眼了。
古力是中国的一个九段高手,他说五个九段一起上或许能赢;聂卫平说AlphaGo全局几乎完全零失误;柯洁说AlphaGo围棋确实是有史以来我见过的最强大的对手。
这个比赛真的颠覆了我们人类的想象,可能大部分人都在想下棋输了就输了。1997年,卡斯帕罗夫跟IBM深蓝下国际象棋也输了,输了就输了,下个棋输了就算了,我们就不下棋了。
但这件事没有这么简单,围棋棋盘是49条横线乘以19条竖线,一共是361个交叉点,每个点有三个状态(黑子、白子、或没有子),所以他的计算空间是3的361次方,等于10的171次方,而宇宙里的原子总数只有10的80次方,相当于是宇宙原子总数乘以宇宙原子总数再乘以1000亿倍,这个空间想把它探索到是不可能的。
这么大一个空间,为什么国际象棋在1997年就被探索到了,因为它的格子太少了,计算机就取代了,现在格子看着好像不太多,但组合很多,这就是组合爆炸。
AlphaGo是从三个策略解决的。
第一,跟人类学习。学习了人类从五段到九段的高手曾经下过的16万盘棋,一共3000万步,看某种情况下人是怎么下的。
第二,左右手互搏。把自己做成两个版本互相打,打赢了就升级,打输了就降级淘汰,赢了就不断地打,不断地自我成才。
第三,它对态势有了全局观,看到每个棋面都能评分赢的概率是多少,这种对复杂态势的判断能力只有人类才具有。像我们买股票不就是态势的感知和判断吗?它就是通过大量的学习对态势有了判断的能力。
AlphaGo通过这三种手段就进化了。李世石跟它下的第一盘棋,当时不太认真,也没当回事,结果输了以后很紧张,那天晚上李世石从韩国请了3个最厉害的高手陪他下了一晚上,AlphaGo那天晚上下了100万盘棋,第二天李世石再跟AlphaGo下棋的时候,发现他已经不是昨天的它了。
第二年AlphaGo跟柯洁下棋的时候,这个版本叫Alpha Zero,从0开始,就把左边这个向人类学习去掉了,最开始随机下,不断自我迭代,用了72个小时就超越了以前的AlphaGo,所以完全不需要向人类学习,自学成才。
柯洁跟它下的时候输的很惨,基本上一点赢的机会没有,三盘全输。据说柯洁当时还到赛场外哭了一阵子,AlphaGo后来就出现了一些新版本,像Alpha Zero不只是下围棋,干别的事情也行,比如去打游戏,出了一个打游戏版本Alpha Star,把世界上主要游戏都玩了一遍,把所有冠军全部干掉了。
后来开始干正事,出了一个AlphaFold,就是我们全世界的生命科学家研究生命科学的时候非常依赖知道蛋白质的结构,但人类已知的蛋白质大概是1.8亿种,但人类知道结构的只占百分之零点几,以前是怎么知道的呢?像施一公这样的大科学家,他们有冷冻去观察一个蛋白质,然后把它的结构解剖出来,基本上一个结构要搞一个月,用千万的设备长时间去搞,最后搞出来不一定准确,但后续AlphaFold版本用了两年时间,把人类已知的所有结构全部搞出来了,而且它的准确度误差只有一个原子宽度。
现在全世界生命科学家全部转到AlphaFold上去做研究去了,这个突破之后带来的影响是,比如以前治疗不了的疾病艾滋病、癌症、新冠等等攻克就有了希望。由于AlphaFold的突破,使得生命科学大爆发,我们全球科学家都转到这上面去研究了。
从2016年之后,突然发现AlphaGo其实不只是下了个围棋,而是解了一道世界级难题“组合爆炸”,现在科学里碰到的大部分问题都是这种问题,比如一个城市堵车,我们希望这个城市的红绿灯能够智能配置,使得城市开车速度尽量优化,让城市尽量减少堵车。
从2017年开始我们就做这件事,利用AlphaGo的思维方式去解城市的交通智能控制题,折腾了这么多年,数学公式写了1000多页,我们跟南京市交管局合作去做,做了这么多年的结果是我们觉得取得了比较大的一个进步,构造了这套系统,这套系统比原来AlphaGo碰到的问题要复杂的多,AlphaGo每个十字路口就三个状态,我们每个十字路口是这个方向的车要左转、这个方向的车要直行、那个方向车要右转,每个车道的车数量都不同,它的速度都不一样。
所以,每个十字路口就是一个组合爆炸,我们把一个城市所有不规则的组合爆炸组合在一起联合去求优化解,这是非常复杂的一个数学问题。所以我们不断地去优化我们的算法,最后优化的结果是我们跟交管局一起对这个算法做了验证,当然这个验证不是直接到红绿灯上去控制,要上去控制还要经过一定的流程,所以我们是通过他们认可的仿真系统用真实数据输入到仿真系统去看我们开车速度会提高多少。我们有交管局周围那些道路数据做了实验,我们能把开车的频率速度提高到127,是原来的2倍多的速度。当然这要投入使用还需要很多验证,就像药一样需要小试终试大试,所以我们现在也需要做,今年正在两个城市努力地落下来。
我们也参加了一些比赛包括参加全国颠覆性技术创新大赛,这是我们跟红绿灯配时,右边是道路的实况,每次配时都在改,道路变得越来越绿,当然这是在仿真系统里看到的成果。我们非常相信只要你仿真系统是客观反映了真实世界,那真实世界就会是这样运转的。
这是我们开发的这套系统,这套系统是以山东枣庄作为假想的,我们跟交管部门合作在做这件事情。所以我们可以通过这套系统去优化城市的通行情况。
解了这个题之后突然发现别的题好像也差不多,我们到一个汽车工厂去看左边是国产的汽车工厂,我当时就很好奇,为什么机器人这么慢,为什么特斯拉那么快,他们给我解释的原因是机器人都凑在一起干活,机械手很容易互相撞着,所以为了避免他们撞着我们要用节拍来控制每个机器人,这个节拍这个机器人干活,那个节拍那个机器人干活,大家不要同时干。为什么特斯拉就不怕撞在一起,他说特斯拉原来也是很慢的,后来2018年特斯拉手上有些订单但是生产跟不上,所以马斯克亲自到工厂里拿睡袋前后待了三年,马斯克调了所有机器人的代码,使得机器人能够并行工作而且互相不打架,所以特斯拉的产能就迅猛提升,就变成了世界级的车企。所以他的降价空间比别人快,因为生产效率比别人高。
我当时在想我们就不能做这个吗?我们就用人工智能写了一个软件,这个软件是加在国外的机器人仿真软件里,加上人工智能引擎,加入之后让机器人学会怎么配合,从而让这些机器人不管什么场景的复杂情况都能够快速让人工智能把软件写好,从而让所有机器人能够协同起来更高效的工作。
类似的问题还有很多,我们用这个也去设计新的材料,最近正在跟一个知名的钢企合作设计新的钢材,那也跟这个有点类似,不过我们突破的速度非常快。我们从早上九点开始设计,下午五点下班的时候系统就做好了,而且验证了我们输出的数据,每输出的一条数据就是一种新的钢材,当然我们还没有来得及去验证这个钢材到底是不是我们想象的,我们感觉新的突变时代已经来到了。
我现在讲第三次飞跃ChatGPT,人类所有的人造的各种东西达到1亿用户所需要的时间,电话是75年,手机是16年,网站是7年,推特是5年,苹果的应用商店是2年,Tiktok是9个月,ChatGPT是2个月就达到了1亿用户,现在全世界的人都在用,据说美国91%的大学生现在都是用ChatGPT帮他写作业。美国纽约的教育局已经禁止ChatGPT进学校,免得学习用它作弊。
比尔盖茨最近有讲话说ChatGPT作为聊天机器人可对用户查询做出类似人类的反应,与互联网发明一样重要,人工智能的进步是目前最重要的创新,这是反映到真实的情况。马斯克讲了这样的话,ChatGPT好的惊人,人类强大且危险的人工智能又迈进了一大步。这个东西太惊人了。
它的一个问答系统,当我提问它经过它模型计算最后给出一个答案,关键问题是你想知道所有东西它都能够给你答案,让它写首诗给你写首诗,让它写工作汇报就写工作汇报,这是很惊人的。ChatGPT是基于3.5版发展起来的,它的神经元数量是1750亿个,那么这两个月就会发布4.0版,4.0版现在有一个说法大概是100万亿的神经元。新版会支持所有的,生成电影、生成视频、生成图片、生成音频、生成模仿任何人、所有的工作都能做。这是很恐怖的进步,它能做我们感官类的也可以做思维类的各种工作。
它是怎么做到的?编码和解码,我们有一张图片想让人工智能理解这个图片,人工智能看到这张图片之后经过神经网络的编码,最后编成空间的向量,向量再去解码,希望解出原来的图片。所以是一种无监督的学习,把互联网上所有数据喂进去,把每张图、每段文字从这里面输进去,再解出来发现不一样。我们再去调神经网络,让它尽量一样,所以它不断地做这种循环,4.0是把整个人类所有互联网上的数据全部拿去学了一遍。现在发现它再往上提升就比较难了,因为没有数据了。
除了ChatGPT还有很多类似的系统,这是一个开源软件Stable Diffusion,这个软件是我们做的实验,比如说输入一句英语比如说天空中的花园,它生成的图片,这是一个英俊的小男孩在骑一匹马。它画的图是一个男孩挽住了一个女孩的手在校园里走,生成的图片。这是这次元宵节做的图片,中国的元宵节有很多灯笼,这是Stable Diffusion生成的图片。这是FaceBooK做的,他现在已经能够用这样的类似技术去生成视频,这个描述是一只泰迪熊在画自画像,人工智能自动生成了视频。
所以大家可以想象五年之后可能演员这个职业就没有了,导演也没有了,剧作家也没有了,因为所有写剧本的是人工智能,拍电影的也是人工智能,人工智能自己想电影场景,设计电影的逻辑现在都会,它把电影制造出来,最后它还掌握所有人的需求,它知道这个电影会有哪些人看,所以它是根据人类的大数据去设计这个电影。所以人类拍的电影成本又高,效率又低,质量还不如它,我们会发现很多行业都会面临如此的竞争,就好像车牌能识别,地下车库的收费员就没有了一样。
当我们用ETC的时候,会发现高速公路收费员就减少了很多,这是必然的结果;当自动化生产用机器人了,会发现很多工人现在都不需要在岗位上了;当机器人都能扫地、送餐、送快递了,甚至现在大家都认为ChatGPT比他的老师讲课好很多,问老师问题不一定能回答,ChatGPT都能回答,而且它给你讲的东西非常清楚,所以大家觉得老师也不是特别重要了,现在已经到了人工智能爆发的拐点了。
DALL-E,也是Open AI做的一个工具,这个图提示是中文,碗汤是另外一个吃源的入口,就是一碗汤是一个吃源的入口。生成出来的图片比我们人类的想象力要高很多,这是一个泰迪熊在时代广场滑滑板等等,
这是Google做的Imagen,这是一个报喜鸟,它站在一揽子的彩虹饼干上面,会发现它的脚指头放的位置已经充分理解了这个脚指头就应该是这样的。
所以,你如果问ChatGPT秦始皇用的是哪个品牌的手机,它说秦始皇那时候连电都没有,手机都没有,他不会用手机,他知道所有的逻辑,他知道这里面深层的含义。
这里面我们也做了很多研发,跟另外硬件研发企业一起设计了向量计算一体机,因为我们发现所有人工智能计算,包括人脸识别、自然语言理解,最后卡脖子的地方是卡在向量计算上,人脸都是把它转换成一个向量做向量比对,我们自然语言理解也是把它转化成一个向量做向量比对,所以现在ChatGPT已经到了一个可以通过向量的关系去推的阶段了,但现在它幸好不能理解它到底是什么含义,我们是觉得下一个比ChatGPT更强的东西是一定要明白我们人说的一句话到底是什么意思,这个意思就是空间的哪个向量的位置,而这个位置是需要大量的计算。
所以,这个机器就是为这个准备的,已经做了很多年了,这里面有60颗处理器,算力是一秒钟做7亿次向量计算,比我们用GPU卡强了40倍。
用这个就可以理解自然语言,理解人说的每句话是什么意思,基于这个我们就做了很多自然语言的搜索引擎,也基于它正在研发一些全新的能够理解语义的人工智能的新的引擎,当然还需要时间,但我觉得如果有足够的资源,我们有可能会把这个做出来,但是首先要解决的问题是这么强大一个人工智能具有学习所有知识的能力,并且能明白所有万物道理的人工智能,我们是绝对不允许直接把它放到互联网上去危害人类的。
所以,首先要做的是保护人类的利益,保护人类不受侵犯,同时也能够保护地球的安全,这是下一步我们要做的很重要的一件事。
我的汇报就是这些,谢谢!