人工智能讓天下沒有難吹的牛?。?!
來源: 廣東騰譽龍自動化設備有限公司 發(fā)布時間: 2017-10-17


10月12日,中國科學院深圳先進技術研究院副院長、香港中文大學教授湯曉鷗教授表示,阿里講“讓天下沒有難做的生意”,做人工智能是講“讓天下沒有難吹的牛”。



今天我講的題目是《人工智能的云中漫步》。人工智能其實我也聽了很多人講,我自己也講了很多,我覺得總結起來做人工智能的跟阿里的理念其實非常相似。阿里是講“讓天下沒有難做的生意”,做人工智能的是講“讓天下沒有難吹的?!保海?。


這兩天大會聽大家講了半天人工智能,講了半天的云,一直到今天為止,一直到現(xiàn)在為止,我們其實一直沒有看到真正的云,現(xiàn)在我給大家看一下。


這是高分一號衛(wèi)星拍的云圖。其實我們發(fā)射衛(wèi)星拍攝這些圖像,是為了分析地面上的情況。高分一號拍出來的圖,有云有雪,遮蓋了地貌,如何分辨云和雪和地面的物體,我們用人工智能、圖像識別技術,可以做的比人更精準。大家可以看到褐色的是雪,白色的云,綠色的是物體。我們識別的這些云以后,還能用算法把這些云去掉了,這樣衛(wèi)星就可以識別云下面的東西。


如果這么一直講下去,阿里的人可能急了,我們是阿里云,不是阿里氣象局。當然,我們講的是虛擬云,云計算,我們其實在不知不覺間已經(jīng)生活在云中間了,我們生活在物理云下面,實際上我們也生活在虛擬云上面。今天就給大家講你是如何在云上生活一天的,大概要講8個小時。


一開始,早上起來要化妝。就是拿著手機可以當鏡子,可以做美顏,換衣服,用各種特效效果看一整天該穿什么。這個化妝下來大概的時間從8點開始的,最后結束了以后,就到9點了,一般女孩的話大概也確實需要一個小時化妝,最后通過美顏、增強現(xiàn)實(AR)這些特效,不知道為什么最后這張圖成兔女郎了。


然后接著這些AR技術還可以應用在其它的場景上,比如社交場景應用,你們現(xiàn)在看到的這些拍照APP,直播APP,有很多AR特效,其實絕大部分都是基于我們提供的人工智能技術,比如人臉的106點和最新的240點的追蹤分析,是我們定義的行業(yè)標準。


我們不但做人臉、手勢識別,現(xiàn)在已經(jīng)做到三維的SLAM特效了,大家可能看過這種特效,游戲里面可以把虛擬物體加到這個現(xiàn)實世界里面,但是以前看的都是在一臺很強的計算機上算出來的,現(xiàn)在我們這個是在手機端,手機上實時算出來,這是非常難的事情。


還有你剛才為什么花了一個小時換衣服呢?要一件一件換,不合適換另一件,很麻煩。我們實際上可以用計算機幫你換衣服,計算機生成衣服。這個用什么做的呢?用基于自然語言處理的圖像圖像生成技術,比如說我要一只小鳥,有白色的胸脯,灰色的頭部,就生成這樣的小鳥;再要一只紅色的小鳥,黑色的翅膀,就再對應生成出來圖像。這都是計算機自動的根據(jù)你的語言描述生成的,或者是花也一樣,可以生成一些不同的花。


今天講了很多關于城市大腦的問題。


我們要解決這些問題還是需要核心技術,來一樣一樣完成這些任務。首先我們?nèi)四樧R別,已經(jīng)可以做到?jīng)]有任何人工配合的情況下實時地識別人物、抓捕犯人,在廣州、深圳、重慶等幾十個城市都已經(jīng)開始幫助公安解決了大量的案件,抓了很多犯人。


人群,我們可以在上海外灘這樣的公共場合,實時判斷每一個點的人群的密度、人數(shù),進來多少人,出去多少人,還有人流有沒有逆行等特殊情況,這樣可以防止踩踏事件。


再就是視頻結構化,可以把視頻里面所有的人、車、非機動車、自行車檢測、追蹤,識別出來屬性,比如這個人穿什么衣服,男的女的,多大年齡,車什么牌子,哪年生產(chǎn)的,這些東西都從視頻處理成文本文件,你可以進行對應物體的快速搜索。


所以其實你在走在路上的時候,所有的這些信息都是可以記錄下來的。所以以后如果做壞事會越來越難。大家如果現(xiàn)在還有什么事沒做趕緊做,以后再做相對會困難很多了。


12點鐘大家可能出去跟朋友玩了。拍一些自拍照,其實拍的時候,就是用了我們的一些視頻處理的技術,比如把一個手機拍照拍成單反的效果,這也是我們做的技術,先拍照后聚焦,拍完點什么地方就聚焦到什么地方。另外在拍之前,我就想看看單反預覽效果是什么樣子的,所以這時候你在動的時候,效果就要顯示出來,這就是要實時視頻級的處理。視頻上能夠?qū)崟r把深度信息算出來,預覽做出來。這些技術已經(jīng)在OPPO R9S和R11用了很長時間了,包括里面的人臉技術都是使用我們的技術支持。


還有手機上可以做一些智能相冊的特效、處理。計算機識別你的照片內(nèi)容,然后根據(jù)內(nèi)容打標簽、分類管理。


這些特效,大家現(xiàn)在手機上可能節(jié)日期間也會用到一些這些應用,比如把卡通圖片里的臉換成自己小孩的臉。但是我給你演示這些是我們十年前做的,我們十年前已經(jīng)做到這個效果了,當然那個時候是在計算機上做出來的,現(xiàn)在把這些技術可以做到手機上了。


我們跟小米合作做了小米智能相冊,跟華為合作做了華為智能相冊,跟微博合作,把大V的照片管理做起來。兩點多鐘,你照完相了,吃完飯回來,對照片想處理,做一些新的藝術化的濾鏡。


處理出來這些特效,這是在圖像上做成的特效,其實這是我們兩年前做的工作,現(xiàn)在滿大街都是。我們現(xiàn)在又做了新的工作,是視頻上實時也可以做出特效,而且可以做出各種特效。


4點鐘,大家可以出去玩一玩,可以做一些體育運動了,大家可以想像一下,我們公司4點鐘就下班了,開始去玩了。


這個就是我們在實時的把人體的整個結構都能跟蹤出來,大家可能覺得這個不是什么新鮮事,因為幾年前Kinect體感攝像頭就能做的,但是原來是一個昂貴的特殊設備做的,設備有兩個攝像頭還有激光投影,我們是用一個幾塊錢的單個webcam,可以實時做這件事情,所以這個應用可以在各種的智能家居、自動駕駛,各種地方做到實用。


再往下用這些技術還可以做體育運動的分析。昨天講到奧委會跟阿里合作,我們也在跟國家體育總局做合作。這個大家可以看到我們用智能分析的方法跟蹤運動員的動作。然后也可以幫助運動員做康復的訓練。所以昨天奧委會朋友講,奧運會要做到更高、更快、更強、更聰明,那其實我現(xiàn)在給你講的,就是如何做到更聰明。


同時我們可以用跟蹤的算法,然后把整個畫面分析清楚,用自然語言描述視頻里運動員到底在干什么。


然后大家下班的時候要坐車回家了。這時候可以乘坐由我們自動駕駛技術支持的汽車。自動駕駛里面我們做了六個大的方向,三十幾項技術,目前跟全球前五大車企其中一個頂級的廠商進行合作。


下面看一下刷臉支付場景,因為你下班了,總是要買東西的??梢杂盟⒛樦Ц?,阿里無人店可以用這些技術。還有一些門禁系統(tǒng),酒店,機場等等應用,所有這些地方其實現(xiàn)都在用我們做的人臉識別技術,現(xiàn)在的準確率從當年第一次超過人眼睛極限的時候,從97.5%,到99.15%,到99.55%,一直做到萬分之一,十萬分之一,百萬分之一,今天我們早就做到億分之一,實際上已經(jīng)達到了八位數(shù)密碼的精度,可以做各種應用了。


到了晚上,這個視頻里,我們分析人的運動方向。這些對整個分析視頻的結構也是非常重要的技術。


我們綜合前面這些技術,可以把整個這個視頻場景分析全部做出來??梢钥吹阶笙陆菚v你在什么地方,什么樣的活動,每個人是哪一個人,哪一個演員,穿的什么衣服,后面有什么物體,騎的什么摩托車,所有這些結構化都可以做出來,大家網(wǎng)上看到很多公司用這兩段視頻結果演示做宣傳,這個原創(chuàng)是我們做的,視頻分析演示也是我們做的。這是《歡樂頌》,本來想做一個更新的,想用《我的前半生》,后來一想我的前半生也快過去了,還是做《歡樂頌》了。


剛才很多是我們已經(jīng)落地的產(chǎn)品,是由我們的400多家合作廠商真正落地來用了的。下面還有一些新的技術突破,明天就可以馬上用出去,就是因為這些新的技術突破,才繼續(xù)推動做出來新的應用。


首先講運動監(jiān)測。還是回到奧運會這個應用,實際上我們可以在體育的視頻里面把這些射門的鏡頭提取出來,兩個小時的比賽可以很快縮到幾分鐘,可以完全自動做的。


或者田徑比賽,真的很漫長的,但是精彩的鏡頭,百米、跳高那幾個鏡頭,就是那幾塊,我們可以自動的識別提取出來,同時你也可以進行描述,要求怎么樣提取出來,你感興趣的部分。


然后還可以進行搜索。比如你要搜索音樂表演的視頻,戰(zhàn)爭場面的視頻,都可以自動搜索出來。


或者你要想做電影自動理解。比如可以明白這個鏡頭到底是災難的鏡頭還是浪漫的鏡頭,用我們前面說的技術來分析整個場景到底是什么樣的,紅線代表浪漫的,藍色是災難的,實時分析鏡頭?;蛘哒f他們在吵架還是浪漫的鏡頭。都可以實時分析出來。


可以用自然語言來描述來搜索電影的場景。就是你可以說一段話,它就把那一段鏡頭的場景把它給搜出來,同時把所有人,物體和各種東西都檢測出來。


還有對體育場景進行分析,就是說可以直接對運動視頻進行描述,自動用自然語言描述到底發(fā)生了什么事情,這個時候其實我們就不需要播音員了,機器自動分析運動場景做什么,直接給大家講解,就像一個專業(yè)播音員一樣。


還有圖像的分割,以前大家講圖像分割都是前景和背景分開,現(xiàn)在做的分割是不但把前景和背景分開,而且還可以像素級地把前景的每一個物體分開,前面有很多跳舞的,每一個人都標注出來,每一個物體,和背景都分割開來,就可以做很多很多各種各樣的特效。


還有就是判斷兩個人的關系,如果你在網(wǎng)上放了照片,我們根據(jù)你這兩個人的姿勢和兩個人的表情,分析出來你們兩個人的關系。這個有什么用呢?比如說你跟一個很有錢的人照相,分析的結果是很友好,說明你認識有錢人這樣可能你的可信度就增高了,我就可以把錢借給你了,可以做征信的一個維度。


還有我小孩的照片,他女朋友比較多,想知道哪個是他真正的女朋友,可以分析識別一下,后來發(fā)現(xiàn)每一個都是,他跟我一樣對每一個都很專一。


我給學生發(fā)了一些比較難處理的關系的照片,比如銘銘6個月的時候跟他第一個女朋友的照片,第一個關系分析的還可以,第二個也分析出來了。后面兩張照片就難多了,最后基本上搞不清楚他在干什么了,當然最后這張的這種探索精神還是值得敬佩的。



最后我用一個我們研究的例子來講一下原創(chuàng)的難度,我剛才講的每一個技術其實都不是那么簡單的,都不是說一拍腦袋一下就做出來的,有非常多的事情要做的,這個例子是圖像超分辨率增強,就是我們怎么把一張圖放的很大,能夠恢復的很清晰。這是美國的一個電影,F(xiàn)BI在抓人。最后他抓到一張很模糊的圖像圖像放大做成清晰的圖像,當時覺得FBI很厲害,非常棒。我們用傳統(tǒng)的技術也試圖把這個圖像恢復一下。當時希望把小圖恢復成這樣,用傳統(tǒng)算法做了最大的努力,最后的結果是這樣,所以我們很不滿意。


這個應用有什么用處呢?實際上是把可以進行圖像、視頻放大,可以把普通的電視信號變成4K的高清信號,8K的高清信號,這是我們最新做出來的結果,可以看到如果直接放大是很模糊的,現(xiàn)在用新的結果基本上達到高清的效果,已經(jīng)達到實用的階段。


在日本有個工作叫WAIFU2X,他們用我們的技術做了演示,就是把太太(二次元妹子)放大兩倍,然后用這個圖,最后的效果非常清晰。


超分辨率這個工作是很重要的,因為有很多場合有應用。所以谷歌、推特也對這個非常重視,他們在2016年連著發(fā)四篇文章做這個工作。按照以往,大家可能都是跟著谷歌后面做,而我們不是,我們發(fā)表了全球第一篇用深度學習超分辨率文章,那是2014年,早于谷歌兩年,2015年又發(fā)了一篇,2016年兩篇,2017發(fā)了三篇,我們不但是做的最早的,第一個做的,而且也是目前做的最好的。所以是谷歌在跟著我們做!


做這一項工作要想做成功,牽扯的工作是非常多的,有各種各樣的技術,涉及到十幾篇幾十篇的文章才能做到現(xiàn)在的效果。


所以現(xiàn)在我們已經(jīng)可以做到實用,在街頭上拍的照片,模糊照片可以真正看到罪犯的樣子。


而且已經(jīng)給深圳的公安用了,公安用手機可以拍人的照片,很模糊的圖像可以在庫里搜索,實時抓捕罪犯。


經(jīng)過我們的努力,所有這些加一起,從原來這個效果現(xiàn)在可以做到這個效果了。


所以每一項工作后面都有大量的工作需要做的,都有大量的頂級文章。我們不是剛剛這幾年人工智能熱了才開始做的,而是十五六年的積累,04年到08年我們統(tǒng)計了一下在兩個頂級的會議上,我們一個實驗室發(fā)了57篇論文,而MIT全校是51篇,伯克利大學是33篇,牛津大學是45篇;我們十幾年在頂級會議文章數(shù)量上一直是在全球領先的。在過去兩年,三個頂級會議上我們統(tǒng)計了數(shù)據(jù),微軟最多是發(fā)了124篇,CMU是86篇,我們排第三是76篇,是亞洲唯一的進入前十名的。所以我們是有這種強大的人才和經(jīng)驗的積累,才做出剛才這些真正落地的產(chǎn)品。


在2011年到2013年深度學習剛剛開始的時候,這兩個頂級會議上,29篇文章我們占了14篇,全球的一半,這里面16項技術,都是我們第一個真正成功的把深度學習應用到這些技術領域。


所以我們是深度學習的原創(chuàng)技術公司,是真正做平臺的,和臉書的Torch、谷歌的TensorFlow一樣,我們做了自己的原創(chuàng)平臺Parrots,來在這上面開發(fā)我們深度學習相關的技術。


最后,大家看一下這一頁上的這些圖像的一個共同的點是什么?米開朗基羅、貝多芬、梵高、喬布斯、蘭博基尼的設計首席設計師,這些人有一個共同特點,其實就是兩個字:原創(chuàng)。中國最缺的就是原創(chuàng),我們現(xiàn)在做的就是原創(chuàng),做原創(chuàng)是非常難的一件事情,但是不做原創(chuàng)一個國家是永遠也發(fā)展不起來的。


本文來源于網(wǎng)絡,由 燙商標機 鞋墊印刷機 騰宇龍整理發(fā)布