fyty8888@163.com

        機(jī)器人視覺關(guān)鍵技術(shù)研究與應(yīng)用

        作者:
        安徽新天源建設(shè)咨詢有限公司
        最后修訂:
        2020-07-03 15:28:26

        摘要:

        目錄

        【簡介】

         

        當(dāng)前,人工智能和機(jī)器人技術(shù)已經(jīng)成為國家創(chuàng)新驅(qū)動發(fā)展的重大戰(zhàn)略技術(shù)之一。機(jī)器人視覺技術(shù)作為人工智能和機(jī)器人技術(shù)的重要組成部分,它可以通過視覺傳感器獲取環(huán)境的圖像,并進(jìn)行分析和解釋,使機(jī)器人能夠辨識物體,并確定其位置。機(jī)器人視覺在電子、機(jī)械、智能機(jī)器、醫(yī)療、軍事等許多領(lǐng)域都有非常廣泛的應(yīng)用前景。但是,由于技術(shù)方面的原因,目前高性能機(jī)器人視覺系統(tǒng)的多個技術(shù)瓶頸尚未得到突破,因此限制了其應(yīng)用的發(fā)展。本次沙龍介紹機(jī)器人視覺系統(tǒng)的部分關(guān)鍵技術(shù)的研究發(fā)展現(xiàn)狀,討論其進(jìn)一步發(fā)展的方向和問題。

        [返回]

         

        【主持人致辭】

         

        顧學(xué)真:各位專家,早上好。今天是我們自動化所老科協(xié)分會舉行的第三次沙龍活動。今天沙龍的題目是機(jī)器人視覺的關(guān)鍵技術(shù)與應(yīng)用。沙龍主旨報(bào)告由原魁研究員來做,他從事機(jī)器人的研究的。另一位是北京大學(xué)的查紅彬教授,他是從事計(jì)算機(jī)視覺研究的。下面咱們進(jìn)入正題,請?jiān)蠋熛茸鲫P(guān)于機(jī)器人視覺關(guān)鍵技術(shù)研究和應(yīng)用方面的發(fā)言。歡迎原老師。

        [返回]

         

        【主旨報(bào)告】

         

        原魁:機(jī)器人視覺關(guān)鍵技術(shù)與應(yīng)用

        各位老師,大家上午好。非常高興有這個機(jī)會跟大家交流一下。我今天跟大家想交流的是機(jī)器人視覺技術(shù)方面的事情。我們所做工作有很多,今天想簡單的說一下機(jī)器人視覺相關(guān)的內(nèi)容。

        首先,機(jī)器人視覺很重要,機(jī)器人視覺系統(tǒng)是智能機(jī)器人進(jìn)行環(huán)境感知的主要途徑,但也一直是智能機(jī)器人發(fā)展的主要技術(shù)瓶頸,技術(shù)上遠(yuǎn)遠(yuǎn)達(dá)不到需求,限制了機(jī)器人視覺的發(fā)展。

        工業(yè)機(jī)器人有用到視覺的。2D視覺伺服技術(shù)已經(jīng)比較成熟,得到了很好的應(yīng)用,但不是很普遍。3D的也有,但是并不是很成功。

        1  2D視覺伺服技術(shù)已經(jīng)比較成熟,在工業(yè)機(jī)器人上得到了很好的應(yīng)用。

        2  3D視覺伺服技術(shù)還任重道遠(yuǎn),實(shí)際應(yīng)用也非常有限。

        下邊簡單介紹一下機(jī)器人視覺的關(guān)鍵技術(shù)。智能機(jī)器人的控制一定是先做環(huán)境感知,根據(jù)環(huán)境和任務(wù)做控制決策,最后才執(zhí)行相應(yīng)的動作。這里面對機(jī)器人視覺的要求是,首先你得看得懂環(huán)境,包括環(huán)境的感知和理解,然后可能要執(zhí)行任務(wù),就要能夠找得到目標(biāo)。簡單環(huán)境下,像咱們的天空對接是最最簡單的任務(wù)。實(shí)際上很多地方很復(fù)雜,你要找到你想要的目標(biāo)是很難的。我們的學(xué)習(xí)也基本上集中在這個地方。

        一定要滿足實(shí)時(shí)性要求,不像我們平時(shí)處理的任務(wù),你學(xué)一個小時(shí)也行,學(xué)一天也行。機(jī)器人不行,機(jī)器人對實(shí)時(shí)性要求很高,我們?nèi)说囊曈X系統(tǒng)是眼睛加大腦。眼睛解決看得到的問題,大腦解決看得懂的問題。所以理解的問題實(shí)際上是機(jī)器人視覺要解決的問題。

        視覺系統(tǒng)一般是硬件軟件兩個部分組成,硬件解決看得到的問題,軟件解決看得懂的問題。

        現(xiàn)在的視覺系統(tǒng)國內(nèi)分幾種,一種通用型,通用計(jì)算機(jī)加不同類型的機(jī)器人視覺系統(tǒng)。再有就是現(xiàn)在越來越多的開始出現(xiàn)嵌入式機(jī)器人視覺系統(tǒng),有的是嵌入式,有的干脆做成一體,這種類型也比較多。硬件實(shí)際上除了計(jì)算機(jī)相關(guān)的之外,還包括鏡頭類的東西。比如說魚眼鏡頭,雖然會發(fā)生變形,但是視野非常大,在很多地方有特別的需要。

        還有一種叫全方位視覺系統(tǒng),可以看到360度?;旧鲜沁@樣一個結(jié)構(gòu),用的比較多的是我們進(jìn)行足球比賽里邊,也有不同類型的,不去講了。

        普通相機(jī)得到的是2D圖像,為了獲得3D信息,可以用深度信息傳感器。當(dāng)然了,目前不同類型的深度信息傳感器的分辨率低一點(diǎn),也有很多種類。我們各種類型的激光傳感器,實(shí)際上它處理方式跟視覺是比較接近的,所以這種我們一般來說,它的硬件都是視覺系統(tǒng)。

        圖3  深度信息傳感器

        光有硬件是不行的,硬件解決看得見,軟件解決看得懂,看得懂比看得見的難度要大得多。軟件的任務(wù)是這樣的,它要對采到的視覺信息進(jìn)行處理,通過處理之后,要找到給定的目標(biāo),可能還要識別這個目標(biāo)到底是什么,是不是要找的那個。這里面包括兩個方面的任務(wù),一個是要做圖像處理,一個是做模式識別。

        圖像處理里邊包括預(yù)處理,有特征提取,特征提取里邊有直接的圖像特征,直接的和底層的,也有看不見的特征。有的特征計(jì)算機(jī)能夠提取出來,但是人是看不見的?,F(xiàn)在很多人工智能就是這樣,但是它就是根據(jù)那些特征識別到它找的物體。有了特征之后就可以做目標(biāo)檢測。

        工業(yè)機(jī)器人視覺用的不是特別多,但像這種抓點(diǎn)心的視覺系統(tǒng),它的特點(diǎn)就是速度非常快,能夠把所有的點(diǎn)心所在的位置,都能實(shí)時(shí)識別處理。機(jī)器人控制器可以控制手臂,把雜亂無章在傳送帶上的點(diǎn)心撿起來,最后讓它整整齊齊地放在一塊兒。

        圖4  抓點(diǎn)心的視覺系統(tǒng)

        視覺系統(tǒng)在無人駕駛車和機(jī)器服務(wù)人方面有著廣闊的應(yīng)用前景。

        種服務(wù)機(jī)器人很多,比較有代表性的是日本的新一代仿真機(jī)器人,看看它現(xiàn)在都能干什么。這個機(jī)器人上邊是有眼睛的,還有各種各樣的傳感器。它現(xiàn)在已經(jīng)可以跑得很快,每小時(shí)跑九公里。它可以聽得懂三個人同時(shí)發(fā)的命令,能簡單對話。這個手已經(jīng)很靈巧了,能擰杯子。它可以主動繞開對面走過來的人,有的時(shí)候靠視覺,有的時(shí)候靠身上其他東西。能踢球,做手語。我們希望這樣的機(jī)器人能早點(diǎn)進(jìn)入我們的生活,但是有兩個問題沒解決,一個是電源,充滿電只能工作半個小時(shí),再一個,智能還差的很多。

        圖5   仿真機(jī)器人

        這樣的機(jī)器人當(dāng)然也是需要有視覺的,而且對視覺要求蠻高。簡簡單單避障是很容易的,但是要理解環(huán)境,找到目標(biāo),是比較難的,所以先要識別。

        現(xiàn)在需要解決的關(guān)鍵技術(shù)問題就是有良好通用性的高性能的嵌入式視覺系統(tǒng)研制開發(fā)。這也是我們在努力解決的問題。

        視覺信息的高處理速度和高系統(tǒng)功耗是難以平衡,所以電源一般用的時(shí)間比較短。同時(shí)使用FPGA和DSP,能夠發(fā)揮二者的優(yōu)點(diǎn)。采用專用芯片,用硬件直接實(shí)現(xiàn)多種復(fù)雜操作。

        下面簡單介紹一下我們所相關(guān)工作。我們所做視覺的很多很多,我們做了幾塊處理卡。有一個FPGA加DSP,我們把常用的圖像處理算法都用DSP實(shí)現(xiàn),遠(yuǎn)遠(yuǎn)高于普通系統(tǒng),高幾十倍幾百倍很正常的。我們用到了很多地方,這只是一個例子。這里面算法做了很多,像這種預(yù)處理基本上都是每秒做到上百幀都沒有問題。SIFT的特征點(diǎn)提取用我們的要快很多倍。

        其中一個有代表性的工作,我們大型的武器裝備的數(shù)碼迷彩的噴涂,已經(jīng)在部隊(duì)幾個研究所驗(yàn)證了好幾遍。主要工作一個就是自動建模,可以自動掃描,自動建模,生成模型。最重要的技術(shù)就是可以自動編程,可以自動生成機(jī)器人的控制程序。像這個噴涂過去是戰(zhàn)士噴的,這樣一臺車一般是五個戰(zhàn)士噴七天。國慶60大慶的時(shí)候很多車噴的所有的都是同樣的圖案,起不到偽裝作用,這個有現(xiàn)代迷彩的偽裝趨勢,自動建立模型,自動編程,這兒有一個識別,它在測距,會自動把誤差送到機(jī)器人控制器,做自動的補(bǔ)償,才能保證噴的寬度都是一致的,否則保證不了一致。

        面向機(jī)器人視覺系統(tǒng)的MR二維碼,它的用途蠻廣的,它基本作用就是,有了它,它就可以定位,看到它之后就知道你的視覺系統(tǒng)和它的位置,而且它是專門面向機(jī)器人視覺的,所以離這么遠(yuǎn)也可以提取出來。我們把它用到了視覺導(dǎo)航的AGV上,視覺導(dǎo)航AGV除了我們做,國內(nèi)外基本上很少,因?yàn)檫@個還是很難的。我們一般的AGV只能在室內(nèi)環(huán)境,我們這個是可以在室外環(huán)境跑。看到二維碼就可以決定你視覺系統(tǒng)和它坐標(biāo)系之間的關(guān)系。還可以用到其他地方,比如說我們用到了移動機(jī)械臂上,機(jī)械臂很貴,如果把普通的AGV加機(jī)械臂之后,就發(fā)現(xiàn)機(jī)械臂和機(jī)器人的坐標(biāo)系對不上。我們用二維碼的技術(shù),現(xiàn)在是兩種,國外的機(jī)器人和我們的AGV連起來,做智能的移動機(jī)械臂,這是一個例子。這兩臺車是在隨意的移動,它的任務(wù)只是要把那邊的東西抓起來疊放在這兒,它看一眼就知道兩個之間的距離,可以對得很準(zhǔn)。地上貼的也是二維碼,因?yàn)槎S碼有信息,所以給了它位置信息。像這也是,停下來之后,兩個車之間相互的關(guān)系根本是一點(diǎn)都不準(zhǔn)的,沒有一個準(zhǔn)確的關(guān)系,但是用我們現(xiàn)在這樣的系統(tǒng)可以準(zhǔn)確地對上。這個應(yīng)用應(yīng)該說在很多地方可以應(yīng)用,比如說簡單的倉庫,你在超市的貨架上取東西,都可以用這種技術(shù)。

        圖6  面向機(jī)器人視覺系統(tǒng)的MR-二維碼,左圖是MR-二維碼,右圖(1)和(2)是MR-二維碼在不同光照下的識別效果

        到現(xiàn)在為止大概國內(nèi)是信托公司做到了,信托公司有這樣的產(chǎn)品。國外只有庫卡做了,但是他們都是用成熟的技術(shù)在做集成,成本比我們高很多。車完全是自己做的,視覺系統(tǒng)完全是自己做的,機(jī)械臂可以用不同廠家的,將來這種智能型的移動機(jī)械臂的應(yīng)用場景還是比較好的。各種各樣的原因,沒有把它用上,這是一點(diǎn)遺憾,希望我下邊的人能夠接著做下去。

        我們AGV技術(shù)也是,我們用了視覺導(dǎo)航,一個是不用鋪磁帶,定位的話,可以用二維碼,我們是一些地方在用,在天津的亞馬遜,還有在青島一家做衣服的公司。我們做的還有激光導(dǎo)航的叉車,這個技術(shù)比較成熟了。

         視覺引導(dǎo)AGV

        我們研究所,做科研是我們的強(qiáng)項(xiàng),做成功推廣不大行。因?yàn)樽隹蒲械娜俗霾涣虽N售,這是兩類人。我們曾經(jīng)試著想做成果推廣,發(fā)現(xiàn)不行,我們還是比較弱,還是要找一些公司。今天下午有一個韓國的公司專門找我,想把我們的二維碼用到垃圾袋上,每一家的垃圾都自動有一個碼,可以遠(yuǎn)遠(yuǎn)看到就識別。我們的視覺技術(shù)可以用到托盤的自動對準(zhǔn)。

        簡單總結(jié)一下,視覺系統(tǒng)的應(yīng)用總體上較為廣泛,但是現(xiàn)在實(shí)際能用上的確實(shí)是不太夠。現(xiàn)在人工智能很熱,大家現(xiàn)在再靜下來仔細(xì)看看,只有兩個應(yīng)用,一個是視覺,一個是語音處理。機(jī)器人視覺非常非常重要,對我們搞機(jī)器人的來說特別有這種感覺。機(jī)器人視覺系統(tǒng)發(fā)展本身確實(shí)比大家想象的要慢很多。像我們這樣的,做了硬件,沒有人做軟件,推廣起來不容易。做軟件的人只會做軟件,做的再好也沒用。比如說現(xiàn)在的深度學(xué)習(xí),未來可能有用,現(xiàn)在用不上。所以機(jī)器人視覺系統(tǒng)還是未來的難題,謝謝大家。

        [返回]

         

        顧學(xué)真:謝謝原魁老師。他概括地介紹了機(jī)器人視覺的發(fā)展,目前存在的技術(shù)上的關(guān)鍵點(diǎn),以及應(yīng)用。咱們聽了以后很受啟發(fā)。下面查紅彬老師主要介紹機(jī)器人視覺中感知和建模方面的問題。下面有請查老師。

        【邀請報(bào)告】

         

        查紅彬:基于三維數(shù)據(jù)流融合的場景重建與傳感器定位技術(shù)

        謝謝顧老師。今天非常榮幸,非常高興,見到這么多老前輩。本來原魁老師跟我說跟大家做個交流,沒想到見到了這么多老前輩,以前很多在不同場合見過,特別我想提到的是董士海老師,在我們學(xué)院無論是從公從私來說,都給我們很多很多幫助。今天能見到董老師,非常感謝對我的指導(dǎo)。

        今天我要講的題目是SLAM(Simultaneous Localization and Mapping)技術(shù),它是基于所謂的三維數(shù)據(jù)流。應(yīng)該說這個SLAM技術(shù)在機(jī)器人領(lǐng)域里面,作為機(jī)器人視覺部分很有傳統(tǒng)的研究領(lǐng)域,它是個老話題,這些年討論得比較多。今天匯報(bào)有兩部分,我們在現(xiàn)在的環(huán)境下,發(fā)展到今天,再來看SLAM問題是什么問題,對這個問題給各位老師做一個交流。

        其實(shí)SLAM說穿了,第一就是定位,我們一臺機(jī)器人在什么位置,這個位置要給它確定好,要在每時(shí)每刻把位置確定好。通常我們講定位,講傳感器或者機(jī)器人的時(shí)候有不同的參數(shù),一般來說有兩個不同的參數(shù),一個是位置,它在三維空間中XYZ是什么樣的值。另外是什么方位,對著哪個方向,也需要三個參數(shù),所以我們基本上要定六個參數(shù),它在空間中的什么位置,是什么樣的姿態(tài)。這塊原魁老師已經(jīng)說過了。Mapping是測繪,我們講機(jī)器人的時(shí)候是說建一個小構(gòu)圖,比如說我進(jìn)到房間里面,我要知道房間是什么樣的結(jié)構(gòu),如果沒有結(jié)構(gòu)三維描述的話,我要建一個房間構(gòu)圖。我們一般來說機(jī)器人在4G環(huán)境中工作的時(shí)候,一方面要知道傳感器的定位,另外要知道環(huán)境怎么樣,三維結(jié)構(gòu)。在機(jī)器人應(yīng)用當(dāng)中也是兩個不同的子任務(wù)來做的,比如說導(dǎo)航這部分,用GPS進(jìn)行大規(guī)模的導(dǎo)航,還要MV做一些小范圍的導(dǎo)航。另外設(shè)置一些標(biāo)志,像二維碼這些東西,來幫助機(jī)器人導(dǎo)航。所以是把它看成是一個單獨(dú)的問題來做。當(dāng)然了,像GPS也好,MV,有他們精度和分辨率的問題在里面,通常在應(yīng)用中不是很方便。

        其實(shí)這兩個問題是相互依存的,我要做定位的時(shí)候,通常我們是需要知道地圖的。如果沒有地圖,我沒法看清楚我環(huán)境當(dāng)中是在什么位置。另外我要建一個地圖,傳感器的姿態(tài)我要知道,我要不知道傳感器的姿態(tài),放不到一起去。后來搞計(jì)算機(jī)視覺研究的人就覺得應(yīng)該把這兩個問題放到一起考慮,不應(yīng)該獨(dú)立開,所以就形成了SLAM。

        我們在這種假設(shè)條件下,怎么來把這兩個任務(wù)同時(shí)完成,讓機(jī)器人,或者讓其他的一些移動終端,或者移動傳感器能夠更好地完成我們所要求它所做的工作。這是我們所講的SLAM的基本概念。

        機(jī)器人應(yīng)該說現(xiàn)在越來越多,一個很重要的特點(diǎn),機(jī)器人傳感器系統(tǒng)是在移動中工作的。以前拿一個攝像頭擺在那兒,這個傳感器本身是固定的。我們現(xiàn)在講的傳感器,基本上都是可移動的。像自動駕駛,自動駕駛的車,傳感器都是裝在車上,車每時(shí)每刻都在移動,所以傳感器的移動性很強(qiáng),提出的各種要求也很高。要做好傳感器和觀測目標(biāo)都在運(yùn)動變化情況下的定位,是最難的。我們現(xiàn)在講智慧城市,里面需要把不同的位置的信息,以不同的形式放在一起幫助我們做很多事情。這些都需要同時(shí)做定位和建模。

        我們現(xiàn)在講機(jī)器人很重要,移動傳感器很重要,單就定位來說,對我們?nèi)藖碚f,我們定位或建模都非常重要。世界上沒有哪個人工系統(tǒng)能像人的視覺系統(tǒng)一樣定位做的好。我們每時(shí)每刻都在動,我們睜開眼睛都看到一個場景,但是你的頭怎么擺,不會看到場景在晃動。我們拿攝像頭擺來擺去,肯定看到場景是抖動的,但是我們?nèi)烁杏X不到。所以人是非常非常好的,具有很好定位能力的傳感器。當(dāng)然人有很多巧妙的東西在里邊,比如說耳朵里面有定位的傳感器,另外大腦里面,對于每一個行動都有一個控制指令,這個指令也會傳達(dá)給感知系統(tǒng)。

        現(xiàn)在在機(jī)器人領(lǐng)域,或者說在人工智能領(lǐng)域,現(xiàn)在對定位這個東西越來越重要了。今年馬上要在澳大利亞開一個很重要的機(jī)器人方面的會,關(guān)于定位的論文就占了將近三分之一,應(yīng)該是非常大的比重。在計(jì)算機(jī)視覺更多的還是深度學(xué)習(xí),但是在定位領(lǐng)域會越來越多。

        我們從4D的角度出發(fā),我們現(xiàn)在用的大量的視覺攝像機(jī),如果有三維的傳感器的話,這個工作會做的非常簡單。所以三維傳感器是非常關(guān)鍵的,五年前我們講SLAM的時(shí)候,講的不是很多,因?yàn)楫?dāng)時(shí)傳感器水平比較低,現(xiàn)在傳感器水平有比較大的提升。微軟之前有一個Kinect傳感器,它很重要的就是每時(shí)每刻能夠檢測到三維的信息。我這個傳感器到不同的空間的距離它能測出來。攝像機(jī)只能有規(guī)律的變化,而它能夠把每一個點(diǎn)的三維位置檢測出來。這個傳感器也有很多局限性,精度很低,分辨率很低。但是有個好處,速度快,便宜,大概一臺一兩千塊錢就能買一臺。基本上我們那邊的學(xué)生每人有一臺。這樣的話三維傳感器就有很多應(yīng)用了,像手勢識別,包括三維空間的感知,用的很多。它自然也會給SLAM帶來很多影響。同時(shí)有很多傳感器,移動,便宜,大家都能有,帶來很大的進(jìn)步。

        8 微軟的Kinect三維傳感器

        但是反過來說,有這么多傳感器,但是從應(yīng)用角度看,它們是不是足夠好呢?如果把這些三維傳感器拿來,把這些三維的應(yīng)用拿到一起,是不是就可以滿足要求呢?不是這么簡單。盡管我們有一些很好的傳感器,但是要做到4D的應(yīng)用,差距很多。主要有幾個方面,一個是數(shù)據(jù)本身的信息,還有處理的復(fù)雜性。

        圖9 問題與對策

        第一個就是數(shù)據(jù),盡管我們會得到三維數(shù)據(jù),但是數(shù)據(jù)本身非常粗糙。我們現(xiàn)在要面對的環(huán)境是一個大環(huán)境,是一個動態(tài)的環(huán)境。例如自動駕駛時(shí),你自己在動,同時(shí)周圍的車輛行人也在移動變化,我們要對付的是這樣的復(fù)雜場景。但是我們的傳感器精度并不夠。另外有一個很大的問題,就是采樣不均。二維圖像數(shù)據(jù)能排列得非常整齊,但是我們的三維數(shù)據(jù)排的并不是很整齊,數(shù)據(jù)量遠(yuǎn)遠(yuǎn)大于二維圖像,特征取列獨(dú)特和困難?,F(xiàn)在各種不同的傳感器,有立體視覺的,不同的傳感器之間的差別也比較大。對數(shù)據(jù)本身,要考慮其不確定性。所以要用概率統(tǒng)計(jì)的方式做處理。

        第二個,我們應(yīng)用時(shí)間性很強(qiáng)的,數(shù)據(jù)在不斷地往里流入。所以在流進(jìn)來的數(shù)據(jù)你可以做實(shí)時(shí)交互。但是有一個很重要的,你不能做包處理。你處理的時(shí)候,你要每時(shí)每刻都要考慮到數(shù)據(jù)它本身是什么樣的性質(zhì),然后得到結(jié)論。一個很重要的要求是我們現(xiàn)場要處理掉。但是同時(shí),既然數(shù)據(jù)源源不斷進(jìn)來,數(shù)據(jù)之間有很多關(guān)聯(lián)性,前面的數(shù)據(jù)和后面的數(shù)據(jù)有很大的相關(guān)性,如何利用數(shù)據(jù)流時(shí)間上的相關(guān)性,這是非常重要的,這也是必須利用的。因?yàn)橹v視覺技術(shù)都是圖像識別,有什么樣的物體,什么樣的分類,這都是靜態(tài)的。但是數(shù)據(jù)流進(jìn)來之后就是動態(tài)的,這是計(jì)算機(jī)視覺里面比較重要的方面。

        第三個問題,定位和Mapping互相關(guān)聯(lián)的關(guān)系。其實(shí)我們講定位的時(shí)候,可以放很多別的傳感器幫助我們定位。虛擬現(xiàn)實(shí)的頭盔上面裝了很多小圓球,就是通過環(huán)境的攝像機(jī)來定位,所以環(huán)境能夠來幫助你定位。這時(shí)候是環(huán)境當(dāng)中能夠幫助你攝像頭存在的時(shí)候才能這么做,一旦你到了新空間,到外面去就不行了。所以要盡量擺脫這種東西來幫我們定位。

        我們講的定位有六個參數(shù),Mapping的參數(shù)更多,一般來說解決這個問題就是非常復(fù)雜的分析性優(yōu)化的問題,這是我們目前為什么大家都在注意SLAM問題,會給計(jì)算等等帶來很多挑戰(zhàn)。

        第四個問題,數(shù)據(jù)的實(shí)時(shí)處理。對所采集的數(shù)據(jù),你必須實(shí)時(shí)處理完成。這個實(shí)時(shí)性的要求也非常強(qiáng)。我們要使操作過程對輸入的數(shù)據(jù)流有很好的適應(yīng)過程,把在線的學(xué)習(xí),機(jī)器學(xué)習(xí)這些問題能夠很好地用到這里面來,才能幫助你使這個過程能滿足實(shí)時(shí)性的要求。有很多機(jī)器學(xué)習(xí)的方法,比如說在線學(xué)習(xí)就是一個例子。例如在家里,我手機(jī)的攝像頭一直都開著的話,各種各樣的數(shù)據(jù)不斷地往你手機(jī)里面跑,這些數(shù)據(jù)都可以用來學(xué)習(xí)。我可以把家里面的構(gòu)圖做好,我在什么位置可以給我定位,能夠每時(shí)每刻了解你的行為和動作。從這個角度來看,我們講的定位,這跟我們?nèi)嘶钪粯樱K生不斷地學(xué)習(xí)過程。只要設(shè)備是開著的,數(shù)據(jù)不斷地進(jìn)來,幫你做定位,幫你繪制構(gòu)圖,同時(shí)也是一個學(xué)習(xí)過程。所以實(shí)時(shí)處理是很重要的要求,同時(shí)也給我們帶來了很好的研究的機(jī)會。

        下面我再給大家具體說一下這些問題怎么解決。這里面解決了一些,從概念上非常容易想到的辦法,但是很多需要下一些功夫。數(shù)據(jù)的不確定性,我們可以用概率統(tǒng)計(jì)的方式,對數(shù)據(jù)進(jìn)行建模。數(shù)據(jù)流怎么辦?能不能很好地利用數(shù)據(jù)之間的時(shí)間的一貫性,另外用傳感器的姿態(tài)做定位,像更好的一些優(yōu)化的東西,能不能幫助我們解決優(yōu)化的問題。像實(shí)時(shí)處理,我們其他一些更好的節(jié)省計(jì)算量的方法可能要開發(fā)出來。

        這里有一些對策,我給各位介紹一下相關(guān)的研究。我前面講的第一個問題,就是數(shù)據(jù)的不確定性的處理。我們做定位也好,做建模也好,要有一個通用的空間的描述,這個描述有了以后能夠把這些做好??臻g的描述就是方位構(gòu)圖,有各種各樣的描述方式。以前講的描述方式是“零、一”關(guān)系,里面有物體就是一,沒物體就是零。但是現(xiàn)在描述空間可能不是“零、一”的關(guān)系,對空間只能有一個概率的描述。應(yīng)該把這個場景的面的存在的概率是多少先計(jì)算出來,用一些推理。如何用更復(fù)雜的非參數(shù)的推理來做,有一系列問題在里面。能不能把三維空間看成格子狀的結(jié)構(gòu),這里面的每一個點(diǎn)它到底在不在這個面上,它有一定的概率,把這個概率數(shù)據(jù)收集進(jìn)來以后,數(shù)據(jù)對概率產(chǎn)生了改變,我可以更有把握地說有這個表面。通過我進(jìn)來的每一個采樣點(diǎn)對這個空間的概率分布做修正。這是這篇文章所做的工作。我們實(shí)驗(yàn)室有些學(xué)生對這方面做了更好的改進(jìn),現(xiàn)在投到了ECCV這個國際會議上,把空間的表示用概率的描述表示了。

        第二個方面的工作,我們講的要做定位,要做建模,就是優(yōu)化問題。有很多不同的方法,最核心的還是要把你所謂的重要的因素,構(gòu)圖當(dāng)中一些重要的因素怎么考慮進(jìn)來。比如說這是室內(nèi)環(huán)境的布圖,里邊有各種各樣的結(jié)構(gòu)特征,把這些特征很好地提取出來,建立圖模型,這個圖模型出來以后,對它用概率統(tǒng)計(jì)方式做優(yōu)化。

        第三個,我們考慮動態(tài)變化的環(huán)境。我前面講做定位等等都是傳感器在動,環(huán)境不動,現(xiàn)在是環(huán)境也在動,動的因素更多了。怎么樣能夠把環(huán)境當(dāng)中動的因素也考慮進(jìn)來。要把變形跟實(shí)時(shí)處理結(jié)合起來,我兩邊之間數(shù)據(jù)是有變化的,它時(shí)間比較短,我能不能把這兩個點(diǎn)之間看成是變形,把這兩個點(diǎn)連起來之后就能描述這個運(yùn)動了。

        我們通過三維的數(shù)據(jù)融合得更好,找到比較好的空間、數(shù)據(jù)的表達(dá)方式和分析方式。解決幾個問題,數(shù)據(jù)是不斷地增加的,數(shù)據(jù)的增加過程有它的難點(diǎn),但更多的給我們帶來的是好處。慢慢地?cái)?shù)據(jù)越來越多,數(shù)據(jù)帶來可靠性,能夠幫助我們使最后的結(jié)果越來越好。特別講時(shí)間和空間的相關(guān)性,應(yīng)該是非常重要的主要因素。對不確定性因素,應(yīng)該用比較好的統(tǒng)計(jì)方式處理。另外數(shù)據(jù)不能只在一個層面去處理,只是看點(diǎn)不夠,只看一條線也不夠,只看一個面也不夠,要把不同層次的東西都考慮進(jìn)來。這三方面只要在哪一塊有突破的話,能給機(jī)器人視覺領(lǐng)域帶來比較大的突破。我就講這些,謝謝大家。

        [返回]

         

        【討論與交流】

         

        顧學(xué)真:謝謝查老師。他講了傳感器獲取信息、三維的數(shù)據(jù)融合方面的問題,這是人工智能里很重要的一部分。人工智能在社會上炒得很熱,但是確實(shí)還存在很多問題。對人來說,要看這個東西,從我腦子里的印象里這個場景,到要找的東西是在哪兒,對我們正常人是最容易的事。但是現(xiàn)在看來完全要靠機(jī)器實(shí)現(xiàn)這一過程,還是有一定的難度的。我們什么時(shí)候能攻克這些東西,人工智能就往前進(jìn)了一步,機(jī)器的智能方面也往前進(jìn)了一步。下面大家自由發(fā)言交流,大家可以談自己的看法和建議,也可以請?jiān)蠋熀蜄死蠋煂?bào)告里的問題做進(jìn)一步的說明。原魁老師和查老師也可以提一些問題拿出來讓大家議論議論,你們的觀點(diǎn)是什么,是不是大家對這樣的想法有同感,或者有不同的想法,你們也可以提一些問題出來。

        原魁:我們沙龍就是請大家來討論,看看有什么共同感興趣的話題,如果大家對我們做的工作感興趣的話,我可以利用這個機(jī)會再稍微詳細(xì)一點(diǎn),因?yàn)閯偛胖v的很粗。

        董士海:我覺得這是一個當(dāng)前非常熱點(diǎn)的問題。我對此確實(shí)不熟悉。我說一個事情,最近Google的(自動駕駛)車撞死人了,Uber撞死人了,這是法律問題。但是從科技的角度來說,怎么能夠在一定的條件下,盡可能實(shí)時(shí)地盡快地的測出有人意外的躥到馬路上去了,原因是什么?在無人車視覺系統(tǒng)中,現(xiàn)在有沒有解決類似突發(fā)事件的辦法?

        第二個問題,現(xiàn)在的機(jī)器視覺,深度檢測對光線有一定的條件。我如果晚上開車,是不是條件又受到了一定的限制?在深度信息和光線的明暗信息有什么樣的限制,能不能達(dá)到更高的要求?

        另外還有一個,采用多模態(tài)的檢測。我自己覺得,語音的識別和語音的生成,這個已經(jīng)做得比較好,就是說,不光語音的翻譯也好,語音的檢測也好,做得相當(dāng)?shù)暮?。但是視覺這方面難度相當(dāng)大。能不能把聲音和圖像這兩者結(jié)合起來,不必在大量的數(shù)據(jù)處理以后才能檢測這個問題。

        原魁:我們做機(jī)器人的人,非常注意這個信息。Google 的車,現(xiàn)在還沒有公布事故原因,基本上判定車沒有責(zé)任,但是它沒有及時(shí)檢測到。無人車上面裝了很多很多個傳感器,實(shí)際上它檢測的話應(yīng)該能夠檢測到的,很可能是把某一些傳感器關(guān)掉了,特別是側(cè)面檢測的傳感器很可能是關(guān)掉了。現(xiàn)在無人車最重要的傳感器是64線的激光雷達(dá),好幾個側(cè)面激光雷達(dá),應(yīng)該覆蓋到所有的地方,它那個很可能側(cè)面的某一個關(guān)上了,沒有檢測到。所以它那個信息沒有處理。

        無人車上的判測裝置有兩大類,一類是這樣的(用激光雷達(dá)),另外一類是希望通過視覺系統(tǒng)來實(shí)現(xiàn)的。視覺肯定有問題,天氣不好的時(shí)候就不行,激光雷達(dá)大部分都行,但是激光雷達(dá)也有不適應(yīng)的環(huán)境。

        第三個問題,語音這個,語音是一維的信息,視覺至少是兩維的,車在路上是六維的,這樣一來處理的信息量遠(yuǎn)遠(yuǎn)大于語音。語音處理現(xiàn)在也是復(fù)雜背景的時(shí)候就不行了,所以語音技術(shù)用到無人車上大概不太好用。要說在十米之外檢測到他本人大概可以,檢測預(yù)測到他的行為方向和動作,這件事情還是很難的。他突然間撞過來,再剎車來不及了。這樣的問題,不大容易解決,還是法律的問題要探討,看這樣的問題到底責(zé)任在誰。

        查紅彬:剛才講的自動駕駛的事情,這個屬于小概率事件。小概率事件通常來說是很難碰到的。但起碼給我們搞人工智能的人一個提醒,是不是應(yīng)該反省一下現(xiàn)在的方法是不是特別依賴于機(jī)器學(xué)習(xí)了。我們講機(jī)器學(xué)習(xí)的時(shí)候,主要是依賴訓(xùn)練數(shù)據(jù),經(jīng)過大量的數(shù)據(jù)訓(xùn)練它,最后它能夠應(yīng)付這些情況。這個車可能跑了幾十萬公里,幾百萬公里的數(shù)據(jù)在里面,對這個車的性能做了很多修改和訓(xùn)練,但是可能就沒有現(xiàn)在碰到的場景,誰突然出來撞你車前面去。他沒有數(shù)據(jù),就沒有把這種問題考慮進(jìn)去?,F(xiàn)在我們單純說依靠訓(xùn)練數(shù)據(jù)來做,現(xiàn)在人工智能最熱的部分是不是也有它的問題在里面?現(xiàn)在還有所謂的遷移學(xué)習(xí),不同的情況下會怎么樣,這樣的話會給我們搞人工智能的人這方面的解釋和啟發(fā)。

        第二個,把小概率事件完全消除掉,對任何產(chǎn)品都不太可能,關(guān)鍵是你這個產(chǎn)品成熟之后,進(jìn)入市場之后多年,才可能把小概率事件暴露出來。自動駕駛還沒有到這個程度,還在試的階段。

        第二個講到圖像和語音和視覺怎么融合。現(xiàn)在很多人在講,每年項(xiàng)目評審出來的也很多,要把什么什么融合起來。但是融合的效果并沒有提高很多。問題在哪兒?很多大家并不是真心實(shí)意地想融合起來,而只是為了申請項(xiàng)目。視覺也好,聽覺也好,還有很多問題沒有解決,如果融合之后,有成果很難,發(fā)文章也很難,干什么事情也很難,人家也不愿意去做。其實(shí)人做動作時(shí),大腦里面是有指令的,這個指令馬上給了你的控制系統(tǒng)。你有指令下來以后,你當(dāng)然要用其他的感應(yīng)信息,這樣的話就能幫助你做這件事情。自動駕駛也是這樣做的,車子怎么動,全是有指令的,左轉(zhuǎn)多少,右轉(zhuǎn)多少,盡管有很多不確定因素,但是這個指令是可以感知到的。很多東西如果能夠結(jié)合起來,確實(shí)能夠解決很多問題,但大家還是沒有感覺到我結(jié)合起來真的能夠把它做好,或者真的拿出東西出來,這也是目前面臨的問題。

        張尤臘:我覺得視覺方面的一些研究工作,應(yīng)該屬于應(yīng)用研究。應(yīng)用的背景非常強(qiáng)烈,很明確,我就是針對這個來做的。如果這樣的話,我覺得現(xiàn)在最大的問題還是傳感器的問題,如果這個問題解決好了,其他問題好解決得多。要做分析識別,現(xiàn)在微型機(jī)很大一部分都能解決。

        剛才討論了很多,我對這個自動駕駛車的問題,在中國花這么大力量,我總不覺得是一個應(yīng)該投的方向。自動車最大是問題在中國是行人橫穿馬路。你怎么去實(shí)行無人駕駛?根本做不到。我覺得醫(yī)療方面是中國是最需要解決的問題,13億人,如果能夠在醫(yī)療方面做的好一點(diǎn)的話,可以解決中國很大的壓力。

        比如說去醫(yī)院看病,心臟覺得有點(diǎn)不對,就去掛號看醫(yī)生。他要實(shí)時(shí)監(jiān)測我心臟的情況,但是設(shè)備常常需要預(yù)約到十天半個月之后,到那時(shí)癥狀可能已經(jīng)消失而監(jiān)測不到了。是不是可以通過手機(jī)監(jiān)測信息,通過手機(jī)傳到醫(yī)院,這樣就能在很大程度上解決問題。還可以在網(wǎng)上醫(yī)療做一些前期的工作?,F(xiàn)在手機(jī)上可以下載一些應(yīng)用軟件,就可以檢測你的血壓、心率,血糖的飽和度,某種心理上的狀態(tài),它都可以檢測。這個當(dāng)然不太準(zhǔn),但是還是有用的。所以我就特別希望是這樣的,像自動化所,希望能夠有更多的力量,在健康,保健醫(yī)療,在這個領(lǐng)域里頭多做一點(diǎn)工作。我上次看你們的網(wǎng),好像有一個部門做這個事,希望加強(qiáng)。在這個問題上,如果想抓中國實(shí)際的狀態(tài),這個應(yīng)用我認(rèn)為是至關(guān)重要的。

        張恭清:問題還是回到傳感器。如果要做到這一步的話,必須我們在家里就能夠得到很多個人健康的信息。甚至于你早上在廁所里,它就能夠把這些數(shù)據(jù)及時(shí)傳到醫(yī)院里去,這時(shí)候就是用云的,或者虛擬的醫(yī)院,里面有很多機(jī)器人在這兒給大家做診斷。

        桂文莊:手術(shù)機(jī)器人肯定需要視覺技術(shù)。

        原魁:實(shí)際上手術(shù)機(jī)器人的視覺只是幫人看,操作還是人?,F(xiàn)在還有放療機(jī)器人,它能夠把測的圖像,把癌癥的部位檢測到之后,傳給機(jī)器控制器,然后自動發(fā)射X線,去殺死癌細(xì)胞。把醫(yī)診和視覺技術(shù)結(jié)合比較好的。國內(nèi)有這個領(lǐng)域,叫智慧醫(yī)療,但是這個問題太復(fù)雜,有這么多人,每個人情況都不太一樣,你早上和晚上保證血糖不一樣,各種情況都不一樣。包括現(xiàn)在講基因檢測之類的,你感冒檢測出來了,你吃藥不吃藥都要一個星期的。我以前做過智能型的康復(fù)輔助,這類東西和基因技術(shù)關(guān)系比較密切。

        查紅彬:這個事情國內(nèi)做的人很多,中國做這個事情比外國更有利。外國有很多東西被法律捆住了,臨床上很難動。中國相對來說松一點(diǎn),中國可能在醫(yī)療應(yīng)用方面可能比國外更容易。確實(shí)有很多人做,大家做來做去,最后問題癥結(jié)是什么呢?這個東西應(yīng)用性很強(qiáng),不能只是紙上談兵,必須到醫(yī)院利用起來?,F(xiàn)在最大的問題是利益關(guān)系,醫(yī)院不愿意放棄既有利益。我要自動化了,數(shù)據(jù)都讓你拿走了,很多人沒飯吃了,醫(yī)院不干。很多東西到最后阻力在醫(yī)院,醫(yī)院不想干這個事情。

        張尤臘:你說的非常對,上次我去深圳參觀一個公司,就是做網(wǎng)上醫(yī)療,大概有500多人。那里頭的人不是專門搞IT的,一大半是醫(yī)學(xué)方面的博士生畢業(yè)的在那兒。他們有一部分做咨詢,給人感覺很好。比如說我看病之前先詢問一個,專門有人像接線員一樣,在網(wǎng)上值班,可以咨詢他。很多類似的東西,他已經(jīng)在網(wǎng)上做了一部分了。我問他,你這個系統(tǒng)在哪兒應(yīng)用?發(fā)現(xiàn)都在三線城市,二線城市都上不去。為什么呢?我的利益怎么跟你捆綁在一塊兒,這個問題馬上就出來了。事實(shí)上可以做一部分的。

        查紅彬:就像北大講醫(yī)療大數(shù)據(jù),北大做的話很有優(yōu)勢,附屬醫(yī)院那么多。最后一看,統(tǒng)一不起來,還是沒法做。

        張恭清:您剛才講的SLAM技術(shù)里面,核心的關(guān)鍵的部件是傳感器,3D的數(shù)據(jù)采集。像2D的咱們都比較了解,比如說電視圖像,它出來的格式都已經(jīng)成為一種固定的,所以大家很快可以把后面的工作跟上去做。3D這方面是不是也已經(jīng)有了,數(shù)據(jù)的格式,出來的格式。是不是有一些標(biāo)準(zhǔn)?

        查紅彬:三維傳感器很多,數(shù)據(jù)本身有很多不同的格式,但是本身數(shù)據(jù)的性質(zhì)沒有像二維圖像那么規(guī)整。三維圖像不規(guī)整,所以很難用統(tǒng)一的方式描述它。為什么會有這樣的原因呢?一般來說,并不是靠一般的光學(xué)來感知就能解決這個問題,必須靠別的手段。比如說激光打到物體表面,激光點(diǎn)可以找到物體信息,但是這個點(diǎn)并不規(guī)整,你得到的信息就不一樣。二維圖像處理方法比較好的,一般變換,小波變換,它的基礎(chǔ)是排列整齊,把一般的變換變成快速變換。三維數(shù)據(jù)做不到。也許將來有一天可能解決,但目前做不到。

        董士海:是不是空間數(shù)據(jù),地形,這些數(shù)據(jù)已經(jīng)有規(guī)范了。比如說Google的地圖不僅可以看平面,還可以看立體,比如我用無人機(jī),就可以把數(shù)據(jù)拍下來,生成三維的場景,我覺得像類似的某一個情景下,可以制定一些標(biāo)準(zhǔn),包括從地圖,地形,可以給它標(biāo)準(zhǔn)化。但是對某一個物體來說,五花八門,很難得到確切的數(shù)據(jù)結(jié)構(gòu)來描述它。

        原魁:那個是廠家提供數(shù)據(jù)格式,你說的是通用的,三維地形圖是一致的,它提供出來商用的東西的時(shí)候,是可以規(guī)范化的。但是傳感器廠商各自有各自的,原理一樣的會比較接近。

        胡包鋼:原老師您更偏硬件,這次我想提的問題是關(guān)于芯片的。您怎么看國內(nèi)在芯片?特別是跟我們所相關(guān),芯片到底中國處于什么狀態(tài)?這也是國內(nèi)的弱項(xiàng)。查老師您舉到CDPR,可能十年前更高端了,但是現(xiàn)在華人可以超過一半。研究有一種是應(yīng)用驅(qū)動的,這里邊實(shí)際上是認(rèn)知科學(xué)的問題,雖然中國數(shù)量上來了,未來在基礎(chǔ)理論上你怎么評價(jià)?我理解還是很重要的,理論很重要,應(yīng)用驅(qū)動沒問題,但是在理論上有弱項(xiàng)。您怎么看中國在理論方面也能走在前面?問題在什么地方?包括嵌入式系統(tǒng),原老師做的很好,我們中國到底處于什么位置?您文章也很多,理論上有什么東西,請您講一講。

        原魁:這個問題本身,芯片種類太多,咱們芯片得聚焦。如果是用到視覺上的話,實(shí)際上現(xiàn)在成熟的視覺芯片還沒有。視覺做不好的原因是因?yàn)樗膱鼍扒ё內(nèi)f化,如果做統(tǒng)一的處理,你像我們的手機(jī),現(xiàn)在拍二維碼,咱們都是二維碼識別了。我當(dāng)年研究二維碼,提我的方案的時(shí)候,國內(nèi)絕大多數(shù)人都不知道二維碼是什么。我把國外的幾種二維碼特點(diǎn)研究了一下。它是因?yàn)楸尘跋鄬唵危闩牡臅r(shí)候一定是能找到這個碼本身,找到范圍,再去做相應(yīng)的處理。這種單一應(yīng)用是可以用芯片的,它算法簡單。咱們所想做的事情太多,最初我們學(xué)術(shù)委員會提建議,把一個算法變成能實(shí)現(xiàn)的算法。但很難,沒有多少人能做這個事情。我們的博士生前三年是最基本培訓(xùn)的,后面一年多是做實(shí)際應(yīng)用的,因?yàn)樗私鈭D像處理的基本特點(diǎn),要了解編程特點(diǎn),這些都學(xué)會了才能做一些工作。所里要同時(shí)做兩個方向,算法和將其實(shí)用化,兩個復(fù)雜度差得很多,用的芯片肯定不能是一類,架構(gòu)也不一樣,資源也不一樣。但是作為芯片,有特殊應(yīng)用背景的芯片,如果有特殊明確的應(yīng)用,算法能夠基本固定的,做成芯片是可以的。叫做深度學(xué)習(xí)的算法有很多種方法,實(shí)現(xiàn)起來功能各不一樣。我們現(xiàn)在叫人工智能芯片的,多如牛毛,每個都不一樣。經(jīng)過一年左右的沉淀,國內(nèi)對人工智能這一塊沒有原來那么熱了,就像當(dāng)初炒作3D打印一樣的,人工智能也是一樣,現(xiàn)在回頭看,我們做大數(shù)據(jù)應(yīng)用的是一類,但是到了機(jī)器人視覺技術(shù),就只剩下特定場景下的信息處理問題。這兩個做成芯片都有難度,除非把應(yīng)用場景定下來。一些特殊的傳感器是一定要有專用芯片的,哪怕范圍受限,我這個處理這幾種,那個處理那幾種。所以用一種芯片處理一個事情,永遠(yuǎn)不是解決的方法。

        胡包鋼:現(xiàn)在用的芯片還是國外的?

        原魁:比如激光雷達(dá),我就知道國內(nèi)不只一家在做,但是它不是用芯片,它是用一個系統(tǒng)。這個問題太大,芯片一直是咱們國家的短板和痛點(diǎn),現(xiàn)在還沒解決。

        查紅彬:現(xiàn)在在一些頂尖會議上,我們的論文并不少,甚至超過了歐美很多國家,但質(zhì)量是一個大問題。說到質(zhì)量問題,這個不僅僅是限制在計(jì)算機(jī)視覺領(lǐng)域里面。從一些最佳論文來看,他們都有一些特點(diǎn),一是不僅有很好的新的想法,而且能夠說服你,讓你覺得有它的原理在里面。第二個,很有意思的是,這些文章一大部分是來自于相同的實(shí)驗(yàn)室或相同的導(dǎo)師。

        我們從這兩個東西來看,看國內(nèi)的問題癥結(jié)在哪兒。第一點(diǎn)就在于,我們通常所講的“有用”,這個“用”怎么去解釋?現(xiàn)在講一定要應(yīng)用起來,要出產(chǎn)品。其實(shí)這個并不只是用。發(fā)文章,有人說文章有用,有人說文章沒用。其實(shí)這個用,有的時(shí)候失敗也是有用,失敗多了也是有用。我說見了很多好文章是一種積累過程。為什么是同一個導(dǎo)師同一個實(shí)驗(yàn)室那兒出來的做,不是一個學(xué)生積累的,是長期積累的,前面的學(xué)生什么也沒做出來,失敗了,但是給后面的學(xué)生積累了東西。這在國內(nèi)是很難的。我們說有用的時(shí)候,不能只是說你要用起來,做成產(chǎn)品。無論你是做產(chǎn)品,你做文章,真的有用沒用,研究的結(jié)果會怎么樣,你的積累的結(jié)果會怎么樣,這都和有用沒用有關(guān)系的?,F(xiàn)在國內(nèi)還是需要有積累。但是這個積累,在目前國內(nèi)的氛圍當(dāng)中很難做下去。為什么說實(shí)驗(yàn)室失敗沒法再往下做,就是環(huán)境不允許你這么做,你這么做的話,將來你就沒飯吃了。所以還是從心態(tài)上面,從科研環(huán)境上和國外差距太大。

        桂文莊:查老師講的我認(rèn)為是一個基本問題,你得把周圍信息收集出來,能夠形成一個圖像出來,一個地圖。這件事情,實(shí)際上我覺得視覺是最重要的基礎(chǔ)工作。從原老師的傳感數(shù)據(jù)形成圖像,識別它,再去做決策。后頭那一塊,嚴(yán)格地說應(yīng)該不屬于狹義的機(jī)器人視覺了。視覺就是看見周圍的東西,把它整合成清晰的圖像,理解它是什么,這就應(yīng)該是視覺。要判斷這個人怎么走動,要識別這是哪個人,要做一些預(yù)測出來,還要做決策,這后面大部分都是現(xiàn)在的人工智能最關(guān)鍵的東西,也是最難的東西。所以我在想,咱們收回來,說到狹義這個事情,我想問問查老師,你剛才講的非常好,我覺得和人的識別相比,這個人識別,比如說我兩個眼睛看東西,看到是立體的,因?yàn)槭怯袃蓚€眼睛。你現(xiàn)在那個傳感器要把深度測出來,和眼睛的機(jī)制是不一樣的。人要形成圖像,在人腦子里頭,它有深度的感覺,但是不是精確的深度,我看查紅彬離我兩米多三米,這是憑經(jīng)驗(yàn)。但是機(jī)器處理一定是非常精確的數(shù)字,這就有很大的區(qū)別了。人腦子里識別的東西和機(jī)器需要處理的東西,它是不一樣的。這個不一樣,對我們將來搞機(jī)器人視覺的發(fā)展有什么樣的影響?因?yàn)樵蹅冎v智能,講人工智能,在很大程度上是希望能夠模擬人怎么樣去認(rèn)識,人怎么樣去處理。當(dāng)然最后機(jī)器因?yàn)樗囊恍┨匦裕赡鼙热颂幚淼母?,這有可能。但是這個機(jī)制不一樣,這在你們現(xiàn)在的研究中,有沒有什么樣的意義?比如說人看到的這樣一個場景,它里頭到底是個什么東西?

        查紅彬:在人工智能里大家都與說要跟很多領(lǐng)域結(jié)合起來,比如說類腦計(jì)算,很多人工智能領(lǐng)域大家都這么說。我感覺人工智能這個領(lǐng)域里面,視覺部分應(yīng)該相對來說跟腦之間的關(guān)系不是那么特別的緊。為什么呢?視覺是從圖像數(shù)據(jù)開始出發(fā),是從底向上的。但是腦更多地牽扯到,就像您剛才講的,是高層處理的東西比較多。視覺更多的是數(shù)據(jù)處理,并沒有說我的處理機(jī)制要像人那種。其實(shí)統(tǒng)計(jì)學(xué)習(xí)理論和大腦里邊的原理,大家有的說是相似的,但是是不是,大家也不管,只要把人臉識別出來就行,至于人腦是不是這么做的,不去管它?,F(xiàn)在的人臉識別和大腦識別完全是兩碼事。我給你一個數(shù)據(jù),你機(jī)器人識別出幾千個幾萬個數(shù)據(jù)。但是人怎么能識別?家里的親人,稍微近一點(diǎn)的人能識別,更多的人就做不到。大家還是沒有管太多之間的關(guān)聯(lián)。但是大腦之間的機(jī)理是應(yīng)該有很大幫助的。我們?nèi)S世界里面好多問題不好解決,您講的兩個問題非常重要,第一個,人立體視覺很管用,為什么機(jī)器就難了?人是兩個眼睛,很容易,但是你這個對應(yīng)點(diǎn)不好找,大家都在想辦法把立體視覺的對應(yīng)點(diǎn)找出來。人進(jìn)入房間很快就能找到大致的空間感知,但是我們要解決這個問題,從高層往下的處理要利用起來。我對距離并不是那么嚴(yán)格的,我喝水的話,這個杯子離我多遠(yuǎn),你說不出來。為什么你要看,因?yàn)槟阆牒人?,你看杯子,手怎么動,這一系列都是從高層下來的。沒有這個的話,你看眼睛和杯子的距離是沒有用的。從這個意義上來講,大腦有很多處理這樣一些處理過程當(dāng)中可能會提供有幫助的東西,但是在視覺系統(tǒng)里面還不是過于強(qiáng)調(diào)這個。

        桂文莊:從視覺將來的發(fā)展來看是不是更多的考慮大腦來研究問題?

        查紅彬:應(yīng)該是這樣的。

        桂文莊:我覺得人的大腦是了不起的,比如說我開車,反應(yīng)非???,下意識就反應(yīng)出來了,處理的速度非常非???,消耗的能量非常少。這在機(jī)器來說是沒法做到的。像這些問題,一定和它的處理機(jī)制有關(guān)系?,F(xiàn)在中國搞腦計(jì)劃,一方面搞腦疾病,另外一個方面,自動化所就是腦計(jì)算機(jī)模擬大腦,這方面的工作有沒有什么樣子的想法和進(jìn)展?

        原魁:這個話題比較敏感。我們對大腦的理解大概只有5%,剩下都是不知道的。類腦就是仿腦,你只知道腦的5%,包括美國的計(jì)劃,人家不搞類腦計(jì)劃,而是搞腦科學(xué)本身的。腦子本身怎么辦,現(xiàn)在說不清。我們做機(jī)器人的人要考慮實(shí)際的執(zhí)行的,實(shí)際上執(zhí)行的決策本身有一套潛在規(guī)則。我們?nèi)讼乱庾R做一些動作,實(shí)際上人腦子里也是有潛在規(guī)則的。我們做的有一類傳感器,專門檢測跟物體的相對距離的,不要特別精確,我接近的時(shí)候,不需要那么精確。只有在完成操作的那個時(shí)間我才需要精確。我接近的過程中基本都是粗的,不需要精確。傳感器也是有多種,有的是不同的原理。有的打了很多個點(diǎn),打成矩陣,防止你漏掉一些東西。像64線的,剛才說的要50多萬,四線的激光傳感器要20多萬。我們用個攝像頭,把激光源調(diào)試一下,成本就很低。這個工作是有人做的。你不這么做拿不到經(jīng)費(fèi)。國際上也是曾經(jīng)熱過,我知道歐洲的腦計(jì)劃面臨著困難,瑞士為主的那個是被強(qiáng)行停掉了,因?yàn)樗龅臅r(shí)候,有點(diǎn)過分了,被歐洲的一些主流的搞科學(xué)的很多人一塊來把他給彈劾掉了。所以歐洲的腦計(jì)劃處于半停滯。美國人的腦計(jì)劃基本上是疾病類的,不做計(jì)算類的。我們現(xiàn)在人工智能主要是百度在做,他比人家落后很多,百度自己沒有核心技術(shù),它現(xiàn)在立足點(diǎn)很不穩(wěn)。

        董士海:怎么把我們現(xiàn)在的技術(shù)再提高一步?我覺得要把人工智能的機(jī)器學(xué)習(xí),大數(shù)據(jù)的統(tǒng)計(jì),要把這個因素加進(jìn)去。比如說,現(xiàn)在國外識別癌癥的圖像,大量的數(shù)據(jù)讓它學(xué)習(xí),最后比有經(jīng)驗(yàn)的專家判斷的準(zhǔn)確率要提高。我們這兒的數(shù)據(jù)不愿意共享,所以這個發(fā)展不上去。而人工智能確實(shí)需要人在不斷地學(xué)習(xí)過程當(dāng)中積累的經(jīng)驗(yàn)。比如像阿爾法狗下棋,不斷給他各種數(shù)據(jù),最后得到一個最好的結(jié)果。我們的研究要提高一步。我國外有一個學(xué)生,他是在搞一個一個行業(yè)的人工智能的技術(shù)應(yīng)用,非常熱門。就是某一個領(lǐng)域如果用了這個東西,它就可以上去了。我覺得我們國內(nèi),國家規(guī)劃,政策,要考慮你怎么調(diào)動各方面的積極性,讓人工智能上去。我看到一篇文章說,國外的數(shù)據(jù)標(biāo)記行業(yè)非常發(fā)達(dá),一大批的沒有經(jīng)過高等學(xué)校學(xué)習(xí)的人,都在搞數(shù)據(jù)標(biāo)記。為什么呢?我拍一百萬張照片,哭笑都要標(biāo)記一下,嘴巴張大了,這是笑,眼睛下來了叫哭。一百萬張照片下來以后,他說這個就是笑,這個就是哭,他就可以學(xué)了。但是得有一批人做標(biāo)記的工作。這個是癌癥,模模糊糊的是癌癥,邊緣清楚的是腫瘤,得有一套數(shù)據(jù)。國外有一大批人在做數(shù)據(jù)標(biāo)記,我們國內(nèi)現(xiàn)在是大量的農(nóng)民工以后要轉(zhuǎn)行搞數(shù)據(jù)標(biāo)記。這個工作量非常大?,F(xiàn)在搞字模,幾萬個字幕錄入特征值,找了大量的人做制模的工作,沒有制模的工作就沒有排版。

        胡包鋼:特別響應(yīng)兩位老師講的,怎么上個臺階。包括腦子這個事情,我去年也做了,也想跟查老師交流。我們不是都切片了,自動化都切片是不對的,應(yīng)該看怎么從計(jì)算層面研究類腦。拉格朗日方程我們都知道,一個約束加上去。大腦用不用拉格朗日?有些做類腦的,實(shí)際上都是炒概念,我評價(jià)就是不是真正的在做。像你剛才講的PPT里有一篇文章講平面的約束,等式的約束。大腦是不是拉格朗日,你怎么證明是不是拉格朗日?我們?nèi)ツ昃妥隽擞美窭嗜?,我們初步的研究認(rèn)為它是全局的約束。雖然我們也說類腦、計(jì)算大腦和生物腦不見得非得一樣,但是在計(jì)算層面上,在原理上做,很多文章,好多事情可以做。也不是說全切片去了,那我們自動化所干嘛去了?我現(xiàn)在提出一個說法,都得數(shù)學(xué)去描述,黑箱是怎么個機(jī)理,還得靠數(shù)學(xué)模型要去揭示它。

        類腦科學(xué)要和生物腦并行著走,要更高地往上走。深度學(xué)習(xí)現(xiàn)在已經(jīng)炒到人家說叫煉金術(shù)了,人家就是學(xué)術(shù)交鋒。國內(nèi)人工智能就是炒概念,開會你講我也不能說你錯,沒有學(xué)生交鋒。在國外人家就說你是煉金術(shù),沒有理論。中國人要考慮這個問題。光應(yīng)用也沒有問題,你有沒有理論?能不能指導(dǎo)你往上走?知識和數(shù)據(jù)頂層和向下要結(jié)合的,理論是什么,怎么研究大腦原理性的東西,我覺得這蠻對的。中國必須得跳出來,從理論上也要總結(jié)點(diǎn)東西。沒有理論指導(dǎo)的話,你走不遠(yuǎn),你只能做應(yīng)用,你永遠(yuǎn)跟在人后頭,最重要的就是基礎(chǔ)理論。國家講的是對的,應(yīng)用芯片都要去做,但是基礎(chǔ)理論最重要?,F(xiàn)在沒有人安心去做,像我做也是退休去做,我不管你評估了。大腦說白了就是一個通訊,你做大腦,你用信息論了沒有?你沒用信息論,就別跟我談腦科學(xué)。

        查紅彬:人的大腦處理信息超過一定信息以后,你必須用信息論來描述腦的這個過程。

        胡包鋼:如果沒有信息論,別跟我談腦科學(xué),有了還不夠。一定要重視基礎(chǔ)理論。你說哪幾個做腦科學(xué)的用信息論了?你說你做類腦,有什么信息論?大腦就是通訊。

        查紅彬:搞計(jì)算機(jī)的人講大腦的時(shí)候很少把信息論用上,但是搞醫(yī)學(xué)的還拿信息論來說事情,但是從書中可以看到信息論定義是錯的。

        原魁:你這個問題太大,基礎(chǔ)理論包括了多少東西,到某一個課題某一個方向的時(shí)候,到底什么是基礎(chǔ)。

        胡包鋼:中國人是可以創(chuàng)造原有的知識,怎么樣往上走。不是光說大,你得有勇氣在學(xué)術(shù)理論上往前走。

        洪繼光:最近華為手機(jī)里,說是有人工智能的處理,它的手機(jī)里都處理什么東西?

        原魁:現(xiàn)在AI已經(jīng)被炒爛了,過去叫做智能控制,智能傳感的,都被他們歸在AI里面了。過去搞智能控制的人不知不覺也變成人工智能的人了。華為用了什么沒有對外公布,最主要是兩種,一種是照相,手機(jī)現(xiàn)在很重要的作用是照相,比如自動對焦這種地方可能會用到算法,這個算法是很固定的。另外你上網(wǎng),打電話肯定不會用人工智能的,上網(wǎng)的時(shí)候,它會有些推送,它根據(jù)你的上網(wǎng)習(xí)慣,根據(jù)你瀏覽的內(nèi)容,它會有意識地去記錄,按照你的習(xí)慣,向你推送你感興趣的內(nèi)容。這類工作的的確確是人工智能或者AI很典型的應(yīng)用,這是把所謂的大數(shù)據(jù)用上了。它會把很多熱點(diǎn),會有一個提示,最近發(fā)現(xiàn)你什么習(xí)慣,有意識地給你推了什么東西。我估計(jì)華為所謂的AI是這兩方面。但是它是變成了硬件的,在芯片里邊有一部分,可能把有一些東西做到了,因?yàn)樗袞|西都要從里面過,通過它的規(guī)則,根據(jù)這個來做的。AI的定義太泛,稍微做一點(diǎn)和智能有關(guān)的就叫AI。

        洪繼光:計(jì)算所也搞了個AI芯片,細(xì)節(jié)你清楚嗎?

        原魁:細(xì)節(jié)我不清楚,他是把深度學(xué)習(xí)做到芯片里。所謂的深度學(xué)習(xí)有很多,實(shí)際上深度學(xué)習(xí)一點(diǎn)不新鮮了,過去只是說計(jì)算量太大,它就是層級多了,過去我們只能用三層,到現(xiàn)在為止,人工神經(jīng)網(wǎng)絡(luò)用到控制上的根本沒有。應(yīng)該也是把一部分算法放到他們的芯片里,到底放了多少,在多大程度上解決了哪類問題最有效,這個是不知道的。

        查紅彬:比如說像剛才董老師提到我要做人臉識別,這么來做就是不同的大量的網(wǎng)絡(luò)要做,他們也希望做通用的,網(wǎng)絡(luò)很大,做出來之后,能夠在不同的應(yīng)用中用起來。人的大腦一個非常重要的性質(zhì)是大腦里邊的每一個計(jì)算單元,能夠改變自己的一些局部的結(jié)構(gòu)。將來能不能想辦法把它做成結(jié)構(gòu)非常類似的東西,現(xiàn)在人為的能夠改變處理結(jié)構(gòu),像人腦大面積地去改還是很難。像人腦大面積地去改,就是單純的強(qiáng)運(yùn)算的計(jì)算機(jī),也不需要操作系統(tǒng)等等。他們應(yīng)該是自己想做這種類型的,還沒有做下去。

        桂文莊:今天沙龍開得很好。問題是當(dāng)前的熱點(diǎn)問題,也比較前沿。我們一方面討論了計(jì)算機(jī)視覺現(xiàn)在的狀況,現(xiàn)在的基本問題和應(yīng)用,同時(shí)也討論了這個研究方向應(yīng)該怎么發(fā)展。我個人覺得,其實(shí)機(jī)器人視覺是和應(yīng)用聯(lián)系得非常非常緊密的東西,它和純粹搞數(shù)學(xué)、天文、物理不一樣,它是一門應(yīng)用科學(xué)。但是它里頭也有著非常多基礎(chǔ)性的問題。搞這種東西總得兩個輪子前進(jìn),一個方面要應(yīng)用驅(qū)動,隨著應(yīng)用需求,你會提出很多很多的問題要研究,因此它推動了這門學(xué)科的發(fā)展;另外一方面,也要從基礎(chǔ)理論的體系上,從科學(xué)技術(shù)本身的發(fā)展規(guī)律上去發(fā)展。這兩個輪子不可偏費(fèi),不可只顧一頭。理論上的重要突破會對實(shí)踐發(fā)生重要的作用。所以我覺得研究機(jī)器人視覺一定要兩條腿走路,既要重視應(yīng)用,也要把基礎(chǔ)的東西繼續(xù)發(fā)展扎實(shí)。剛才查老師講的,實(shí)際上就是一個場景地圖處理的問題,其實(shí)里頭的問題還非常非常多,還有很多很多事情,怎么樣更準(zhǔn)確更快的把這個東西實(shí)現(xiàn)出來,這里頭有非常多的問題,還沒有很好的發(fā)展。原老師講的應(yīng)用更是五花八門,未來的應(yīng)用現(xiàn)在想不到的太多了。

        國家提出人工智能的發(fā)展是一個大的戰(zhàn)略。雖然現(xiàn)在社會上有點(diǎn)炒作的問題,什么東西都弄成智能的了,包括配鑰匙也是智能配鑰匙了。但是人工智能確實(shí)是我們下一步長遠(yuǎn)發(fā)展的核心的技術(shù)。就像“互聯(lián)網(wǎng)+”一樣,人工智能的“+”一定會推動各個產(chǎn)業(yè)的發(fā)展。所以我覺得這個議題是非常有意義的。

        咱們自動化所分會去年開的“類腦計(jì)算”學(xué)術(shù)沙龍也非常好,雖然類腦的事情大家還有不同意見,但是那也是一個非常前沿的,非常值得重視的事情。腦科學(xué)的東西,未知的東西更多。但是科學(xué)就是要發(fā)現(xiàn)前沿,發(fā)現(xiàn)未知的東西。像這樣的方向,科學(xué)院應(yīng)該很好地去做,應(yīng)該去做那些前沿的、具有科學(xué)價(jià)值的東西,不然老是跟著人家跑,老是人家有什么新的概念咱們就跟著去干。深度學(xué)習(xí)也不是咱們提出來的。到了哪一天中國的科學(xué)家能夠提出自己的思想,自己的理論體系,自己的新的顛覆性的創(chuàng)新,這個時(shí)候我們才真正的強(qiáng)起來。人工智能,無論從理論還是從應(yīng)用上,都是一個非常大的領(lǐng)域,要好好發(fā)展。

        顧學(xué)真:今天的沙龍很好,原老師和查老師做了很好的報(bào)告,大家也充分地進(jìn)行了交流和討論。大家對視覺下一步怎么來做提出了很多想法,胡包鋼還講到我們自動化所要怎樣進(jìn)一步做人工智能。我現(xiàn)在不知道咱們所現(xiàn)在對信息論比較感興趣的,或者想去做的人數(shù)多不多,或者有沒有這個課題。咱們自動化所建所的時(shí)候,信息論也是作為很重要的一門課程。咱們研究所要進(jìn)一步要發(fā)展,基礎(chǔ)理論研究方面要提高。一個是信息論,還有一個,系統(tǒng)理論。這兩個抓起來,這自動化所是立于不敗之地的很重要的東西。只有把這兩個方面搞扎實(shí)了,后面應(yīng)用的東西才有底氣,有中國特色的。

        感謝兩位老師為了這個事做了精心準(zhǔn)備,也感謝鄧力同志對會議的形式也做了充分的準(zhǔn)備,還有院老科協(xié)的領(lǐng)導(dǎo)來參與,來支持我們。另外,還要感謝董老師和張老師來參加我們的沙龍,他們提出了很好的建議。我們這個活動得到了院老科協(xié)的指導(dǎo),所的領(lǐng)導(dǎo)的支持,我想我們今后的活動肯定能辦得更好,謝謝大家,沙龍活動到此結(jié)束。


        在线观看国产成人swag,久久婷婷五月综合激情国产,91久久亚洲综合,久久久亚洲精品国产 日韩精品一区二区三区四区蜜桃 日本熟妇牲交视频在线观看,国产在线播放99,国产一级无码视频,国产在线观看添荫蒂视频|www.tjnx.com.cn/ 日本熟妇牲交视频在线观看,国产在线播放99,国产一级无码视频,国产在线观看添荫蒂视频|www.zzshanglu.com http://www.tjnx.com.cn/ http://www.zzshanglu.com