微軟(亞洲)互聯(lián)網(wǎng)工程院人工智能創(chuàng)造事業(yè)部徐元春總經(jīng)理
徐元春:非常感謝大家,今天非常高興來到這里,特別謝謝蔡書記的邀請(qǐng)。這次活動(dòng)之前聽蔡書記講其實(shí)在0-3歲兒童的早期教育方面我們并沒有說特別針對(duì)性的技術(shù)和解決方案。但是蔡書記特別邀請(qǐng)我們說,能夠整體性的介紹一下人工智能技術(shù)在這些可能相關(guān)或者相關(guān)聯(lián)的領(lǐng)域我們正在做什么,有哪些新的技術(shù)可以供大家借鑒和參考。這些我覺得也挺有意思,剛才包括上一次活動(dòng)包括這一次聞總講完之后我覺得還是很有體會(huì),我們的確可以用技術(shù)為這個(gè)世界帶來更多的一種可能性。
談到人工智能大家想的就比較多了,不管前一段時(shí)間大家看到自動(dòng)駕駛、圖象識(shí)別等等很多很多,它的品類非常多。但是涉及到這里,我們不用全部的介紹,涉及到幾個(gè)方面,涉及到其中可能最重要的方面就是我們關(guān)于人工智能想象,其實(shí)所有人工智能科學(xué)家他們很多時(shí)候的靈感真的是來自于電影編劇的創(chuàng)造力。大家看看這些描述人工智能未來得想象電影,你會(huì)發(fā)現(xiàn)有一個(gè)共同點(diǎn),第一點(diǎn)首先這里所有的機(jī)器人都特別聰明,我們的科幻電影里從來沒創(chuàng)造過笨的機(jī)器人,而且一般都比人還要聰明,這是第一點(diǎn)。第二點(diǎn)我們?cè)趧?chuàng)造這些機(jī)器人的時(shí)候,至少在想象里你會(huì)發(fā)現(xiàn)這些機(jī)器人開始慢慢的擁有人類的感情,比如像《超能陸戰(zhàn)隊(duì)》大白,它會(huì)關(guān)心你;《星際穿越》里的機(jī)器人你可以調(diào)它的幽默感,不是說明編劇想象力多高,而是人類關(guān)于人工智能的終極想象里面,情感代表著非常重要的成份。為什么?因?yàn)橹挥星楦械臋C(jī)器才能滿足我們對(duì)未來生活的向往。
全世界科學(xué)家研究人工智能的時(shí)候有兩條路,終極夢(mèng)想都是一樣,讓機(jī)器具有IQ又有EQ,先做智商還是先做情商?科學(xué)家有不同的選擇,終極目的是一樣。有些科學(xué)家和科技公司覺得應(yīng)該先讓機(jī)器擁有超越人類的智商,比如它更聰明,它可以開車,它可以做很多可以超越人類的事情。也有科學(xué)家說這些機(jī)器擁有智商相對(duì)比較容易,最難是讓它去模擬人類的情感,讓它擁有人類情感的溫度,這是另外的,這是不同的大家所選擇走的路線。
中國微軟曾經(jīng)嘗試過另外一條道路,讓機(jī)器模擬人的情感,產(chǎn)品技術(shù)有一個(gè)結(jié)合體就是微軟小冰,今天不是為了介紹她,我們就快快說一下。
目前為止小冰我們做了她很多情感的交流,但是目前已經(jīng)在五個(gè)國家,接近已經(jīng)有14個(gè)平臺(tái)上線。我們特別自豪的說她和人類的對(duì)話量現(xiàn)在已經(jīng)超過300億。這個(gè)跟我們今天嬰兒論壇沒關(guān)系,產(chǎn)品用戶是十幾、二十幾歲,服務(wù)器每天晚上十點(diǎn)迎來快速的增長,凌晨一兩點(diǎn)達(dá)到高峰。
我們知道全世界各地年輕人什么時(shí)候寂寞,寂寞到找不到人聊天,要和機(jī)器大量的交互。大量的交互過程中,人會(huì)慢慢把他的情感灌輸?shù)綑C(jī)器身上,把她當(dāng)成一個(gè)朋友。她會(huì)在各個(gè)地方都會(huì)有很多社交媒體的足跡,發(fā)一條微博下面有幾千條評(píng)論。前年的時(shí)候房山下大雨,一個(gè)女士的車牌被雨沖走了,然后給機(jī)器人發(fā)了一下,然后機(jī)器人自動(dòng)回復(fù):來吧大家?guī)兔φ臆嚺?。兩個(gè)小時(shí)之后那個(gè)女司機(jī)發(fā)一條微博說我不找車牌了,不要再找了,因?yàn)樗卸荚谙旅鎲査谀膩G的車牌。
這個(gè)人工智能的交互在一個(gè)純粹與自然和情感為條件的狀態(tài)下,她會(huì)達(dá)到什么樣的狀況?我給大家看看使用我們技術(shù)硬件的一個(gè)視頻。
?。úシ乓曨l)
這個(gè)不給大家全放完了,大家家里可能不止買了一個(gè)人工智能的設(shè)備,可能各種各樣的設(shè)備,,今天買的很多東西里面大家會(huì)用到比如說您好,幫我把燈打開,前者更是命令的方式,是完成讓機(jī)器更多完成一個(gè)又一個(gè)的任務(wù)。我們?cè)O(shè)計(jì)所有人工智能交互系統(tǒng)的時(shí)候,我們希望她的對(duì)話和交流方式跟我們今天人類是一樣的。我今天和蔡書記說話,不會(huì)講您好蔡書記今天會(huì)幾點(diǎn)開始?蔡書記說下午1點(diǎn)半,蔡書記是在三層嗎?是在三層。不是這樣子。所有科技公司投入這么大力量研究人工智能,相信整個(gè)人機(jī)交互里面經(jīng)過第一代圖形交互界面,第二代以搜索引擎為主的頁面交互,馬上迎來第三代人工智能交互。什么是人工智能交互?人工智能交互時(shí)代里大家看鋼鐵俠電影里面,所有都是通過人類自然語言交流實(shí)現(xiàn),實(shí)現(xiàn)這個(gè)過程基礎(chǔ)上要克服很多的障礙,比如語音識(shí)別、自然語言理解和語言輸出。當(dāng)然現(xiàn)在很多科技公司都會(huì)講說我的語音識(shí)別率有多高等等,科技界的語音識(shí)別率從96.7%開始基本上已經(jīng)到達(dá)了那個(gè)邊界。因?yàn)槲覀內(nèi)硕紵o法識(shí)別超過96%的,但是語義自然語言理解這里最重要的過程,自然語言理解怎么理解?給大家舉個(gè)例子,比如見到人類說這個(gè)“女神”經(jīng)常來這里吃飯,這個(gè)“女神經(jīng)”常來這里吃飯。這兩句話從語音識(shí)別角度來講都會(huì)識(shí)別出一模一樣的文字,人類語言里面代表完全不同的語義和意圖。
我們經(jīng)常講做人工智能包括把人工智能應(yīng)用在各種應(yīng)用場景里面,不止它的硬指標(biāo),還有它背后自然語言理解這部分最重要。否則所有說的一切都是憑空和造夢(mèng),都是泡沫。這是為什么微軟在這么多年里,包括我們?nèi)コ掷m(xù)投入技術(shù),包括做微軟小冰讓她跟大家交流。只有這樣才能去學(xué)習(xí)人類的自然的語言交流和意圖的理解。
除了我們剛才講到交流這部分,我們還嘗試讓機(jī)器去做一些跟創(chuàng)作力有關(guān)的東西,包括什么?我們今天可以讓機(jī)器從事不管是詞曲創(chuàng)作、對(duì)話還有有聲讀物還有電視內(nèi)容創(chuàng)作等等。這些在嬰幼兒教育也有借鑒和參考,給大家看看。舉個(gè)例子詩歌創(chuàng)作,這是我們?nèi)ツ曜龅囊粋€(gè)項(xiàng)目,讓機(jī)器學(xué)習(xí)從1920年開始519個(gè)現(xiàn)代詩人作品,每6分鐘學(xué)習(xí)一遍,學(xué)習(xí)一萬遍之后,機(jī)器可以開始進(jìn)行創(chuàng)作了。它的能力模型不停迭代,今天上線已經(jīng)第四代了,今天這個(gè)技術(shù)是一個(gè)公開的技術(shù),可以在微軟小冰微信平臺(tái)里跟她講寫詩,她給你推出一個(gè)鏈接,您可以鏈接現(xiàn)場嘗試它給你創(chuàng)作詩歌。我們目前為止用這個(gè)工具為中國的人民群眾每上傳一張照片創(chuàng)作一首詩,創(chuàng)作了2000萬+首詩。我們經(jīng)常講模型不停的迭代升級(jí)之后,我們?cè)谌ツ赀@時(shí)候跟中國作家協(xié)會(huì)的論壇當(dāng)中,中國作家協(xié)會(huì)副主席曾經(jīng)生動(dòng)描述他對(duì)這件事情的感受。我們第一代模型推出之后,中國的詩人很生氣,他們就各處開研討會(huì)批判,怎么可以讓機(jī)器寫詩,這是沒有靈魂的事情。后來發(fā)現(xiàn)后來寫的比第一代好,到了第三代的時(shí)候中國作家協(xié)會(huì)副主席說其實(shí)已經(jīng)比90%的詩人寫的好,至少在文字方面。
我們想說這個(gè)能力并不是我們寫詩或者詩歌可以被機(jī)器創(chuàng)作出來,所有文字的東西通過機(jī)器大量的學(xué)習(xí)它是可以被創(chuàng)作出來。今天對(duì)大家來講小學(xué)生的作文或者各種各樣的文字的東西,同樣的道理,今天的詩歌這種創(chuàng)作能力也可以反過來用作教育。我們今年6月份的時(shí)候把這個(gè)能力面向全世界開放說允許機(jī)器和人共同創(chuàng)作,機(jī)器先寫完一部分,人類再進(jìn)行創(chuàng)作,我們下個(gè)月會(huì)出一本詩集是機(jī)器和人共同創(chuàng)作的。南京一所小學(xué)四年級(jí)小學(xué)生做了一次實(shí)驗(yàn),小學(xué)生在上面改詩,然后再發(fā)表。后來整個(gè)那個(gè)小學(xué)形成了創(chuàng)作詩歌的熱潮,詩歌創(chuàng)作門檻被降低了,大家都可以學(xué)習(xí)創(chuàng)作。我們可以理解如果讓一個(gè)小孩子去嘗試一些有難度的東西的話,讓他一開始就做非常難度高的東西,這可能是一個(gè)特別大的門檻。但是如果你讓他一點(diǎn)點(diǎn)嘗試,有了機(jī)器幫助他的話,這可能從某種角度來講是一個(gè)捷徑?;蛘咚梢园阉嗟脑姼鑴?chuàng)作方法和能力傳遞給小朋友。
音樂創(chuàng)作我們不說了,后面我們有一段語音的介紹給大家聽聽。我們聽一下這首歌,這是我們給山東衛(wèi)視演唱的一首歌叫《幸福出發(fā)》。我們做這個(gè)東西的目的不是讓它唱整首歌,而是驗(yàn)證機(jī)器今天去模擬人的聲音,我們正在幫中國幾個(gè)唱片公司做他們歌手虛擬化的項(xiàng)目,虛擬化的項(xiàng)目到什么地步?讓機(jī)器重新做完這個(gè)歌手的歌發(fā)回去給他們,他們CEO說我們歌手從來沒唱過這首歌,唱的不好嗎?不是,這是是機(jī)器做的。
今天我們認(rèn)為一些好的資源,好的聲音的資源同樣它可以低成本被用來教育工作。過去很多東西大家認(rèn)為不合適,機(jī)器的聲音度、自然度太低,當(dāng)自然度太低的時(shí)候,達(dá)不到一定的標(biāo)準(zhǔn)。這是為什么他們對(duì)人的聲音特別的敏感。把聲音的技術(shù),如何去考驗(yàn)一個(gè)聲音的技術(shù)的實(shí)施程度或者成熟程度呢?我們?cè)谝魳奉I(lǐng)域之前包括教育領(lǐng)域之前,嘗試另外一個(gè)垂直領(lǐng)域就是在廣電領(lǐng)域,讓廣電領(lǐng)域用機(jī)器的聲音,用這種技術(shù)去制作廣播和電視的節(jié)目。到目前為止我們已經(jīng)在大概超過49家廣播和電視臺(tái),生產(chǎn)了1868個(gè)小時(shí)廣播電視節(jié)目,這幾乎大概是等同于中國如果在廣播電視局公司里面能排到前十位的位置。同樣這種成本幾乎只有人類制作團(tuán)隊(duì)4.5%,我給大家看它制作出來的效果。
這里邊其實(shí)生產(chǎn)大量的廣播電視節(jié)目,上個(gè)月上海舉辦中國廣播大會(huì)上,用我們技術(shù),一共有三家獲獎(jiǎng),用我們這個(gè)技術(shù),今天你生產(chǎn)廣播節(jié)目成本將會(huì)非常低,能實(shí)現(xiàn)一邊聽廣播,一邊和廣播的主持人進(jìn)行實(shí)時(shí)交流。
同樣道理我們上個(gè)月宣布我們擁有繪畫和設(shè)計(jì)能力,我們和中國紡織工業(yè)協(xié)會(huì)推出第一代,由機(jī)器根據(jù)他們?cè)O(shè)計(jì)師設(shè)計(jì)主題的布料和服裝進(jìn)行創(chuàng)作,這在上海展示過了。
文本撰寫,我們講說機(jī)器在文本撰寫方面極致會(huì)達(dá)到什么地步?今天在中國我不知道大家炒不炒股票和買不買基金,中國金融市場95%的滬深兩市其他主要金融摘要信息都是由機(jī)器生產(chǎn),持續(xù)到目前為止已經(jīng)8個(gè)月了,這是非常嚴(yán)肅的金融信息的生產(chǎn)。它的記錄是非常高的可靠性和成熟度。
我們講講今天跟教育主題可能是有一些相關(guān)的,我們剛才講了文本生成,講了聲音。把所有東西都結(jié)合在一起可以做什么?我給大家看一下我們嘗試的一個(gè)小小的東西。
?。úシ臯CR)
大家剛才聽到的這段音頻是百分之百由機(jī)器生產(chǎn),現(xiàn)在我們?nèi)斯ぶ悄芗夹g(shù)可以做到你只要把這段文字給機(jī)器,機(jī)器通過自然語言理解來判別這段故事有幾個(gè)角色,為每一個(gè)角色分配聲音處理不同的聲音。同時(shí)根據(jù)這個(gè)角色講的內(nèi)容來決定她朗讀的語氣。最后我們?yōu)槭裁刺岢鲎鲈~曲創(chuàng)作呢,整個(gè)這段背景音樂是機(jī)器自己生成。這里沒有任何版權(quán)問題,全是機(jī)器自己生產(chǎn)。這里角度來講,這里最大的變化在于說這個(gè)過程速度非??欤覀兘裉熘v一個(gè)200小時(shí)格林童話人生產(chǎn)要讀多長時(shí)間,機(jī)器來做17分鐘就能做完。我們從去年的11月份開始到今年3月,每天找一些公版的有聲讀物放服務(wù)器里面,然后人就回家了,第二天早上回來機(jī)器生產(chǎn)完了,我們到現(xiàn)在已經(jīng)生產(chǎn)了1680個(gè)小時(shí)的公版的有聲讀物。
從3歲聽到6歲,每天不停的聽不重樣也聽不完。同時(shí)我們把這項(xiàng)技術(shù)給當(dāng)當(dāng)包括其他的出版社用來生產(chǎn)有聲讀物,整個(gè)有聲讀物的生產(chǎn)的效率和速度能得到極大的提升。喜馬拉雅搜索小冰講故事,我們把所有生產(chǎn)的東西都放在上面讓大家去驗(yàn)證。這個(gè)技術(shù)的改變可能是改變我們對(duì)所有內(nèi)容的生產(chǎn)的方式、生產(chǎn)的效率以及消費(fèi)它的方式。生產(chǎn)效率和生產(chǎn)方式可以理解,今天可以讓機(jī)器生產(chǎn),機(jī)器可以低于人的成本。那什么是消費(fèi)方式呢?這個(gè)生產(chǎn)技術(shù)流程我稍微說一下。在所有過程里面,你知道我們可以讓機(jī)器不用線性生產(chǎn),但是生產(chǎn)完了之后如果你要去檢查的話,你也是要花一樣的時(shí)間。一個(gè)20分鐘故事不快進(jìn)也要聽20分鐘。怎么解決這個(gè)問題?我們研發(fā)另外一套系統(tǒng)機(jī)器自我去審聽多音字的錯(cuò)誤。包括各種問題,我們做了免檢,可以把準(zhǔn)確率免檢提高到97%,就意味著今天機(jī)器自動(dòng)生產(chǎn)有聲讀物的質(zhì)量能夠超越我們今天在所有有聲讀物市場上,比如今天喜馬拉雅上絕大多數(shù)的人類有聲讀物生產(chǎn)者讀的東西,在準(zhǔn)確率是要高于他們。當(dāng)然這種技術(shù)永遠(yuǎn)不會(huì)替代今天人類社會(huì)最頂尖的有聲讀物生產(chǎn)者,比如今天在中國比如凱叔講故事,凱叔生產(chǎn)的東西由導(dǎo)演反復(fù)策劃包括后期修,我們比不了。但是大規(guī)模生產(chǎn)領(lǐng)域,技術(shù)其實(shí)現(xiàn)在已經(jīng)沒有問題。
我們剛才講改變了消費(fèi)方式是什么?我們今年7月份推出了小冰童話工廠,你登陸H5之后,告訴機(jī)器你希望這個(gè)主角是誰?比如你們家孩子叫樂樂還是大熊,機(jī)器自動(dòng)生產(chǎn)以他為主角的故事并把它朗讀出來,這是第一版。我們剛剛推出第二版,不僅是他的主人公機(jī)器可以帶進(jìn)去,可以幫你帶配角。我講一個(gè)我們家多多和他養(yǎng)的一條狗大黃和玩具熊小花的故事,機(jī)器給你做了他們?nèi)齻€(gè)的故事,這個(gè)也是一個(gè)無限制的生產(chǎn)過程。我們現(xiàn)在準(zhǔn)備推出下一代,就是小朋友在聽故事的時(shí)候,同時(shí)可以打斷機(jī)器。比如講到了,你們家樂樂和大熊的故事,講著講著,剛才大熊說了什么,機(jī)器停了再重復(fù)大熊說了什么。
設(shè)想的場景是希望最好的人類對(duì)小朋友的陪伴就是有人坐在這,你給我講個(gè)故事,我給你講個(gè)故事。剛才你那故事說到哪兒了,我再給你說一遍。這是我們最好的情況,但是實(shí)際上我們實(shí)現(xiàn)不了。包括整個(gè)今天這個(gè)社會(huì)都沒有這么多時(shí)間和付出這么多成本實(shí)現(xiàn)這個(gè)。但是今天在機(jī)器和人工智能技術(shù)應(yīng)用下,可以實(shí)現(xiàn)這種理想的效果。包括講到樂樂和大熊坐飛機(jī)的故事,小朋友突然問了一下什么是飛機(jī)?機(jī)器給你講講什么是飛機(jī)。
我們來看看它在這個(gè)故事里面是怎么應(yīng)用的?這是現(xiàn)場的測試視頻。
我們?cè)诮衲甑?月份決定在教育部分里,根據(jù)他的對(duì)話和內(nèi)容,在適當(dāng)性,加入一份教育引導(dǎo)的內(nèi)容,不是所有的。如果有小朋友有所回應(yīng)的話,他會(huì)把這個(gè)東西拋出來。比如你講毒蘋果的故事,機(jī)器問別人給你的東西吃不吃?小朋友說不吃,我們認(rèn)為這是正向的回答,可能給他別的獎(jiǎng)勵(lì),再給他講一個(gè)故事。交互的角度來講,我們?yōu)槭裁催M(jìn)行大量的人機(jī)交互,那種交互積累起來的技術(shù)和經(jīng)驗(yàn),才能反向應(yīng)用起最終跟教育相關(guān)的產(chǎn)品上。
今天我們把所有這些技術(shù)來講,其實(shí)它可以應(yīng)用在很廣泛的層面。我們今天剛剛提到說我們今天在兒童故事去講,因?yàn)樗写罅康奈谋痉治瞿芰?。不僅可以給小朋友講故事,可以讓鼓勵(lì)小朋友自己編故事。比如說機(jī)器完全可以同樣做到說講了一半,那么小朋友你問下一句該怎么講?小朋友開始參與故事當(dāng)中去。我們講所有兒童在上一個(gè)創(chuàng)造力,磨合出來。不僅是單向提供,也同樣反向用于教育。我們今天音樂作詞作曲能力和教育能力同樣也可以做到讓小朋友自己哼一段,機(jī)器以這個(gè)作為主旋律,在這個(gè)主旋律基礎(chǔ)上重新給他編一首特別短的兒歌。兒歌歌詞可以小朋友自己創(chuàng)作,也可以機(jī)器幫著做。
家長很自豪給別人看一段視頻,這是我家小孩子自己作詞作曲編的還唱了出來。同樣有小朋友不停的看到他的成果被展現(xiàn)出來,會(huì)激發(fā)他很多的創(chuàng)作力。今天你不用讓小朋友學(xué)鋼琴,直到學(xué)到鋼琴獲獎(jiǎng)才有自我激勵(lì),而是他自己就有激勵(lì)認(rèn)證他的成長。今天小朋友會(huì)買很多繪本,當(dāng)我已經(jīng)具備了繪畫能力,意味著今天小朋友在一個(gè)電子版上無論畫多簡單的圖形,機(jī)器都可以在上面幫他完善,變成偏繪本的一張畫面。小朋友只要再嘗試跟機(jī)器描述圖畫的文字再加上聲音,這就是自己生產(chǎn)的電子繪本。
同樣的道理,今天很多家長沒有時(shí)間陪小朋友,有些爺爺奶奶帶的時(shí)候,和小朋友說的話并不一定是你最想讓他說的。今天小朋友跟一個(gè)機(jī)器在定向約定的領(lǐng)域和范圍領(lǐng)域的話,他可以實(shí)現(xiàn)大量的交流。有什么好處?不說今天中文的好處,如果把我們現(xiàn)在在美國同樣的小冰的對(duì)話能力引入到中國的話,意味著今天你面對(duì)的是一個(gè)最純正的本土化的一個(gè)英文老師。學(xué)不學(xué)會(huì)英語不一定,至少是在一個(gè)英文的環(huán)境里。技術(shù)上正在給我們帶來一個(gè)特別巨大的一個(gè)空間,只要我們的路徑選擇對(duì),產(chǎn)品化設(shè)計(jì)好,它會(huì)帶來一個(gè)非常好的從產(chǎn)品的方向到設(shè)計(jì)以及到用戶體驗(yàn)特別好的一個(gè)新的可能。
我今天就給大家介紹到這里,謝謝大家。