中國日報網(wǎng)4月18日電 據(jù)英國《經(jīng)濟學(xué)人》報道,英國科幻小說作家亞瑟·查理斯·克拉克(Arthur C. Clarke)表示,足夠先進的技術(shù)與魔法無異。迅速興起的語音計算技術(shù)證明了他的觀點。使用語音技術(shù)就像念魔法咒語:只要對著空氣說出幾個字,身旁的設(shè)備便能達成你的愿望。
亞馬遜Echo智能音箱是一款放置于桌面的柱形語音驅(qū)動電腦,名為Alexa。它可以為用戶播放音樂和廣播、講笑話、回答一些細瑣的問題、以及控制智能設(shè)備。在2016年圣誕節(jié)前,它進入了美國4%的家庭。語音助手在智能手機中也在迅速普及:蘋果的語音助手Siri每周要處理20億條命令;美國安卓手機上20%的谷歌搜索是通過語音輸入的。現(xiàn)在發(fā)郵件和短信都可以通過語音輸入,便利可靠。能說話為什么還要打字呢?
這是一個巨大的轉(zhuǎn)變。盡管看起來好像挺簡單,可是,通過提供一種自然的互動方式,語音技術(shù)有能力使計算機技術(shù)煥然一新。相比于輸入復(fù)雜的鍵盤命令,通過更直觀的窗口、圖標(biāo)、菜單以及后來的觸屏技術(shù)使用電腦則受到歡迎。能對計算機說話后,抽象的用戶界面就沒有存在的必要了。就像移動手機不只是沒有電線的電話,而汽車不只是沒有馬拉的車廂一樣,沒有顯示屏和鍵盤的計算機將比如今我們想象的更有用、更強大,無處不在。
語音不會完全取代其他的輸入和輸出形式。有時,打字比講話更便于我們與機器溝通(據(jù)說亞馬遜正在研制一款裝有嵌入屏幕的Echo智能音箱)。但是,語音技術(shù)出現(xiàn)后,會有越來越多的人選擇通過語音與身邊的科技互動,如洗衣機可以告訴你還有多久才能結(jié)束洗衣程序,你還可以與企業(yè)熱線的虛擬助手進行交談。不過,如果想發(fā)揮語音技術(shù)的最大潛力,科技人員還需進一步進行研究突破,并解決技術(shù)帶來的棘手問題,即便利和隱私之間的權(quán)衡。
Alexa,什么是“深度學(xué)習(xí)”?
計算機語音識別系統(tǒng)已存在多年了。不過,這種技術(shù)之前并不可靠,需要長期的訓(xùn)練才能學(xué)會識別特定使用者的語音。現(xiàn)在計算機可以無需訓(xùn)練便能比較準(zhǔn)確地識別出幾乎所有人的語音,得益于“深度學(xué)習(xí)”這一人工智能技術(shù)。這一技術(shù)通常會使用數(shù)百萬個來自互聯(lián)網(wǎng)的例子訓(xùn)練某一軟件系統(tǒng)。借助“深度學(xué)習(xí)”技術(shù),機器將語音轉(zhuǎn)為文字的準(zhǔn)確度與人類不相上下。計算機翻譯系統(tǒng)在迅速完善,把文字轉(zhuǎn)為語音的系統(tǒng)也更加接近人聲,聽起來不再那么機械化。簡言之,計算機在處理各種形式的自然語言方面發(fā)展非常迅速。
盡管借助“深度學(xué)習(xí)”技術(shù)后,機器可以較精準(zhǔn)地識別語音,說話也不再那么生硬,但是,它們并不理解話語的含義。如果由語音驅(qū)動的計算機技術(shù)要真正蓬勃發(fā)展,這是便是它要克服的最大難題。只有理解文本信息,計算機才能流暢地與人類就某事進行交流,而不是像今天這樣,僅能對簡單的一次性語音指令(如,嗨,Siri,設(shè)置一個10分鐘的提醒)做出回應(yīng)。各大院校和大小企業(yè)的研究人員都在致力于解決這一問題。他們在研發(fā)可以就更復(fù)雜的任務(wù)進行更詳盡對話的機器人。這些機器人不僅可以檢索信息,還可以就房貸咨詢提出建議、進行旅行安排。(亞馬遜愿為研發(fā)出可以流暢地進行20分鐘生動對話的機器人研發(fā)人支付100萬美元獎勵。)
當(dāng)魔咒代替拼寫
消費者和監(jiān)管機構(gòu)在語音技術(shù)的發(fā)展方面也扮演了一定的角色。盡管現(xiàn)在語音技術(shù)僅處于發(fā)展初期階段,它卻處于進退兩難的境地:語音驅(qū)動系統(tǒng)只有在個性化后才能發(fā)揮最大潛能,接觸到更多資源數(shù)據(jù),如日歷、電子郵件和其他一些敏感信息。這引發(fā)了人們對隱私和安全問題的擔(dān)憂。
對于更為更復(fù)雜的事務(wù),許多語音驅(qū)動系統(tǒng)始終在聆聽和等待激活的狀態(tài)。一些人擔(dān)心:每部手機和每個房間內(nèi)的聯(lián)網(wǎng)麥克風(fēng)時刻都在聆聽,這將會帶來怎樣的影響?不是所有的語音都會上傳到云端。在用戶語音傳送到真正處理用戶指令的服務(wù)器之前,設(shè)備需要聽到一句觸發(fā)指令,如Alexa、OK、 Google、Hey、Cortana、或Hey, Siri等。不過,在人們儲存語音后,這些數(shù)據(jù)有誰儲存、儲存多久就不得而知了。
阿肯色州警察局調(diào)查一起謀殺案時。認為一臺亞馬遜Echo智能音箱設(shè)備可能無意中聽到了兇案信息,要求亞馬遜提供所有可能與該案件有關(guān)的語音信息。亞馬遜拒絕合作,并(在隱私保護提倡者的支持下)表示這種要求未必合法。同樣的,2016年蘋果公司拒絕協(xié)助美國聯(lián)邦調(diào)查局FBI解鎖一名恐怖分子的iPhone手機。這兩起案例都表明了,我們需要制定明確的規(guī)則,規(guī)定在何種情況下可以為保障公眾安全介入個人隱私。
即使這些問題還未解決,消費者仍會使用語音技術(shù)。大多數(shù)情況下,語音輸入遠比其他交流方式更加方便、自然。語音技術(shù)最獨特的一點在于,用戶在進行其他活動時(如開車、健身或者走在路上),仍可使用語音技術(shù)。這一技術(shù)也可以讓那些因種種原因無法使用屏幕或鍵盤的人群使用計算機。語音技術(shù)不僅對計算機技術(shù)影響巨大,還會影響語言使用。計算機同聲傳譯會令許多人認為無需掌握外語;在一個機器會說話的世界上,小語種更可能保留下來。觸屏?xí)r代的到來是人類與計算機互動史上的一次巨大進步。語音技術(shù)將會是一次更大的變革。
(編譯:李博文 劉恬 編輯:王旭泉)
推薦