在計算機能力、算法以及大數據的加持下,這些運用到機器學習、語音識別、語義分析的產品,已經開始讓人工智能逐步走進人們的生活,讓人與機器的對話越來越自然,機器能夠聽懂和理解人的程度也越來越高。在經歷過最初的探索之后,這一領域商業化的應用和落地步伐也越來越快。
文/熊熊(熊出墨請注意)
巨頭的進階

距離1956年人工智能之父馬文·明斯基提出“人工智能”的概念已整整過去了60年,但商業化的浪潮卻遲遲未來。盡管之前有google、facebook、微軟等大公司不斷投資AI領域,但大多把研究成果用于自身業務的優化和效率提升,距離人工智能技術的民用普及還相當遠。直到去年,AlphaGo人機大戰重新奪回大眾的關注點,人們還意識到,其實人工智能的商業化已悄然開始布局。
在人工智能的分支中,語音識別是發展最早、且率先實現商業化的技術,從科大訊飛到思必馳,從云知聲到出門問問,其商業化應用的領域也從教育、客服、電信等進一步擴展到車載、家居、醫療、智能硬件等行業。與此同時,自然語言處理(NLP)作為人機交互技術的重要一環,也為此提供了助力。
蘋果Siri的推出打開了語音交互的先河,不僅催生了一批語音語義創業公司,還激發了百度、阿里等大型互聯網公司在語音語義技術上的投入。但真正的爆發還是來自亞馬遜的Alexa+Echo。
由于自然語言處理是搜索引擎的關鍵技術之一,因此百度、搜狗自然而然地成為頭號玩家。過去幾年中,兩家公司依托其強大的搜索引擎和輸入法應用,不僅將語音技術用于自身產品,還通過與行業其他技術和產品提供方合作,推出面向C端的產品和應用。比如,搜狗聯合四維圖新、飛歌等,推出全語音交互的車載導航產品,百度度秘攜手小魚在家,推出Duer OS以及家用視頻對講機器人。
來自國際市場研究公司RAM(Research and Markets)發布的《全球智能語音產業報告2015——2020》認為,未來三年,全球智能語音市場規模將達到191.7億美元。而中國的市場,將保持每年60%的增速增長。
NLP技術商業化的痛點

自然語言交互是未來人機交互的趨勢,在大多數智能產品中,NLP技術都是不可或缺的,但目前比較突出的問題是,受限于降噪、語音識別和語義理解等技術,交互體驗始終無法達到暢快淋漓。隨著深度學習的出現,NLP技術開始取得突破。但總體來說,NLP對于淺層次的特征提取、分類等問題已經比較成熟,而深層次的語義理解則成了如今的研究熱點。目前,NLP技術在文本處理方面的主要應用有智能搜索引擎、機器翻譯、文獻摘要自動生成、文本分類等;在語音方面主要有智能客服、多媒體信息提取與文本轉化等。
同時,國內NLP領域的創業公司不斷進行其商業化探索。“這一領域的應用和需求都相當大。”為軟銀、Intel、海爾等提供商用NLP技術支持的靈聚智能創始人張勝私下對筆者表示,銀行、稅務、教育、安保、旅游等行業,智能家居、智能安防等領域乃至無人便利店等都需要用到此技術,因此,他們即將推出開發者平臺和用戶自定義平臺來適應不同的客戶多樣化的業務或個性化需要。
據筆者的了解和總結,目前檢驗NLP技術商業化是否好用主要有三個維度:
首先是準確度,一個含義是語義分析是否準確,是否能準確理解用戶的意圖,以及上下文的準確理解;另一個是應答是否準確,是否按照用戶的意圖精確應對,而不是用似是而非或包羅萬象的答案來應付。關于這一點,靈聚智能創始人張勝在接受筆者采訪時表示,從NLP到NLU,只做語義分析或僅依賴神經網絡+大數據是不行的,例如語義只是其靈聚人工大腦核心技術的一個重要組成部分,而不是全部。在他看來,“自然語言處理所需要的技術和數據都是多維度的,語義分析只是其中一部分,基于大量語料的學習也需要適度人工干預,人類語言尤其是中文的表達方式實在是太豐富了。”
其次是速度,從學術角度來說,聊天機器人回答一個問題是1秒還是10秒都沒關系,但是要實現商業化,應答的時間不能超出用戶的心理承受極限,否則將嚴重影響用戶體驗。所以一般工業上要求NLP技術的響應時間不超過500毫秒,加上網絡延遲等因素,實際應答往往會超過1秒,再加上數據量越來越大,這個響應時間還會增加。這一點成為自然語言交互產品商用化非常影響用戶體驗的因素之一。有測試過多家技術的某上市公司一位智能家居產品經理向筆者介紹,目前即便有企業做到200毫秒響應,但實際上聯網跑起來的體驗依然不佳,有的干脆直接在每一次應答前固定插入一段聲音來緩解用戶等候的焦慮,但這并非長久之道,只有想辦法進一步壓縮響應時間,這一點靈聚智能的應答速度令他印象深刻。經筆者求證,靈聚智能目前能夠將智能云的絕大大部分場景如知識性和功能性場景的平均響應時間控制在20毫秒左右,把更多時間留給不確定的網絡延遲上;
第三個是靈活度,面向商業化的產品,用戶的需求總是個性和多樣性的,這對于NLP技術服務商提出了更高的要求,是否能夠有足夠的靈活度,允許用戶便捷的自定義手段達到自己的使用目的。在這一點上,靈聚旗下的核心產品靈聚人工大腦架構是不限定場景的,從數據層、算法層、會話層到應用層,從一開始構建就是為了不限領域的應用開發的。通過靈聚智能云和開發者平臺,具有研發能力的第三方企業和開發者可以很便捷的使用到靈聚提供的核心技術服務開發出自己的產品,而不懂得代碼的用戶也可以使用自然語言交互的調教模式或用戶自定義管理平臺通過可視化工具進行內容和場景的自定義。
向BAT說不的理由

前有BAT巨頭的追逐,后有商業化的痛,留給這一領域創業企業的時間并不特別多。
以語音交互技術應用最為廣泛的智能音箱市場為例,目前整個智能音箱市場已呈現以亞馬遜Echo為排頭兵,國外有Google、微軟、蘋果,國內有騰訊、阿里、京東相互追隨的態勢。
陣營越發強大,競爭也日漸白熱化。那么,作為夾在巨頭和C端產品公司中間提供技術服務的中小型公司,還有多少機會?
在語音識別領域,“云知聲”也是一個頗有名氣的玩家,商業化落地也做的不錯。2015年底“云知聲”完成了B+輪數千萬美金的融資,并開始了對公司品牌的升級——從智能語音公司,到物聯網人工智能服務商。云知聲布局人工智能,首先推出的是一個“云端芯”的概念。這個概念簡單解釋就是通過芯片將終端和云端連接起來。基于這個概念該公司開始實踐人工智能。云知聲要做的,是將AI芯放進從家電到汽車的各種產品里,讓它們都能連網并通過語音交互連接至云端服務。目前云知聲主要瞄準家居、車載、教育、醫療四塊市場,其中前兩塊是重中之重。
成立于2007年的蘇州思必馳信息科技有限公司,則主要聚焦在智能硬件領域的智能人機交互平臺,主要為智能車載、智能家居、智能機器人三大垂直領域打造人性化的自然語言交互方案,并專注原始技術創新及技術落地的商業化應用。在資本市場炙手可熱,在行業中也備受關注。
在筆者看來,這個市場足夠大,大到充滿想象。但也存在著一些問題,美國克瑞頓大學袁勁梅在寫給其被開除的學生的信中所述的問題也存在于許多方面,例如:弄虛作假甚至以偏概全的進行浮華宣傳,“炫技”多于實際能力。這樣實際上可能會導致用戶和投資人對真實技術水平和產品功能的誤判。做研發型企業也需要做學問的態度和堅持,因為商業而沒有底線終究是無法長久的。
此外,行業內很多擁有技術實力的公司,還沒有建立起成熟可靠的商業模式,而是通過一些上下游的延伸來創造價值,比如上游連接語音和搜索引擎,為垂直行業提供內容和服務,下游把語音和硬件產品結合,依靠銷售來實現營收。
尤其是在金融、教育、客服等需要與行業高度定制、服務和售后的公司,巨頭更不會輕易涉足,這也將成為技術類創業公司的機會。
不過,在一些智能家居、智能車載等to C領域,技術類創業公司可能要面臨著與巨頭直面競爭的局面,畢竟,這也是互聯網企業天然的C端優勢,包括龐大的用戶基數、數據積累以及好的產品體驗等。
盡管如此,在與巨頭的關系上,中小型技術創業公司也擁有相當大的機會。拿此前被吐槽具有“復制”基因的騰訊來說,在移動互聯網最初發展的幾年中,很多合作伙伴并不愿意太早納入到巨頭身后站隊的行列。
AI領域更是,一些產品型公司加入這個市場,可能會陷入某些互聯網巨頭之間的競爭,不想太早站隊的公司反而會選擇類似靈聚科技這樣的服務商,這也是目前有實力的創業團隊所具備的優勢所在。
事實也是如此。拿靈聚舉例,其在“默默無聞”中,合作伙伴已包括日本軟銀、IBM、Intel、海爾、康力優藍、瑞芯微、中興通訊、神州云海等幾十家企業或機構。
最后

在宇宙大爆炸理論中,“奇點”是指由爆炸而形成宇宙的那一點,即宇宙從無到有的起點。而在美國著名科學家、奇點大學校長雷·庫茲韋爾撰寫的《奇點臨近》一書中,他認為“奇點”是指電腦智能與人腦智能相互融合的那個美妙時刻。沒錯,這個美妙時刻正在到來。
據統計,2020年全球人工智能市場規模將突破萬億元大關。尤其是隨著人工智能首次寫進《政府工作報告》成為輿論焦點,人工智能也成為今年炙手可熱的科技關鍵詞。
在未來通用智能時代,除了自然語言處理、計算機視覺等AI技術在某些領域的直接應用,人工智能更大的影響在于將重塑生活服務、醫療、零售、數字營銷、農業、工業、商業等各行各業,并將引發新一輪IT設備投資周期。智能化的大潮即將來襲,萬億元的市場規模值得期待。
文/熊熊(熊出墨請注意)
請登錄以參與評論
現在登錄