亞馬遜員工會聽你的ALEXA錄音來改進服務
在這種情況下,這個過程被稱為數據注釋,它已經悄然成為機器學習革命的基石,在自然語言處理、機器翻譯、圖像和對象識別方面取得了大量進展。他們的想法是,人工智能算法只有在它們能夠訪問的數據能夠被輕松解析和分類的情況下才能隨著時間的推移而改進——它們不一定要訓練自己這樣做。也許Alexa聽錯了,或者系統認為你問的不是英國城市布萊頓,而是紐約西部的郊區。在處理不同的語言時,還有無數的細微差別,比如地區俚語和方言,這些細微差別可能在Alexa支持該語言的開發過程中沒有考慮到。

在許多情況下,人類通過聆聽交換的錄音并正確地標記數據,從而將數據反饋回系統,從而發出這些呼叫。這個過程被廣泛地稱為監督學習,在某些情況下,它與其他更自主的技術相結合,也就是半監督學習。蘋果、谷歌和Facebook都以類似的方式使用這些技術,Siri和谷歌助手都隨著時間的推移而改進,這要歸功于需要人眼和耳朵進行監督學習。
在這個案例中,布隆伯格揭露了亞馬遜全球數千名員工的真實情況,其中包括一些承包商和一些全職員工,他們的任務是分析Alexa記錄,隨著時間的推移幫助改進助手。雖然這種方法本身并沒有什么邪惡之處,但彭博確實指出,大多數客戶并不經常意識到這種情況正在發生。此外,還有濫用的空間。錄音可能包含明顯可識別的特征和有關說話者的傳記信息。目前還不清楚這些錄音的確切存儲時間,以及這些信息是否曾被惡意第三方竊取或被員工濫用。
雖然這可能是標準實踐,但是這種類型的注釋可能會導致濫用
彭博社的報告列舉了一些例子,其中一些注釋者聽到了他們認為可能是性侵犯或其他形式的犯罪活動,在這種情況下,亞馬遜需要在執法過程中反復循環。(Alexa語音數據被用于起訴犯罪的案件已經引起了廣泛關注。)報告說,在其他情況下,一些辦公室的員工會與同事分享他們覺得有趣或尷尬的談話片段。
亞馬遜在一份聲明中告訴彭博社,“我們只對Alexa語音記錄的一小部分進行了注釋,目的是(原文如此)改善客戶體驗。”例如,這些信息幫助我們訓練我們的語音識別和自然語言理解系統,因此Alexa可以更好地理解您的請求,并確保服務對每個人都有效。該公司聲稱,它擁有“嚴格的技術和運營保障措施,對濫用我們的系統采取零容忍政策?!眴T工無權訪問參與Alexa語音請求的人的身份,任何這類信息都“被高度保密地對待”,并受到“多因素身份驗證的保護,以限制訪問、服務加密和對我們控制環境的審計”。
盡管如此,批評這種人工智能發展方式的人士已經為此敲響了警鐘,通常情況下,當亞馬遜犯了一個錯誤,不小心把錄音發送給了錯誤的人,或者透露自己已經存儲了數月甚至數年的錄音時,就會出現這種情況。去年,Alexa代表該用戶向其丈夫的同事發送了一段私人對話,結果出現了一系列奇怪而極其復雜的錯誤。去年12月,一名德國居民詳細描述了他是如何根據GDPR的數據請求,從亞馬遜收到1700條語音記錄的,盡管這名男子沒有Alexa設備。通過分析這些文件,德國雜志c的記者們無法僅通過使用從Alexa互動中收集到的信息來識別被記錄的實際用戶。
亞馬遜存儲了數千份語音記錄,目前尚不清楚是否存在濫用
亞馬遜正在積極尋找擺脫那種需要大量抄寫和注釋的監督學習的方法。連接在去年晚些時候的一份報告中稱,亞馬遜是如何使用新的、更尖端的技術像所謂的主動學習和學習轉移到減少錯誤率和擴大Alexa的知識庫,即使它增加了更多的技能,而不需要添加更多的人類的混合。
亞馬遜Ruhi Sarikaya, Alexa的應用科學,在科學美國人本月早些時候發表了一篇文章題為“Alexa學習,”,他詳細說明了這種類型的大規模機器學習的目標總是會減少所需的冗長的人類勞動來解決錯誤。在最近的人工智能研究中,監督學習占據了主導地位。但如今,商業人工智能系統產生的客戶互動,遠遠超過我們開始手工標注的數量。“要想延續商業人工智能迄今所帶來的迅猛進步,唯一的方法就是將我們自己重新定位為半監督、弱監督和非監督學習?!蔽覀兊南到y需要學習如何改進自己?!?/p>
然而,就目前而言,亞馬遜可能需要真正了解人類語言和文化的人來解析這些Alexa交互并理解它們。這種令人不安的現實意味著,有些人,甚至遠在印度和羅馬尼亞,正在你的客廳、臥室、甚至浴室里,聽你和一個沒有實體的人工智能說話。這就是ai提供便利的代價,至少在亞馬遜看來是這樣。
請登錄以參與評論
現在登錄