【烽巢網】

語言生成是目前人工智能領域最熱門的東西,從改進谷歌的搜索引擎到創建基于文本的幻想游戲,有一類系統被稱為“大型語言模型”(LLMs)。但這些項目也存在嚴重的問題,包括重復使用性別歧視和種族主義語言,以及未能通過邏輯推理測試。一個很大的問題是:這些弱點可以通過簡單地增加更多的數據和計算能力來改善嗎?或者我們已經達到了這種技術范式的極限?
這是Alphabet的人工智能實驗室DeepMind在今天發表的三篇研究論文中要解決的問題之一。該公司的結論是,進一步擴大這些系統應該會帶來大量的改進。“這篇論文的一個關鍵發現是,大型語言模型的進展和能力仍在增加。這一領域并沒有停滯不前,”DeepMind研究科學家杰克·雷在一次新聞發布會上告訴記者。
DeepMind定期將其工作輸入到谷歌產品中,并通過建立一個名為Gopher的具有2800億個參數的語言模型來探索這種llm的功能。參數可以快速衡量一種語言模型的大小和復雜性,這意味著Gopher比OpenAI的GPT-3(1750億個參數)大,但沒有一些更具實驗性的系統大,比如微軟和英偉達的威斯特天模型(5300億個參數)。
在人工智能領域,越大越好通常是事實,更大的模型通常提供更高的性能。DeepMind的研究證實了這一趨勢,并表明,在情感分析和總結等最常見的基準測試中,擴展llm確實可以提高性能。然而,研究人員也警告說,語言模型的一些固有問題需要的不僅僅是數據和計算來解決。
他說:“我認為目前看來,這種模式確實可能以各種方式失敗。“這些方法中的一部分是因為模型對它所讀取的內容沒有足夠好的理解,我覺得,對于這類問題,我們將通過更多的數據和規模看到性能的提高。”
但是,他補充說,還有“其他類別的問題,比如長期存在刻板偏見的模型,或者被哄騙給出謬誤的模型……DeepMind沒有人認為規模化將是解決方案。”他指出,在這些情況下,語言模型將需要“額外的訓練程序”,比如來自人類用戶的反饋。
為了得出這些結論,DeepMind的研究人員根據152個語言任務或基準評估了一系列不同大小的語言模型。他們發現,較大的模型通常能提供更好的結果,而Gopher本身在科學家選擇的大約80%的測試中提供了最先進的性能。
在另一篇論文中,該公司還調查了部署llm所涉及的各種潛在危害。這些問題包括這些系統使用有毒語言、共享錯誤信息的能力,以及它們可能被用于惡意目的,比如共享垃圾郵件或宣傳。隨著人工智能語言模型(比如聊天機器人和銷售代理)得到更廣泛的應用,所有這些問題將變得越來越重要。
然而,值得記住的是,在基準測試中的表現并不是評估機器學習系統的全部和最終目標。在最近的一篇論文中,許多人工智能研究人員(包括來自谷歌的兩名研究人員)探索了基準測試的局限性,指出這些數據集的范圍總是有限的,無法與現實世界的復雜性相匹配。與新技術的情況一樣,測試這些系統的唯一可靠方法是查看它們在實際中的執行情況。有了大型語言模型,我們很快就會看到更多這樣的應用。
請登錄以參與評論
現在登錄