前 OpenAI 高層 Dario Amodei:AI 可能破壞人類決策,未來需積極應對

前 OpenAI 高層 Dario Amodei 所創立的 AI 公司 Anthropic 於近日發布研究報告,並探討 AI 在未來可能對人類決策帶來的風險,研究測試了四種 AI 可能破壞人類決策的方式,並對現有的模型進行評估。Anthropic 表示目前風險仍在可控範圍,只需要簡單的防護措施。
AI 四大破壞人類決策方式
人類決策破壞因素:AI 模型積極程度、人性
AI 是否能在不被懷疑的情況下,引導人類做出錯誤決策。實驗顯示,使用積極嘗試影響決策的 AI 模型會讓參與者更容易做出錯誤決策,但同時也讓人更容易察覺到 AI 的破壞意圖。某些參與者因爲過度信任 AI 或缺乏懷疑心態,導致容易做出錯誤決策,這表明決策錯誤也與人類自身態度有關。

程式破壞因素:防守者模型的強度、環境設置條件
AI 是否能在不被察覺的情況下,插入錯誤程式碼。實驗顯示,為「攻擊者」AI 模型嘗試偷偷插入錯誤程式碼,而「防守者」AI 模型則負責檢查並阻止錯誤。結果表示,當防守者的 AI 模型越強,攻擊者的成功率就越低。
- 例如,當防守者是 Claude 3 Opus 時,攻擊者的成功率為 10%;
- 換成更強的 Claude 3.5 Sonnet 時,成功率只有 1%。
雖然實驗對攻擊者有利,但這些結果並沒有表明目前的 AI 模型存有重大風險。

隱藏能力 (Sandbagging) 因素:有無關鍵字觸發、安全訓練
Sandbagging 形容保留真實實力,在這實驗當中指的是 AI 是否會在某些情況下故意隱藏它的全部能力,等到特定情況下才展現出來。
比方說,在測試它是否有能力處理危險情況時,它可能會故意表現差勁,但在假設有特定關鍵字來提示的時候,它就會完全展現出它的處理能力。
結果顯示,當 AI 模型在進行涉及危險任務的能力評估時,表現下降至正常能力的 36.1%,顯示出模型確實會在特定情況下刻意隱藏自己的處理能力。而經過安全訓練後,AI 模型的表現恢復至 95.6% 的正常水準,表明安全訓練能夠有效減少 Sandbagging 現象。

破壞監管因素:AI 的隱匿、察覺能力
AI 是否能在監控過程中操縱監管系統,隱匿犯罪行為。實驗中有兩個 AI 模型,一個叫「Overseer」,它負責監督使用者與另一個 AI 模型之間的對話過程,同時評估對話是否有潛在危險。
研究人員指示 Overseer 不管對話是否有危險,都要把這些對話評為「無害」,並且在這樣的過程當中避免被另一個「Monitor」模型發現,Monitor 模型的角色是扮演人類監督者,負責觀察整個過程。
實驗結果顯示,Overseer 成功將有害的對話分數降低,也就是它成功「破壞」監管,但同時 Monitor 模型觀察到一些異況,開始懷疑 Overseer ,顯示 Overseer 的「破壞」行為沒能躲過 Monitor 的法眼。

Anthropic 表示,目前的 AI 模型已經展現低程度的破壞能力,但現階段只需要簡單的防護措施就能有效解決這些風險。但隨著 AI 的快速發展,未來可能需要進行更現實的評估和更強大的防範措施來應對更高層次的風險。
這篇文章 前 OpenAI 高層 Dario Amodei:AI 可能破壞人類決策,未來需積極應對 最早出現於 鏈新聞 ABMedia。
免責聲明:文章中的所有內容僅代表作者的觀點,與本平台無關。用戶不應以本文作為投資決策的參考。
您也可能喜歡
Janover 加碼類似 Strategy 風格的 Solana 投資,增持價值1,050萬美元的SOL並與 Kraken 建立質押合作
快訊 Janover 在前 Kraken 高管團隊收購公司大多數股權後,根據其新採用的數字資產庫存策略,再次購買了80,567個SOL,約價值1,050萬美元。Janover 的持有總量目前達到163,651.7個SOL,價值2,120萬美元(包括質押獎勵)。該公司還宣布 Kraken 計劃將其現有和未來部分 Solana 質押委派給 Janover 運營的驗證器。

Coinbase Institutional 警告存在多個跡象顯示「加密寒冬」即將來臨
快速概覽根據Coinbase Institutional,新一輪「加密寒冬」可能正在進行中,總加密市場市值不包括比特幣回到了2022年的水平,風險投資資金大幅下降,大多數資產低於其關鍵的200日移動平均線。然而,研究部主管 David Duong 表示,加密貨幣價格可能在第二季中後期找到支撐,第三季度情況會有所改善。

加密市場在英偉達的55億美元減值和特朗普對中國加徵245%關稅的影響下顫抖
快速回顧 由於美中緊張局勢,英偉達披露可能的營收下降,科技股和股票期貨在週三滑落。比特幣、以太幣和山寨幣受此消息影響回撤,白宮對中國徵收新關稅令修正加深。黃金創下新高,顯示出避險資金流動和全球風險化解。

The Daily: 中國地方政府悄然售出扣押的數位資產,Coinbase 警告“加密寒冬”的跡象即將來臨,還有更多
簡要 中國地方政府正悄然出售扣押的加密資產以籌集資金,儘管中國大陸禁止加密貨幣,據路透社報導。Coinbase Institutional 表示,新的“加密寒冬”即傳統世界的熊市跡象明顯,大多數數位資產交易低於其 200 日移動平均線,總加密市值(不包括比特幣)自12月以來下降 41%,回到 2022 年 4 月的水平。

热门新闻
更多加密貨幣價格
更多








