打破人工智慧協作壁壘:以人為中心的軟體開發工具評估方法

1–2 minutes

人工智慧正在變革軟體開發,但現有的評估方法卻難以跟上腳步。谷歌公司的一個研究團隊取得了突破性發現,他們將重點從評估程式碼準確性轉移到理解人工智慧代理在協作環境中的行為。他們的研究建立了一個理想的代理行為基礎分類體系,並確定了四個關鍵期望:遵守標準、程式碼品質、有效解決問題以及使用者協作。

## 超越功能正確性的人工智慧評估

人工智慧評估領域正從簡單地驗證人工智慧產生的程式碼是否有效,轉向評估更廣泛的維度,例如可讀性、可維護性、安全性以及協作潛力。這需要多維度的基準和與實際應用相關的評估方法。評估人工智慧代理面臨許多挑戰,包括缺乏用於衡量可讀性等主觀品質的標準化指標,以及「最後一公里」問題——即人工智慧代理產生的程式碼雖然接近功能正常,但仍需要大量的人工潤色。

評估參與迭代對話的代理,以及解決負責任的人工智慧開發(特別是關於偏見和潛在危害)的擔憂,也需要新的評估框架。研究人員正積極測試低階邏輯模型(LLM)在缺陷復現與修復、程式碼可讀性評估等任務中的應用,並探索人工智慧代理如何自主完成複雜的軟體工程任務。了解開發人員如何與人工智慧工具互動、研究開發人員如何即時學習,甚至將LLM用作測試工具,都是關鍵的研究領域。

## 以人為中心的人工智慧代理行為分類

研究人員率先提出了一種評估軟體工程中人工智慧代理的新框架,超越了程式碼正確性,轉而評估其協作行為。透過分析91組使用者定義的代理規則,團隊提取了有效性能的關鍵預期,最終形成了一個包含四個關鍵行為的分類體系:遵守標準、確保程式碼品質、有效解決問題以及使用者協作。這提供了一個以人為中心的評估視角,重點在於團隊協作動態。

鑑於對代理行為的預期並非一成不變,研究人員發展了情境自適應行為(CAB)框架。這種方法了解期望如何隨情境而變化,同時考慮了「時間跨度」(從短期需求到長期目標)和「工作類型」(區分企業生產和快速原型開發)。這些維度是透過專家訪談和對原型開發代理的分析,以經驗為基礎得出的。

## 用於軟體開發的AI代理行為

科學家們基於對91組用戶自訂代理規則的分析,建立了一個適用於參與企業軟體開發的AI代理的理想行為基礎分類體系。確定的四個關鍵期望是:遵守標準、確保程式碼品質、高效解決問題以及與使用者協作,從而提供了一個以人為本的評估框架。基於LLM的分類系統準確驗證了此分類體系,F1分數達到83%(精確率:81%,召回率:85%)。

實驗表明,儘管表達方式有所不同,但企業軟體開發和快速原型開發在行為期望方面存在顯著的相似性。使用者始終期望智能體遵循最佳實踐並參與協作規劃。他們也期望智能體能夠利用上下文知識、回顧對話歷史或專案文件來解決問題,並主動驗證回饋並從中學習。然而,這項研究強調了快速原型開發特有的期望,揭示了對專家角色和使用者介面/使用者體驗品質的更高重視。

## 軟體團隊的上下文自適應人工智慧行為

這項研究填補了評估旨在協作完成軟體工程任務的人工智慧智能體方面的一個重要空白。研究團隊建立了一個理想的智能體行為基礎分類體系,確定了四個關鍵期望:遵守標準、確保程式碼品質、有效解決問題以及與使用者合作。這為理解成功的人工智慧-人機協作提供了一個清晰的框架。在此基礎上,研究人員提出了情境自適應行為(CAB)框架,該框架展示了智能體行為的期望如何根據具體工作和專案的時間跨度而變化。

該框架考慮了從短期生產需求到長期目標、從日常任務到快速原型開發等諸多因素,展現了對人機互動的深刻理解。雖然該框架已在企業軟體工程領域得到驗證,但仍需進一步研究其在嵌入式系統或資料科學等其他領域的應用,以增強其全面適用性。

Asset Management AI Betting AI Generative AI GPT Horse Racing Prediction AI Medical AI Perplexity Comet AI Semiconductor AI Sora AI Stable Diffusion UX UI Design AI