在 2025 年 7 月 9 日的直播發佈中,xAI 最新的對話機器人 Grok 4 正式亮相,引起了全球的關注。Elon Musk 宣稱,Grok 4 比大多數研究生還要聰明,這款 AI 不僅能處理編碼,還能快速解決各領域的複雜問題。

隨著 Grok 4 的推出,Musk 旗下公司 X 和 xAI 都面臨著領導層的變動和日益增長的內容審核壓力,但目光仍集中在 Grok 4 上,討論它能否在 GPT-4o、Claude 3 和 Gemini 等競爭對手面前脫穎而出。

(一)Grok 4 比 Grok 3 優勝多少?

Grok 4 在沒有工具的情況下,在一項人類最後測驗中取得了 25.4% 的得分,超越了 o3 和 Gemini 2.5 Pro。一旦使用工具,得分更是提升至 38.6%,而經過多代理「Grok 4 Heavy」設置後,更上升至 44.4%。

  • Grok 4 提供「科學家級別的推理能力」。
  • 上下文長度從 32,000 個token(Grok 3)增加到 130,000(Grok 4)。
  • 更快更準確,減少幻覺現象並優化 GPU。

xAI每月投入約 10 億美元來追趕 OpenAI、Google 和 Meta。3 月時,xAI 正式與 X 合併,以加速 Grok 的開發,這項投資似乎已經初見成效。

Grok 4 在 xAI 的 Colossus 超級計算機上訓練,Musk 稱其為「科學家級推理」。與 Grok 3 相比,新模型可以處理更長的提示詞——最多 130,000 個 token。它的運行速度更快,得益於更好的 GPU 配置,且 xAI 表示它更加準確,搭配更少的幻覺回答。

在發佈會上,Musk 宣稱 xAI 團隊已經「用光了測試問題」,把現實本身稱作是「最終的推理測試」。xAI 的資訊明確:Grok 4 已準備好與 GPT-5 和 Claude 4 Opus 等型號一較高下。

(二)是否有針對開發者的 Grok 4?

Grok 4 有兩個版本,其中之一就是專為開發者設計。xAI 將這一版本稱為 Grok 4 Code,這個版本可以使用在工具如 Cursor 編碼編輯器內,協助代碼生成、自動補全、調試,甚至可以在代碼中找錯,目標是成為專業程序員和業餘愛好者的助手。

在上市早期的回饋中,Grok 4 Code 給出比一般 AI 編碼工具更聰明的建議,它似乎能更好地理解您的整個項目,提供結構和架構上的幫助,並可與(集成開發環境)IDE 進行更深的整合,包括現場文件編輯和優化建議。

(三)Grok 4 帶來哪些新功能?

Grok 4 在多模式功能方面取得重大進展,除了文本之外,它現在能夠理解圖片,並且即將支持影片。與頂尖的 GPT-4o 和 Gemini 2.5 Pro 設定相接近,不過,在圖像生成方面仍稍嫌遜色,特別相較於 Google 的 Imagen 3。

語音對話也在改進中,回應變得更自然和流暢。Grok 4 保留了它的特色功能:DeepSearch,讓它持續享有網路實時連接,尤其是 X 的內容。意味著使用者不需要離開應用或打開瀏覽器就能獲得實時新聞、市場數據或趨勢資訊。

Grok 4 另一個顯著特點是它對網絡文化的理解。它在識別 meme、笑話和網絡俚語方面比以往更出色,讓它在網絡氛圍中顯得更加活潑。

(四)Grok 4 的成本是多少?

xAI 同時推出了 Grok 4 和 Grok 4 Heavy,並推出了一個新的超高級計劃,稱為 SuperGrok Heavy,月費為 300 美元或每年 3,000 美元,成為主要供應商中最昂貴的 AI 訂閱服務。

這個方案提供使用者提前訪問 Grok 4 Heavy 以及即將推出的工具,包括 8 月發布的編碼模型、9 月的多模式代理和 10 月的視頻生成模型。Grok 4 支持 128K token 的上下文,和 GPT-4o Plus 和 Manus AI 類似,而 Claude 和 Gemini 的支持水平更高。

(五)Grok 4 có làm gì不起來?

儘管 Grok 4 在速度和智能上大有改善,但仍然缺少一些關鍵功能,限制了其作為日常 AI 工具的巔峰地位。無法記住過去的會話,意味著如果中途離開會話,必須重新解釋所有事情,這使得 Grok 無法在研究、編碼項目或需要持續性的任務中發揮更大作用。

此外,Grok 的整合性也是一大瓶頸,當前只能作為單獨的一個會話機器人使用,並無類似 ChatGPT 的外掛程式支持或內建 Gmail、Docs 等工具的聯動,對於需要在多平台間處理複雜工作流程的使用者而言,這是一大缺陷。

總的來看,Grok 4 是 xAI 對於 AI 領域的一次勇敢嘗試,充滿潛力和變革的可能性,未來是否能真正迎來人工智慧的新時代,還有待觀察。