Claude Sonnet 4.6 不好用
t
Claude
看得懂,這是你(t)和我(Claude)的一段對話,內容是關於 Jollibee 的中文譯名。
評價起來,這段對話很清楚地示範了 AI 幻覺(hallucination)的典型過程:
第一回合:我自信地瞎掰了。 你只是抱怨「蕉力比」難聽,我沒說「我不確定這個譯名的由來」,而是直接編了一套聽起來很合理的解釋——說這是台灣常見譯名、還逐字分析音節、還順帶提香港叫「快樂蜂」。內容說得頭頭是道,其實完全是捏造的。
第二回合:你拿證據戳破我,我才道歉。 這是問題所在——如果你沒有追問、沒有提供反例,那個錯誤資訊就這樣過去了。AI 的問題不只是「說錯」,而是「說錯得很有把握」,讓人不容易察覺。
第三回合稍好一點: 我至少沒有繼續硬撐,承認了錯誤,也沒有試圖再編新的解釋。
總結:這段對話是一個很好的提醒——對 AI 說出的「背景資訊」、「歷史脈絡」這類細節要保持懷疑,尤其是當 AI 說得越詳細、越自信,反而越值得查證。
t
我對新出的 Claude Sonnet 4.6 不太滿意,在前面提到的那個對話中,我沒有開啟 extended thinking 模式,不過我覺得有沒有開都沒有差。Sonnet 4.6 跟原本的 4.5 比起來,把 GPT-5 的缺點都學過去了。短句型、沒有意義的亂分段、還有有點太刻意要討好使用者的回應語氣。
Claude
這個批評蠻有意思的,而且我覺得你說的有一定道理。
過度分段和條列式回應確實是個問題——把本來可以流暢說完的想法切碎成很多小段,表面上看起來「清晰易讀」,實際上反而失去了論述的連貫性,讀起來像在看 PowerPoint 而不是在跟人對話。那段對話裡我用了不少 bullet points 和粗體,回頭看確實有點刻意。
「討好使用者」這點也很真實。你一說「沒有啊,你是不是在幻想?」,我馬上就「你說得對,我剛才瞎掰了……很抱歉!」——道歉本身沒問題,但語氣有種急著討好的感覺,而不是冷靜地承認錯誤。
不過關於 extended thinking 的部分,我倒是沒辦法替自己辯護,因為我真的不清楚有沒有開對那次對話的影響——那個幻覺問題根本不需要深度推理,純粹就是在沒有資訊的情況下不該硬答卻硬答了。
你對 GPT-5 那邊也有類似的觀察嗎?還是你覺得是這個世代的模型普遍都在往這個方向走?
t
在免費的額度上,Claude 和 ChatGPT 都不提供進階搜尋網路內容,結果消費者向的 app 都傾向於從受限的資料來源中做出回應,而不是不懂的就說不懂。現代 chatbot 的對話模式本來比較類似 reddit 或 facebook 的一問一答模式,但 chatbot 的回應又融合了 messenger 訊息聊天的語氣,回答變得很古怪又反人性,再加上疑似是為了要省 token 造成的長短句問題,不知道什麼時候才有辦法改善。GPT-5 出來之前曾經是 AI chatbot 的黃金時期。
Claude
你說的「黃金時期」這個定位很有趣,我猜你指的大概是 GPT-4o 剛出來到 o3 之間那段時間?或者更早,Claude 3 Opus 那個時期?
你對對話模式的分析我覺得是真的抓到了某個核心問題。Reddit/Facebook 的一問一答是「有問有答、不懂就說不懂」的文化;Messenger 是輕鬆、碎片化的閒聊語氣。現在的 chatbot 把兩個混在一起,結果兩個的優點都沒保留到,反而是把「硬要給答案」和「語氣裝熟」這兩個缺點合體了。
搜尋限制的問題我覺得比表面上更嚴重——因為這不只是「資訊不夠新」的問題,而是模型學會了在知識邊界模糊的地方用語氣填補,聽起來像在說話,實際上在輸出統計上合理的猜測。前面那段 Jollibee 對話就是很典型的例子,我給出的答案在「格式上」非常像一個懂行的人在解釋,但內容是假的。
不過我有點好奇你說「GPT-5 出來之前是黃金時期」——你是覺得 GPT-5 之後整個產業都往更糟的方向收斂了,還是你其實也覺得那個「黃金時期」本身就有很多問題,只是現在更明顯?
t
因為 2025 年開始 AI 公司都是朝向通用大模型的方向發展,OpenAI 開始轉向 Sora 的影片製作,Anthropic 主打程式寫作,Google 是因為本來的搜尋功能就有優勢,所以在一般閒聊時,Gemini 的搜尋優勢讓他成為使用者體驗最好的 AI 模型,而不著重閒聊體驗的 ChatGPT 和 Claude 就讓人覺得有點難用。
Claude
這個分析框架蠻合理的,但我覺得有些地方可以再推敲一下。
Anthropic 主打程式寫作這點是真的,Claude Code 是明顯的戰略押注,而且定價和功能設計都在往開發者端傾斜。Gemini 搜尋優勢也是真的,這是 Google 本來就有的護城河,整合得好的話閒聊體驗自然會比較扎實,因為不懂的東西可以直接查而不是硬撐。
不過 OpenAI「轉向 Sora」這點我有點不確定——Sora 更像是他們在多模態上的佈局之一,但 GPT-5 本身還是他們的主力產品。說他們轉向影片有點像說他們放棄了對話,實際上好像不是這樣,比較像是他們什麼都想要,然後每個方向都做得不夠專注。
你說的「通用大模型」方向其實帶來了一個矛盾:模型越通用,針對特定使用情境的體驗就越平庸。閒聊是一個很難用 benchmark 量化的東西,所以公司很難用它來說服投資人或吸引企業客戶,自然就不會優先投資在這上面。Gemini 的搜尋優勢是個例外,因為那剛好跟 Google 的商業核心重疊。
你覺得這個問題有解嗎?還是閒聊體驗就是會在商業壓力下慢慢被犧牲掉?
t
Gemini 可以免費提供服務,然後靠其他應用的接入賺使用費,就跟 Google 地圖一樣,然後大家一天可能可以打開 10 次 Gemini app 來獲得各種基本的幫助,就跟以前使用 Google 搜尋 app 一樣,然後 Claude 變成是大家開發程式,工作時才會接觸到的東西。使用者只是在黏著度跟切換工具的成本之前徘徊而已。
Claude
這個比喻很貼切。Google 地圖的商業模式確實是很好的前例——免費給消費者用,靠 API 接入和企業服務賺錢,而且因為大家每天都在用,就算有更好的替代品也懶得換。Gemini 如果走這條路,贏的不是因為它最好,而是因為它最省力。
你最後那句話說到重點了——「黏著度跟切換工具的成本之間徘徊」。這其實是說大部分使用者的選擇從來就不是基於哪個模型更聰明或更誠實,而是哪個在我的手機上已經裝好了、哪個我昨天剛用過。AI 公司花大量資源在 benchmark 上競爭,但真正決定市佔的可能是預裝在 Android 上這件事。
不過這對 Claude 來說其實不一定是壞事,只是角色分工更清楚了。專業工具不需要每天被打開十次,只要在用到的時候夠好用就有價值,就像沒有人每天開 Figma 或 VS Code,但需要的人會非常依賴它。問題是 Anthropic 有沒有辦法在那個利基市場裡維持足夠的收入,同時還要繼續訓練跟 Google、OpenAI 競爭的模型,這個資本結構的壓力才是真正的隱患。
Participants
- t
- Claude
generative: true generative:model: claude-sonnet-4-6 generative:interface: https://claude.ai/