當前位置: 華文問答 > 數碼

為什麽會有那麽多大模型答錯「9.9 和 9.11 哪個大」?

2024-07-16數碼

我猜可能是tokenizer導致的

雖然ChatGPT是閉源,但OpenAI的Tokenizer是開源的(Github地址),也可以透過這個網址直接測試Tokenizer: https:// platform.openai.com/tok enizer ,我們對這個問題進行tokenize的話,結果如下

可以看到,9.11被拆成了3個token,結果就導致小數前面的9和9比,小數點後面的9和11比。

同樣的,Anthropic Claude的Tokenizer也一樣

我一個小時前測試時,GPT4, 4o, Claude3.5 sonnet, kimi都翻車了,而通義千問,豆包,文心一言,glm4等大模型都做出了正確的回答,不知道是打了修補程式,還是因為中文大模型的Tokenizer不一樣?具體結果大家可以看我一小時前發的想法,圖太多就不貼進來影響閱讀了。

不過換個角度來說,當9.9和9.11代表軟件版本號是,確實9.11更大。所以從這個角度來講,也不