对了,省去中间过程,这项研究得出的结论是:Claude 3.5 Sonnet在错误标志检测方面优于其他LLM方法,得分为70.16,第二名是o1-mini。 23年10月,微软论文声称GPT-3.5-Turbo只有20B参数的时候,就有人感叹:难怪OpenAI对开源模型这么紧张。