xAI官方网站截图
据第一财经报道,Grok-1参数量远超OpenAI GPT-3.5的1750亿,是迄今参数量最大的开源大语言模型。
17日,马斯克还在社交平台上发文对OpenAI进行了嘲讽:“告诉我们更多关于OpenAI开放部分的信息。”
2023年11月,xAI官网发布文章,公布了Grok的详细进展。
文章称,Grok是一款仿照《银河系漫游指南》设计的AI,几乎可以回答任何问题,它甚至可以建议要问什么问题。“Grok回答问题时略带机智和叛逆,所以如果你讨厌幽默,请不要使用它”。
xAI官方网站截图
文章介绍说,Grok的一个独特且基本的优势是,它可以通过X平台实时了解世界。它还将回答被其它大多数AI系统拒绝的尖锐问题。
文章指出,Grok仍然是一个非常早期的测试版产品,是“我们在2个月的训练中所能做到的最好产品,期望在您的帮助下每周都能快速改进”。
文章表示,Grok-1的研发经历了四个月。期间,Grok-1经历了多次迭代。“宣布创立xAI后,我们训练了一个330亿参数的LLM原型(Grok-0)。这个早期模型在标准LM测试基准上接近LLaMA 2(70B)的能力,但只使用了一半的训练资源。在过去两个月里,我们在模型的推理和编码能力方面取得了显著进步,Grok-1终于诞生。”
文章称,这是一款功能更为强大的SOTA语言模型,在HumanEval编码任务中达到了63.2%,在MMLU中达到了73%。
为了了解对Grok-1所做的性能改进,xAI使用了一些旨在衡量数学和推理能力的标准机器学习基准,对其进行一系列评估。
同时,文章也指出,由于这些基准可以在网上找到,并且他们不能排除模型无意中进行了相应的训练。因此,他们在收集完数据集之后,根据去年5月底公布的2023年匈牙利全国高中数学期末考试题,对他们的模型(以及Claude-2和GPT-4模型)进行了人工评分。结果,Grok以C级(59%)通过考试,Claude-2也取得了类似的成绩(55%),而GPT-4则以68%的成绩获得了B级。文章称,他们没有为应对这个考试而特别准备或调整模型。