“干翻”GPT-3,Meta 用开源发起攻势
大型语言模型,即具有超过 1000 亿个参数的自然语言处理(NLP)系统,在过去几年中改变了 NLP 和 AI 研究。这些模型经过大量文本训练,在生成创意文本、解决数学问题、回答阅读理解等方面表现出令人惊讶的能力。然而,这样的模型通常要经过几十万个计算日的训练,因此在没有大量资金的情况下难以复制。2020年,OpenAI发布了具有1750亿参数的预训练模型,横扫文本生成领域。但“美中不足”的是一直
整理 | 彭慧中 责编 | 屠敏
出品 | CSDN(ID:CSDNnews)
大型语言模型,即具有超过 1000 亿个参数的自然语言处理(NLP)系统,在过去几年中改变了 NLP 和 AI 研究。这些模型经过大量文本训练,在生成创意文本、解决数学问题、回答阅读理解等方面表现出令人惊讶的能力。然而,这样的模型通常要经过几十万个计算日的训练,因此在没有大量资金的情况下难以复制。
2020年,OpenAI发布了具有1750亿参数的预训练模型,横扫文本生成领域。但“美中不足”的是一直没有开源,代码和模型看着眼馋,却到不了嘴边,只通过其申请及审核程序提供给学术界和商业实体使用。
最近,Meta AI实验室高调宣布,开源了能挑战GPT-3的语言模型Open Pretrained Transformer(OPT-175B)(https://github.com/facebookresearch/metaseq/tree/main/projects/OPT)。它由5个公开数据集的800GB的数据训练而成,还使用了能比拟GPT-3的1750亿个参数。然而,这个模型大小却比GPT-3小,仅为125M到175B。在人工智能圈,这算得上是一个里程碑事件。即使是在大语言模型历史上,这也是第一次毫无保留,把预训练模型、训练代码以及使用代码全部公开。
论文地址:https://arxiv.org/pdf/2205.01068.pdf
除了公开发布了模型及所有实验代码外,Meta还公开了他们的日志,日志包含团队成员对于数据训练的每日更新:如何将其添加到模型中,以及何时、哪些有效、哪些无效。在100多页的笔记中,研究人员记录了从2021年10月到2022年1月不间断运行的三个月训练过程中的每个错误、崩溃和重启。之所以共享这个模型,Meta AI希望更多的社区参与理解关于大模型的基本技术。
**“我相信建立信任的唯一方法是极度透明。”**Meta AI 的常务董事乔尔·皮诺(Joelle Pineau)说。自2017年加入Meta(当时的Facebook)以来,皮诺一直在推动人工智能研发过程的透明化。在核心学术会议发表研究的方式上,皮诺要求研究人员必须将包括代码和有关如何进行实验的详细信息与结果一起提交。她在其人工智能实验室一直倡导这种文化。
除此之外,Meta还很重视“环保”问题。人工智能的研究消耗了大量的计算能力。虽然行业实验室已经开始报告这些模型的碳足迹,但大多数不包括与实验研发阶段相关的计算成本,在某些情况下,研发阶段可能比训练最终模型更耗费一个数量级的资源。因此,Meta在开发OPT-175B时还考虑到了能源效率,在成功地训练了这种规模的模型的前提下,其碳足迹仅为GPT-3的1/7。
未来,Meta AI希望OPT-175B能够借助社区的力量,为大语言模型创建的前沿带来更多声音,也为该领域的大语言模型开发增加前所未有的透明度和开放性。
参考链接:
https://www.solidot.org/story?sid=71456
https://cloud.tencent.com/developer/article/1991424
https://www.sohu.com/a/544878024_473283
更多推荐
所有评论(0)