网站首页 资讯列表 热点列表 分享好友

微软和英伟达推出迄今为止训练最大最强的语言模型 MT-NLG

时间:2021-10-12 09:23来源:IT之家

10 月 12 日消息 语言模型(Language Model)简单来说就是一串词序列的概率分布,主要作用是为一个长度为 m 的文本确定一个概率分布 P,表示这段文本存在的可能性。

大家之前可能或多或少听说过 GPT-3,OpenAI 最新的语言模型,堪称地表最强语言模型,也被认为是革命性的人工智能模型。除此之外还有 BERT、Switch Transformer 等重量级产品,而且业内其他企业也在努力推出自家的模型。

微软和英伟达今天宣布了由 DeepSpeed 和 Megatron 驱动的 Megatron-Turing 自然语言生成模型(MT-NLG),这是迄今为止训练的最大和最强大的解码语言模型。

作为 Turing NLG 17B 和 Megatron-LM 的继任者,这个模型包括 5300 亿个参数,而且 MT-NLG 的参数数量是同类现有最大模型 GPT-3 的 3 倍,并在一系列广泛的自然语言任务中展示了无与伦比的准确性,例如:

完成预测

阅读理解

常识推理

自然语言推理

词义消歧

105 层、基于转换器的 MT-NLG 在零、单和少样本设置中改进了先前最先进的模型,并为两个模型规模的大规模语言模型设定了新标准和质量。

据悉,模型训练是在基于 NVIDIA DGX SuperPOD 的 Selene 超级计算机上以混合精度完成的,该超级计算机由 560 个 DGX A100 服务器提供支持,这些服务器以完整的胖树配置与 HDR InfiniBand 联网。每个 DGX A100 有 8 个 NVIDIA A100 80GB Tensor Core GPU,通过 NVlink 和 NVSwitch 相互完全连接。微软 Azure NDv4 云超级计算机使用了类似的参考架构。

第二季度营收利润双下滑 小米手机库存积压受关注
广州日报讯 (全媒体记者 许晓芳)近日,小米集团(下称“小米”)发布2022年二季度业绩。财报显示,今年第二季度营收701.7亿元

2022-08-22

7月底5G移动电话用户达47465万户 同比增长93.2%
中新网8月22日电 据工信部网站22日消息,7月底5G移动电话用户达47465万户,同比增长93.2%。另外,1-7月通信业电信业务总量98

2022-08-22

虚拟偶像想要破冰元宇宙 靠科技还是靠粉丝?
■本报记者 卫中“杨超越要发新歌了”——报道这个消息的不是文娱类媒体,而是科技类媒体。虚拟偶像超越AI的新曲《元宇

2022-08-22

机器人消费离普通家庭有多远?
本报记者 孙杰 鹿杨 实习记者 夏骅从能跳舞、会下棋的陪伴机器人,到能让残障人士“站起来”的外骨骼机器人,再到近期颇

2022-08-22

中国河套平原熟制鲜玉米首次走出国门出口加拿大
中新网呼和浩特8月20日电 (记者 李爱平)呼和浩特海关20日对外消息指,中国河套平原--内蒙古自治区巴彦淖尔市五原县首批400箱

2022-08-20

山西加快打造算力网络 布局先进计算产业新赛道
晋阳湖·数字经济发展峰会20日正在山西太原举行。主办方供图中新网太原8月20日电 (杨佩佩)晋阳湖·数字经济发展峰会20日正

2022-08-20

中国科技馆开展“专家走进展厅讲科技”志愿服务活动
8月16日,中国科技馆科普讲师团启动“专家走进展厅讲科技”志愿服务活动。首期邀请北京交通大学物理副教授、中国科技馆科普

2022-08-17

电信专题展可体验量子加密通话 展示万物智联“生活圈”
本报讯(实习记者 夏骅)发布5G专网PLUS2.0展示最新应用成果、感受自由视角和子弹时间等冬奥“黑科技”、体验量子加密通话……

2022-08-16

“绿色+智能”,家电消费升级了|网上中国
德意电器员工在位于浙江省杭州市萧山经济开发区的生产车间利用5G技术对新款油烟机配件进行视觉检测。龙 巍摄(人民图片)徐 骏作(

2022-08-15

网信办公示互联网信息服务算法备案信息:抖音、淘宝等算法原理公开
今天下午,根据《互联网信息服务算法推荐管理规定》,国家网信办公开发布了境内互联网信息服务算法名称及备案编号。相关企业

2022-08-12