Meta发布新AI模型，称其较Transformer更强大--零时古怪为您提供最新的热点新闻资讯

近日，Facebook母公司Meta方面发布了一款名为Megabyte的AI模型架构，并声称其解决了Transformer模型所面临的相关问题，在速度上提升了40%。据悉，目前市面上较为知名的生成式AI模型，例如OpenAI的GPT-4、Google的Bard等，均是基于Transformer打造。

对此Meta方面指出，由于设计中固有的两个重要缺陷，目前流行的Transformer模型可能正达到其阈值。据悉，Meta所指的Transformer架构的两个缺陷，分别是随着输入和输出字节长度的增加，自注意力的成本会迅速增加，例如输入的音乐、图像或视频文件通常包含数兆字节，而大型解码器 (LLM)目前通常只使用几千个上下文标记。以及前馈网络通过一系列数学运算和转换帮助语言模型理解和处理单词，但在每个位置的基础上难以实现可扩展性，这些网络独立地对字符组或位置进行操作，从而导致大量的计算开销。

为解决当前transformer模型对输入和输出的限制，MetaByte模型引入了一个被称为patch的新概念。据悉，MetaByte模型架构可将输入和输出序列划分为固定大小的patches、而不是单个token。据Meta方面透露，Megabyte可对超过一百万字节的序列进行端到端可微分建模，跨多种格式生成超过100万个token。

据悉，这种架构使得其对于大多数任务而言，字节级别的预测相对容易，例如根据前几个字符即可预测完成的单词等。这也就意味着在大型网络中可以精简字符以提升效率，并且内部预测可以使用更小的模型进行。

此外值得一提的是，在计算效率方面，相比于等大的Transformer和Linear Transformer，Megabyte在固定模型大小和序列长度范围内使用更少的token，也意味着其在相同的计算成本下可训练内容更丰富、体积更大、性能更好的模型。

【以上内容转自“三易生活网”，不代表本网站观点。如需转载请取得三易生活网许可，如有侵权请联系删除。】

	没有保单的碎屏“险”
	培训机构跑路没钱强执怎么办？
	为灵活就业者系上“安全带”
	世邦通信IPO前匆匆撤单
	医美纠纷事件频发法院提醒:选正规机构
	中国存款保险全额保障99%以上存款人
	数字平台消费者权益保护重在制度建设
	一品制药闯关创业板背后的三大疑问
	惊弓之鸟！经济衰退担忧升级，大宗商品暴跌
	买保险怎么避免烦心事？消保委人士有这些提醒

零时古怪 - 中国第一新闻资讯综合门户

Meta发布新AI模型，称其较Transformer更强大

相关推荐

没有保单的碎屏“险”

培训机构跑路没钱强执怎么办？

为灵活就业者系上“安全带”

世邦通信IPO前匆匆撤单

医美纠纷事件频发法院提醒:选正规机构

中国存款保险全额保障99%以上存款人

数字平台消费者权益保护重在制度建设

一品制药闯关创业板背后的三大疑问

惊弓之鸟！经济衰退担忧升级，大宗商品暴跌

买保险怎么避免烦心事？消保委人士有这些提醒

评论