Transformer的缺点不容忽视
12-12

Transformer的缺点亦不容忽视


然而,尽管Transformer具有诸多优势,但其缺点亦不容忽视。Transformer在处理长序列时具有二次方的时间和空间复杂度,即输入中的每个令牌都与其他每个令牌进行比较,两个令牌会有4次比较,三个令牌会有9次,四个令牌会有16次,依此类推。基本上,计算成本是令牌数量的平方,这意味着需要大量的计算资源。具体来看:


一是需要专门的硬件。大模型无法在普通计算机上高效运行。由于大模型的参数量非常大且结构十分复杂,通常需要大量的RAM来加载模型参数。并且,传统的CPU没有针对并行计算进行优化,运行的大模型可能需要几分钟才能生成一个令牌,这使得GPU成为更合适的选择。然而,GPU并不是最便宜或最容易获得的硬件。


二是输入长度有限。Transformer可以处理的文本量有限,也就是上下文长度。GPT-3最初只能处理2,048个令牌。注意力实施的进步产生了上下文长度高达100万令牌的模型。即便如此,找到每一个额外的上下文长度仍需要进行大量研究。


三是增加能源成本。支持Transformer架构计算的数据中心不仅依赖于大量的能源维持运行,还需要充足的水资源来实现有效冷却。据估计,训练GPT-3需要1300兆瓦时的电力。随着模型变大,所需的电力也在增加。另据科研机构Digiconomist的预测,到2027年,Al的用电量可能等同于荷兰一年的电力使用。


我们认为,Transformer无疑是推动Al领域创新发展的关键力量。尽管面临一些挑战,但随着技术的不断进步,这些问题有望逐步得到改善和解决。


总而言之,Transformer已经成为自然语言处理领域的一项重大突破,为技术进步开辟了新的途径。展望未来,我们有理由相信,Transformer将持续助力人工智能的蓬勃发展,并在更多领域展现出其潜力。


天津联才科技发展有限公司是一家为企业提供互联网系统技术方案和网站建设服务的企业。公司创立于2015年,主要为政府、国企、国内上市公司、国外公司提供专业的品牌服务和技术开发服务。

自2015年成立以来,我们一直在帮助企业实现具有影响力的、行业特定的品牌、官网及软件系统解决方案。我们为企业提供从需求分析、功能规划、交互设计、原型设计、系统运维的整体软件开发技术解决方案。 联才科技始终关注有前景的软件开发集成框架和培养经验丰富的技术开发团队,为我们的客户提供优异的互联网解决方案。

robot-handshake-human-background-futuristic-digital-age_53876-129770.jpg


更多新闻
Unite talent Unite talent Unite talent Unite talent Unite talent
您可以简单的选择
让我们知道您心里的想法!
  • 01
    网页视觉
    Web
    vision
    企业网站
    品牌官网
    电商详情
    其他服务
  • 02
    移动端UXD
    mobile
    uxd
    APP开发
    小程序开发
    微信公众号
    其他服务
  • 03
    品牌服务
    Brand
    Services
    品牌全案
    VI系统
    logo设计
    其他服务
  • 04
    系统开发
    System
    Development
    办公系统
    智慧物流
    GPS系统
    其他服务