挖矿下一步:去中心化算力的现状与展望,有哪些潜力项目?

-

伴随 AI 等领域的发展,许多行业会从底层逻辑上实现巨大变革,算力会上升到更重要的地位,与之关联的各个方面也都会引起行业的广泛探索,去中心化算力网路有其自身优势,可降低中心化风险,同时也能作为中心化算力的一种补足。
(前情提要:萨尔瓦多推首座「熔岩比特币矿池」,目标BTC算力成全球前15大 )
(背景补充:比特币挖矿的未来:矿池是最後大问题吗? )

本文目录

需求中的算力

自 2009 年《阿凡达》上映,以无与伦比的真实画面掀开 3D 电影第一役,Weta Digital 作为其背後的巨大功臣贡献了整部电影的视效渲染工作。在它纽西兰的占地 10000 平方英尺的伺服器农场里,它的电脑群每天处理高达 140 万个任务,每秒处理 8GB 的资料,即使这样也接连持续运行了超过 1 个月,才完成所有的渲染工作。

大规模的机器呼叫和成本投入,《阿凡达》成就电影史上的卓着功勳。

同年 1 月 3 日,中本聪在芬兰赫尔辛基的一个小型伺服器上挖出了比特币的创世区块,并获得了 50 BTC 的出块奖励。自加密货币诞生第一天起,算力一直在行业扮演非常重要的角色。

The longest chain not only serves as proof of the sequence of events witnessed, but proof that it came from the largest pool of CPU power.

—— Bitcoin Whitepaper

在 PoW 共识机制的大背景下,算力的付出为链的安全性提供保障。同时,持续走高的 Hashrate 也能佐证矿工的算力上的持续投入和积极的收入预期。行业对算力的真实需求,也极大推动了晶片厂商的发展。

矿机晶片经历了 CPU、GPU、FPGA、ASIC 等发展阶段。目前,比特币矿机通常是基於 ASIC(Application Specific Ingrated Circuit)技术的晶片能高效地执行特定的演算法,如 SHA-256。比特币带来的巨大经济效益,也拉动着相关挖矿的算力需求一并走高,但过於专用化的装置和丛集效应,使得本身参与者发生虹吸效应,无论是矿工或矿机制造商,都呈现资本密集型的集中发展趋势。

而随着以太坊的智慧合约问世,随着它的可程式设计性、可组合性等特点,形成了广泛的应用,特别是在 DeFi 领域的运用,使得 ETH 的价格一路看涨,而还处於 PoW 共识阶段的以太坊其挖矿难度也一路走高。

矿工对以太坊矿机的算力要求也与日俱增,但以太坊与比特币使用 ASIC 晶片不同,则需要使用图形处理器(GPU)来进行挖矿计算,如 Nvidia RTX 系列等。这样它更适合通用计算硬体来参与,这甚至一度引发了,市场对於 GPU 的争抢而导致市面上高阶的显示卡一度断货的局面。

延伸阅读:Nvidia的AI晶片H100有多神?为何一片难求?

而当时间来到 2022 年 11 月 30 日,由 OpenAI 研发的 ChatGPT 同样是展示了 AI 领域划时代的意义,使用者惊叹於 ChatGPT 带来的全新体验,能如同真人一般,基於上下文完成使用者提出的各种要求。而在今年 9 月推出的新版本中,加入了语音、影象等多模态特徵的生成式 AI 又将使用者体验带到了更新的阶段。

但与之对应的是 GPT4 有超过兆级的引数参与模型预训练以及後续微调。这是 AI 领域对算力需求最大的两个部分。在预训练阶段,通过学习大量的文字来掌握语言模式、语法和关联上下文。使其能够理解语言规律,从而根据输入生成连贯且上下文相关的文字。预训练之後,再对 GPT4 进行微调,以便於更好地适应特定型别的内容或风格,提升特定需求场景的效能和专业化。

由於 GPT 采用的 Transformer 架构,引入自注意力机制(Self-attention),这种机制使得模型能在处理输入的序列时,同时关注序列中不同部分之间的关系,因而对算力需求急剧增长,特别是在处理长序列是需要大量平行计算和储存大量注意力分数,因而也需要大量的记忆体和高速的资料传输能力。

目前主流的同架构 LLM 对於高效能 GPU 的需求巨大,这也表明 AI 大模型领域投入成本巨大。根据相关 SemiAnalysis 的推测估计 GPT4 一次模型训练成本高达 6300 万美金。而为实现良好的互动体验,GPT4 在日常运营中亦需要投入大量的算力来维持其日常运营。

延伸阅读:OpenAI创办人:GPT-5在路上!望微软加码更多资金推进通用人工智慧(AGI)

算力硬体分类

这里我们要来理解一下目前主要的算力硬体型别,CPU、GPU、FPGA、ASIC 分别能处理怎样算力需求场景。

・从 CPU 和 GPU 的架构示意图上,GPU 包含更多核心,它们使得 GPU 可同时处理多个计算任务,平行计算的处理能力更强,适用於处理大量计算任务,因此在机器学习和深度学习领域得到了广泛的应用。

而 CPU 的核心数量较少,适合处理更集中地处理单个复杂计算或序列任务,但在处理平行计算任务时不如 GPU 高效。在渲染任务和神经网路计算任务中,通常需要处理大量重复计算和平行计算,因此 GPU 比 CPU 在这个方面会更高效且适用。

・FPGA(Field Programmable Gate Array)现场可程式设计逻辑闸阵列,是作为专用积体电路(ASIC)领域中的一种半订制电路。由大量小型处理单元组成的阵列,FPGA 可以理解为可程式设计的数位逻辑电路整合晶片。目前的运用主要集中在硬体加速,其他任务仍然在 CPU 上完成,让 FPGA 和 CPU 协同工作。

・ASIC(Application Specific Integrated Circuit)专用积体电路,是指应特定使用者要求和特定电子系统的需要而设计的积体电路。ASIC 在批量生产时与通用积体电路相比具有体积更小、功耗更低、可靠性提高、效能提高、保密性增强、成本降低等优点。

因而在比特币挖矿的固有场景下,只需要执行特定的计算任务,ASIC 则是最契合的。Google 也推出了针对机器学习专门设计的 TPU(Tensor Processing Unit)作为 ASIC 的一种,但目前主要通过 Google Cloud 提供算力租用服务。

・ASIC 和 FPGA 相比,ASIC 是专用积体电路,一旦设计完成後积体电路即固定。而 FPGA 是在阵列内整合大量数位电路基本闸电路和储存器,开发人员可以通过烧写 FPGA 配置来定义电路,并且这种烧写是可更换的。但就当下的 AI 领域的更新速度,订制化或半订制化的晶片,无法及时通过调整重新配置来执行不同的任务或适应新演算法。因而,GPU 的普遍的适应性和灵活性,使其在 AI 领域大放异彩。

各大 GPU 厂商就 AI 领域也对 GPU 在 AI 领域的适配做了相关优化。以 Nvidia 为例,推出了专为深度学习设计的 Tesla 系列和 Ampere 架构 GPU,这些硬体包含针对机器学习和深度学习计算优化的硬体单元(Tensor Cores),这使得 GPU 能够以更高的效率和更低的能耗执行神经网路的前向和反向传播。此外也提供了广泛的工具和库来支援 AI 开发,如 CUDA(Compute Unified Device Architecture)来帮助开发人员利用 GPU 进行通用平行计算。

去中心化算力

去中心化算力是指通过分散式计算资源提供处理能力的方式。这种去中心化的方法通常结合区块链技术或类似的分散式帐本技术,将闲置的计算资源汇集并分发给需要的使用者,以实现资源共享、交易和管理。

产生背景

延伸阅读:Microsoft|微软与商用区块链 Lition 合作,导入旗下「云端服务平台 Azure」

那麽在面对高昂的硬体成本、地域限制、产业发展不均衡的情况,是否有其他解决方案?

去中心化算力平台则应运而生,平台的目的是建立一个开放、透明且自我调节的市场来更有效地利用全球计算资源。

适应性分析

1. 去中心化算力供给侧

目前高昂的硬体价格和供给侧的人为控制,都给去中心化算力网路的建设提供了土壤。

2. 去中心化算力需求侧

延伸阅读:单月销毁约27万枚RNDR,分散式渲染网路Render Network未来如何?

不同领域的应用 1. 数位媒体处理

Render Network 一个基於区块链的全球渲染平台,其目标是为创作者数位创意提供帮助。它允许创作者按需将 GPU 渲染工作扩展到全球 GPU 节点,提供了以一种更为高速且便宜的渲染工作能力,在创作者确认过渲染结果後,再由区块链网路向节点发送代币奖励。

相比传统的视觉效果实现方法,在本地建立渲染基础设施或在购置的云服务中增加相应的 GPU 开支,这都需要高昂的前期投入。

自 2017 年创立以来,Render Network 使用者在网路上渲染了超过 1600 万帧和近 50 万个场景。从 Render Network 2023 Q2 释出资料也能表明,渲染帧数作业和活跃节点数都呈增长的趋势。

此外,Render Network 与 2023 Q1 也推出了原生整合 Stability AI 工具集,使用者可以的该项功能引入 Stable Diffusion 作业,业务也不再局限於渲染作业而向 AI 领域扩充套件。

Livepeer 则是通过网路参与者贡献自己的 GPU 算力和频宽,为创作者提供即时视讯转码服务。广播者可以通过将影片传送至 Livepeer,完成各类视讯转码,并向各类端侧使用者分发,进而实现视讯内容的传播。同时,可以便捷地通过法币形式支付,获得影片转码、传输、储存等服务。

在 Livepeer 网路中,任何人都允许贡献个人电脑资源(CPU、GPU 和频宽)以进行转码和分发视讯来赚取费用。 原生代币(LPT)则代表了网路参与者在网路中的权益,通过质押代币的数量,决定节点在网路中的权重,从而影响其获得转码任务的机会。同时,LPT 也起到了引导节点安全、可靠、快速地完成分派的任务。

延伸阅读:三天狂飙200%!LPT合约交易量冲至币安第一、恐怖资金费率-2000%

2. AI 领域的扩展

在目前 AI 领域的生态系统中,主要参与者大致可以划分成:

从需求方入手,在产业的不同阶段,对算力的诉求是有明显区别的。以底层模型开发为例,在预训练环节为确保训练结果的有效对平行计算、储存、通讯等方面要求都非常高,这就需要通过大型的算力丛集来完成相关的任务。当下主要算力供给主要还是依赖自建机房、中心化的云服务平台来集中提供。而在後续模型微调、即时推理和应用开发等环节则对平行计算、节点间通讯的要求没有那麽高,这恰恰是去中心化算力能一展拳脚的部分。

纵观此前已颇具的声量的专案, Akash Nework 在去中心化算力方向做了一些尝试:

Akash Network 结合不同的技术元件,让使用者可以在去中心化的云环境中高效、灵活地部署和管理应用程式。使用者可以利用 Docker 容器技术打包应用,然後通过 Kubernetes 在 Akash 提供的云资源上通过 CloudMOS 进行部署和扩展。Akash 采用 「反向拍卖」 的方式,这使得价格比传统云服务更低。

Akash Network 在今年 8 月也释出将推出了主网第 6 次升级,将对 GPU 的支援纳入其云服务中,未来向更多 AI 团队提供算力供给。

Gensyn.ai ,今年颇受行业瞩目的专案由 a16z 领投完成了 4300 万美元 A 轮融资,就目前公布专案公布的文件来看, 该专案是一个主网基於波卡网路的 L1 PoS 协议,聚焦於深度学习,它旨在通过建立一个全球性的超级计算丛集网路来推动机器学习的边界。这个网路连线了从拥有算力富余的资料中心到潜在可贡献个人 GPU 的 PC,订制的 ASIC 和 SoC 等多种装置。

延伸阅读:解读Gensyn区块链AI计算协议:a16z领投,超5000万美元钜额融资

为解决的目前去中心化算力中存在的一些问题,Gensyn 借监了学术界的一些理论研究新成果:

  1. 采用概率学习证明,即使用基於梯度的优化过程的元资料来构建相关任务执行的证明,来加快验证过程;
  2. 图形基准协议(Graph-based Pinpoint Protocol),GPP 作为一个桥梁,连线了 DNN(Deep Neural Network)的离线执行与区块链上的智慧合约框架,解决了跨硬体装置间容易发生的不一致性,并确保了验证的一贯性。
  3. 与 Truebit 类似的激励方式,通过质押和惩罚相结合的方式,建立一个能让经济理性参与者能诚实地执行分派的任务。该机制采用了密码学和博弈论方法。这个验证系统对於维持大型模型训练计算的完整性和可靠性。

但值得注意的是以上内容更多的是解决任务完成验证层面,而非在专案文件中作为主要亮点讲述的关於去中心化算力来实现模型训练方面的功能,特别是关於平行计算和分散式硬体间通讯、同步等问题的优化。当前受网路延迟(Latency)和频宽(Bandwidth)的影响,频繁的节点间通讯会使得迭代时间和通讯成本都发生增长,这不仅不会带来实际的优化,相反会降低训练效率。Gensyn 在模型训练中处理节点通讯和平行计算的方法可能涉及复杂的协调协议,以管理计算的分散式性质。然而,如果没有更详细的技术资讯或对他们具体方法的更深入了解,Gensyn 通过其网路实现大型模型训练的确切机制需要等专案上线才能真正揭晓。

我们还关注到 Edge Matrix Computing (EMC) protocol 它通过区块链技术将算力运用至 AI、渲染、科研、AI 电商接入等型别的场景,通过弹性计算把任务分发到不同的算力节点。这种方法不仅提高了算力的使用效率,还确保了资料传输的安全性。同时,它提供了一个算力市场,使用者可以访问和交换计算资源。方便开发者部署,更快地触达使用者。结合 Web3 的经济形式,也能使算力提供方在根据使用者的实际使用情况获取真实收益和协议方补贴,AI 开发者也获得更低的推理和渲染成本。以下是其主要组成部分和功能的概述:

预期还将推出了基於 GPU 的 RWA 类产品,此项的关键在於将原本在机房固定住的硬体盘活,以 RWA 的形式分割流通,获得额外的资金流动性,高品质 GPU 能作为 RWA 底层资产的原因在於,算力可以算得上 AI 领域的硬通货,目前有明显的供需矛盾,且该矛盾并不能在短期内解决,因而 GPU 的价格相对比较稳定。

此外,通过部署 IDC 机房实现算力丛集也是 EMC protocol 会重点布局的部分,这不仅能让 GPU 在统一环境下的运转,更高效地处理相关大型算力消耗的任务,如模型的预训练,由此来匹配专业使用者的需求。同时,IDC 机房也能集中托管和执行大量的 GPU,确保同类型高质量硬体的技术规格,方便将其打包作为 RWA 产品推向市场,开启 DeFi 新思路。

近年学界在边缘计算领域也有新的技术理论发展和应用实践。边缘计算作为云端计算的一种补充和优化,一部分的人工智慧正在加快速度从云端走向边缘,进入到越来越小的物联网装置中。而这些物联网装置往往体积很小,为此轻量机器学习受到青睐,以满足功耗、延时以及精度等问题。

Network3 是通过构建了一个专门的 AI Layer2,通过 AI 模型演算法优化和压缩,联邦学习,边缘计算和隐私计算,为全球范围内的 AI 开发者提供服务,帮助他们快速、便捷、高效地训练或者验证模型。

它通过利用大量智慧物联网硬体装置,可聚焦小模型,来做相应的算力供给,且通过构建 TEE(Trusted Execution Environment)能让使用者仅通过上传模型梯度,来完成相关训练,确保使用者相关资料隐私安全。

综上📍相关报导📍

挖矿收益翻8倍!Conflux一夜飙涨211%,$CFX成GPU矿工首选

Nvidia黄仁勳搞革命「GPU效能5年千倍」,亮相AI超级电脑、晶片:打破摩尔定律

Nvidia的GPU晶片宝座,还能坐多久?

panews

最新趋势

0 0 投票数
Article Rating
订阅评论
提醒
guest
0 Comments
内联反馈
查看所有评论

Recent comments

0
希望看到您的想法,请您发表评论x