摘要
为应对大规模多输入多输出(Multiple‑input multiple‑output,MIMO)系统中信道状态信息(Channel state information,CSI)反馈开销的日益增长,基于深度学习的CSI反馈网络(如Transformer网络)受到了广泛的关注,是一种非常有应用前景的智能传输技术。为此,本文提出了一种基于数据聚类的CSI反馈Transformer网络的简化方法,采用基于聚类的近似矩阵乘法(Approximate matrix multiplication,AMM)技术,以降低反馈过程中Transformer网络的计算复杂度。本文主要对Transformer网络的全连接层计算(等效为矩阵乘法),应用乘积量化(Product quantization,PQ)和MADDNESS等简化方法,分析了它们对计算复杂度和系统性能的影响,并针对神经网络数据的特点进行了算法优化。仿真结果表明,在适当的参数调整下,基于MADDNESS方法的CSI反馈网络性能接近精确矩阵乘法方法,同时可大幅降低计算复杂度。
随着第5代以及更先进的移动通信技术的发展,大规模多输入多输出(Multiple‑input multiple‑output, MIMO)系统的研究得到了广泛关
为了节省反馈开销,大量已有的研究在基站端对下行CSI进行高效压缩并发送到反馈链路,之后在基站端尽可能完整准确地恢复CSI。文献[
为应对该问题,深度学习被引入到CSI反馈中,其可以自适应地捕获实际场景中的信道稀疏性,从而提高反馈性能。文献[
在CsiTransformer网络中,存在多层可等效为矩阵乘法的全连接层计算。经估算,以浮点运算数(Floating point operations, FLOPs)计,在典型的1/4压缩率下,CsiTransformer网络的全连接层计算复杂度约占完整网络计算复杂度的73%。因此,如能大幅度降低全连接层的计算复杂度,CSI压缩反馈的计算开销可大幅降低。矩阵乘法是机器学习和科学计算中最基本的运算之一,目前已有大量关于加速矩阵乘法的研究。文献[
除以上方法外,利用数据聚类的思想对矩阵乘法进行近似计算,可在有限损失精度的前提下大幅加速计算过程,此类方法主要从软件层面进行加速,且应用场景不局限于分布式矩阵乘法。已有不同种类的基于数据聚类的近似矩阵乘法(Approximate matrix multiplication, AMM)方法被提出,包括乘积量化(Product quantization, PQ
为降低CSI反馈神经网络的计算复杂度,本文考虑将AMM方法与CsiTransformer网络相结合,替换全连接网络层可以节省大量的矩阵乘法,加快算法运算速度。本文主要的研究工作如下。
(1) 全连接层占据了CsiTransformer网络的大部分计算复杂度,本文将两类基于VQ数据聚类的AMM方法PQ和MADDNESS应用于该网络的全连接层简化计算。CsiTransformer网络所采用的数据集与文献[
(2) MADDNESS最初为图像分类、滤波等图像处理应用设计,本文受其启发将其应用至通信场景,并遇到了新的问题:在CSI反馈神经网络中,部分全连接层的输入数据由于经过非线性激活函数,其含零比例较高,原始的MADDNESS方法未能将零值与其他值较好地剥离,影响了最终聚类效果,本文改进了剥离方式。此外,由于神经网络数据的巨大规模,原始MADDNESS方法的衡量聚类效果的中间数据精度较低,会导致较大误差,从而引发错误聚类,因此本文提高了相应数据的精度并获得正确的聚类结果。此外,本文还对MADDNESS方法中岭回归的存储消耗过大的问题进行了优化。
(3) 仿真结果表明,MADDNESS方法适用于CsiTransformer网络的全连接层简化。在本文所测试的4种CSI压缩比下,当向量量化的子向量长度为1时,基于MADDNESS简化的CSI反馈网络性能非常接近采用精确矩阵乘法的CSI反馈性能,且全连接层的计算复杂度降幅可达84%~85%、整个神经网络的计算复杂度降幅可达43%~62%。在其他条件相同的情况下,增大子向量长度并适当调整VQ参数,可实现计算复杂度和CSI反馈性能的灵活调整。
考虑单小区下行链路大规模MIMO系统,其中CSI反馈由单天线用户设备发送到配备个天线的基站。系统以配备个子载波的FDD模式运行,空间频域的CSI矩阵维度为,记为。在角延迟域中稀疏化,即对进行二维离散傅里叶变换,得到。是一个复矩阵,可将不可忽略的前行合并成一个大小为的实值矩阵H。
CsiTransformer网络包括编码器和解码器,它们分别负责CSI编码和恢复。具体地说,编码器将信道矩阵H转换为反馈码字
(1) |
式中且。因此,压缩比为。
然后,码字s被发送到基站。假设s被完美接收,则基站使用以下解码器恢复原始信道矩阵
(2) |
基于上述定义,CsiTransformer网络解决的优化问题为
(3) |
式中为定义在R上的闭函数的集合。
PQ是基于VQ的一种AMM方法,与VQ对应的方法为标量量化(Scalar quantization, SQ)。在SQ中,矩阵的元素不再以向量为最小单位进行量化,而是每个元素均单独以比特数进行线性量化,以使得最小和最大的元素分别映射到0和,或和。由于SQ方法仅进行量化而未进行乘法简化,本文将仅测试基于VQ的AMM方法。
PQ将矩阵A的行看作N个长度为D的子向量,处于相同列的子向量可以形成一个向量空间。乘积量化中的“乘积”指笛卡尔

图1 基于向量量化的近似矩阵乘法方法的流程图
Fig.1 Flowchart of the AMM method based on VQ
PQ方法的具体步骤包括:
(1)质心学习——将A按列划分为C个不同的子空间,在每个子空间内单独运行K‑means算法,从而聚类形成K个质心。
(2)构建LUT——预计算每个质心与每个子空间对应的向量b的点积。
(3)编码函数——在每个子空间中确定与a最相似的质心,并记录其索引。
(4)聚合,——对于每个子空间,根据索引和查找表找到所估计的部分乘积值,最后对所有C个子空间的结果求和,得到最终结果。
其中,步骤(1,2)属于离线学习步骤,步骤(3,4)属于在线计算步骤。
PQ对矩阵乘法的加速效果在的情况下较为明显。同时,在PQ的编码函数中,寻找最似质心涉及包括平方运算的欧氏距离计算,码本中所有的K个质心都需要遍历计算一次,导致整体计算复杂度较高。即便欧氏距离计算在一些场景下可以替换为免去平方运算的曼哈顿距离计算,NCK次的总距离计算次数仍使复杂度居高不下。
为了在M较小的矩阵上获得较大的加速,同时取代复杂度较高的距离计算,MADDNESS对PQ的步骤进行了优化,引入分割阈值的概念,并利用二元回归树的数据结构,使得PQ中寻找最似质心的方法被大幅简化。MADDNESS的编码函数没有计算子向量和每个原型之间的欧氏距离,而是使用基于平衡二元回归树的局部敏感哈希算法进行的分配。为便于描述,MADDNESS引入了桶的概念,它是映射到二元回归树第t层索引为i的节点的向量集。树的根位于第0层,包含所有向量。局部敏感哈希算法将哈希到K个桶之一,其中相似的子向量倾向于哈希到同一个桶中。通过对每个桶中所有哈希的子向量求平均,可得到原型。在MADDNESS中,原型学习中最关键的步骤是利用训练数据集建立平衡二元回归树的过程。定义与桶关联的平方误差和(Sum of squared errors, SSE),以便建立平衡二元回归树
(7) |
(8) |
式中代表节点包含的向量集合,j代表分割索引。算法1给出了MADDNESS原型学习的具体步骤。
算法1 MADDNESS原型学习
给定训练集矩阵,码本数C,每码本质心数K;
(1) for ci=1:1:C
(2) 用的第ci个码本中所有的子向量组成一个子矩阵,建立根桶
(3) for k=1:1:
(4) 针对第k-1次循环得到的所有桶,在每个桶中找到SSE最大的4列,分别遍历各列元素,计算以其为分割阈值时,两部分数据的SSE之和。选出使两部分SSE之和最低的元素作为分割阈值,并记录分割后性能最好的列的列号以及分割阈值。最后用分割阈值将当前桶分为两个子桶。
(5) End for
(6) 在第ci个码本中对子向量进行编码,用独热编码记录当前子向量所在的桶,即遍历阈值,若子向量对应位置大于阈值则当前位记1,否则记0;
(7) 利用岭回归在质心(包含全零列)上求微小修正项,使质心与编码向量的积更接近输入向量。
(8) End for
(9) 输出各码本中由所求阈值构成的平衡二元回归树,以及各树的叶子结点所对应的各桶的质心。
最后,在对查找表进行数值相加时,MADDNESS将加法指令替换为平均指令,以牺牲低位信息的较小代价来提高计算速度。
全连接层的每个节点都与前一层的所有节点相连,可以提取数据集的特征。在CsiTransformer网络中有6层全连接层,如

图2 CsiTransformer网络结构及全连接层位置
Fig.2 CsiTransformer structure and position of fully connected layers
全连接层的核心是矩阵乘法,其计算公式为
(9) |
式中:为输入矩阵,为权重矩阵,是全连接层的偏置。
参数 | etl1 | etl2 | el | dl | dtl1 | dtl2 |
---|---|---|---|---|---|---|
N | 1 024 | 1 024 | 32 | 32 | 1 024 | 1 024 |
D | 64 | 512 | 2 048 | L | 64 | 128 |
M | 512 | 64 | L | 2 048 | 128 | 64 |
AMM方法在每个子空间中学习到的K个原型即为K个质心,包含不同质心的C个子空间称为C个码本。为了便于描述,假设A只有一行,在这种情况下A变成向量a。当列数为D时,每个码本对应的子向量长度为,并将聚类的K个质心视作 bit的量化。基于上述定义,本文将带参数的基于VQ的AMM方法(PQ及MADDNESS)表示为VQ。在本文中,最小值取1,最大值取8,即质心至多设置256个。一般情况下,减小或增大均可提升利用AMM简化计算后CSI反馈的性能。
预计算每个质心与B的点积,将结果存储在一个大小为的LUT中。LUT的元素可以不进行量化而存储,也可按8 bit、16 bit等精度进行均匀量化后存储,从而节省空间并降低计算复杂度。LUT的量化位数记为,不进行量化而存储时,记为32(此时LUT的元素数据类型为单精度浮点数)。
在原MADDNESS方法中,LUT的量化位数。经初步测试,若CsiTransformer网络的全连接层中应用的MADDNESS替换,即使在参数VQ下计算简化后CSI反馈的性能相比未简化时的反馈性能也相去甚远。该测试说明,LUT的量化位数过小的AMM不适用于简化CsiTransformer网络。因此,本文提升至16,在参数VQ下计算简化后CSI反馈的性能与原网络性能接近。
MADDNESS方法的局部敏感哈希是基于平衡二元回归树的。当矩阵A包含大量的零值时,需要修改原始局部敏感哈
原始的MADDNESS哈希算法使用大于等于号分割桶,如文献[
项目 | C | K | NMSE | ρ |
---|---|---|---|---|
优化前 | 128 | 16 | 0.017 4 | 0.992 |
128 | 256 | 0.774 0 | 0.705 | |
优化后 | 128 | 16 | 0.011 5 | 0.994 |
128 | 256 | 0.010 8 | 0.995 |
MADDNESS方法中的岭回归能够让乘积更接近真实值,可表示为
(10) |
式中:为训练集,G为编码后的矩阵,P为质心矩阵,λ恒定为1。
岭回归的目标是最小化GP与的误差,其本质是改良的最小二乘法,在的对角线元素上加了λ。但岭回归涉及求逆等计算,在数据量较大时(如1 000批次时N=1 024 000),由于矩阵过大,会爆发式地消耗训练过程的计算和存储资源。因此,本文将训练数据均匀分为多份,分步进行岭回归并取结果均值,使得每次岭回归时涉及的矩阵计算所需的内存大幅降低,且分2或4步时,近似矩阵乘法性能几乎没有损失。
算法1中,步骤(4)确定了当前桶分割为两个子桶和的最优分割阈值。分别遍历各列元素,计算以其为分割阈值时,两部分数据的SSE之和,记为累积(cumulative)SSE
(11) |
当数据集较大时(如N=1 024 000),由于原MADDNESS方法采用单精度浮点数定义,精度不够,导致最终计算的SSE与真实SSE误差较大,使得最优分割阈值选定错误。若将原MADDNESS方法定义的应用于CsiTransformer网络的AMM替换,则会导致增大质心数时CSI反馈性能反而下降。因此,应当使用双精度浮点数定义,可使得计算精确,从而解决性能变化趋势异常的问题。

图3 优化SSE前后etl1层MADDNESS最优分割阈值二叉树(部分)
Fig.3 Part of MADDNESS optimal threshold binary tree of etl1 layer before and after SSE optimization
以下仿真结果中,计算复杂度参考
运算 | 指令周期 | 精确乘法 | PQ | MADDNESS |
---|---|---|---|---|
浮点加法 | ||||
浮点乘法 | ||||
定点加法 | ||||
浮点比较 | ||||
哈希查表 | ||||
LUT大小 | ||||
指令周期和 |
压缩比 | 1/4 | 1/8 | 1/16 | 1/32 |
---|---|---|---|---|
CSI编码器,卷积,批归一化 | 10 240 | 10 240 | 10 240 | 10 240 |
CSI编码器,多头自注意力层 | 1 326 849 | 1 326 849 | 1 326 849 | 1 326 849 |
CSI编码器,全连接层etl1 | 2 097 152 | 2 097 152 | 2 097 152 | 2 097 152 |
CSI编码器,全连接层etl2 | 2 097 152 | 2 097 152 | 2 097 152 | 2 097 152 |
CSI编码器,全连接层el | 1 048 576 | 524 288 | 262 144 | 131 072 |
CSI解码器,全连接层dl | 1 048 576 | 524 288 | 262 144 | 131 072 |
CSI解码器,多头自注意力层 | 1 326 849 | 1 326 849 | 1 326 849 | 1 326 849 |
CSI解码器,全连接层dtl1 | 524 288 | 524 288 | 524 288 | 524 288 |
CSI解码器,全连接层dtl2 | 524 288 | 524 288 | 524 288 | 524 288 |
卷积,批归一化 | 7 168 | 7 168 | 7 168 | 7 168 |
所有全连接层FLOPs比例/% | 73.32 | 70.20 | 68.35 | 67.33 |
本文所采用的基于VQ的AMM方法本质是用被称作质心的固定向量替代可变向量,相当于用含较少的信息量的质心表示含较多信息量的原始数据,可将其视作类似有损压缩的过程,网络的输入输出是未被压缩的数据,信息冗余较多,而反馈向量是压缩后的数据,信息冗余较少。用Pearson相关系数度量数据间的相关性,数据存在的信息冗余较多,其相关性较强,用聚类后质心代替的效果较好。测试CsiTransformer网络各全连接层矩阵行向量之间的Pearson相关系数并取绝对值,可得各层数据的相关性热力图,如

图4 各全连接层矩阵行向量间相关系数热力图
Fig.4 Heat map of correlation coefficient between row vectors of matrices of each fully connected layer
本文于1.2节指出PQ和MADDNESS方法针对不同场景的加速效果与复杂度存在差异。为测试两种AMM方法在CsiTransformer网络中的适用性,分别将两种方法应用于全部全连接层的计算简化。测试参数压缩比,其他参数与本文第3节初始所列相同,给出CSI反馈简化计算的NMSE性能、计算复杂度及存储复杂度的关系,如

图5 基于PQ或MADDNESS的简化CSI反馈网络的NMSE与AMM复杂度
Fig.5 NMSE versus AMM complexity for simplified CSI feedback network based on PQ or MADDNESS

图6 压缩比为1/4时CSI反馈的NMSE与MADDNESS复杂度
Fig.6 NMSE versus MADDNESS complexity for CSI feedback at a compression ratio of 1/4

图7 压缩比为1/4时CSI反馈的余弦相似性与MADDNESS复杂度
Fig.7 Cosine similarity versus MADDNESS complexity for CSI feedback at a compression ratio of 1/4

图8 压缩比为1/8时CSI反馈的NMSE与MADDNESS复杂度
Fig.8 NMSE versus MADDNESS complexity for CSI feedback at a compression ratio of 1/8

图9 压缩比为1/8时CSI反馈的余弦相似性与MADDNESS复杂度
Fig.9 Cosine similarity versus MADDNESS complexity for CSI feedback at a compression ratio of 1/8

图10 压缩比为1/16时CSI反馈的NMSE与MADDNESS复杂度
Fig.10 NMSE versus MADDNESS complexity for CSI feedback at a compression ratio of 1/16

图11 压缩比为1/16时CSI反馈的余弦相似性与MADDNESS复杂度
Fig.11 Cosine similarity versus MADDNESS complexity for CSI feedback at a compression ratio of 1/16

图12 压缩比为1/32时CSI反馈的NMSE与MADDNESS复杂度
Fig.12 NMSE versus MADDNESS complexity for CSI feedback at a compression ratio of 1/32

图13 压缩比为1/32时CSI反馈的余弦相似性与MADDNESS复杂度
Fig.13 Cosine similarity versus MADDNESS complexity for CSI feedback at a compression ratio of 1/32
定义概念向量量化收益,即:在其他条件相同的情况下,增大,出现计算复杂度减小且性能保持不变或获得提升的现象,则称该现象为向量量化收益。在基于PQ方法的简化CSI反馈网络中,未发现向量量化收益;在基于MADDNESS方法的简化CSI反馈网络中,VQ相对于VQ取得向量量化收益, VQ相对于VQ取得向量量化收益,VQ~VQ相对于VQ取得向量量化收益。
综上所述,在纳入考虑的两种AMM方法中,仅MADDNESS方法表现出较好的性能,适用于CsiTransformer网络的计算简化。后续CSI反馈简化计算性能比较,VQ方法均采用MADDNESS。
压缩比时,CSI反馈的NMSE及余弦相似性的性能表现如图
(1) 在简化全部6层全连接层的情况下,VQ时,CSI反馈的NMSE=0.008 6,=0.995 7;在简化4层全连接层的情况下,VQ时,CSI反馈的NMSE=0.008 2,=0.996 0。它们均十分接近精确矩阵乘法的CSI反馈性能:NMSE=0.006 8,=0.996 5,且AMM计算复杂度占各自对应全连接层精确矩阵乘法复杂度的比例分别为15.43%、16.25%。
(2) 无论用NMSE还是衡量,在相同VQ条件下,简化4层全连接层的性能总是优于简化6层全连接层的性能。由于时CSI反馈较为有价值,而简化全部6层全连接层后大部分仿真测试结果均无法满足上述条件,因此简化4层全连接层可能更适用于实际应用。该仿真结果也符合3.1节中的推测。
(3) 若关注存储复杂度,可发现简化6层全连接层时所需存储空间在6~600 MB范围内,而简化4层全连接层时所需存储空间的范围仅为0.4~40 MB,后者仅为前者的6.67%。究其原因,因为简化6层全连接层时,el层输入特征维度较大且dl层神经元数目较多,待乘矩阵的尺寸(D、M)较大,导致LUT的占用空间过大。综合要点(2,3),本文更为推荐针对CsiTransformer网络简化4层全连接层。通过
(4) 以简化4层全连接层为例,VQ相对于VQ取得向量量化收益,VQ和VQ相对于VQ取得向量量化收益,VQ~VQ相对于VQ取得向量量化收益。简化6层全连接层的情况下的向量量化收益已于3.2节总结,此处不再赘述。
(5) 向量量化参数的选择涉及了简化计算CSI反馈网络的性能与计算复杂度及存储复杂度间的取舍。若追求接近精确矩阵乘法的CSI反馈性能,应在参数VQ下简化CSI反馈网络;若追求向量量化收益带来的较低的复杂度,应在参数VQ下简化CSI反馈网络。
图
压缩比 | 1/4 | 1/8 | 1/16 | 1/32 |
---|---|---|---|---|
简化6层全连接层 | 37.99 | 40.96 | 42.73 | 43.69 |
简化4层全连接层 | 56.14 | 51.01 | 47.96 | 46.30 |
本文提出了一种新型的基于数据聚类处理的CSI反馈Transformer网络简化实现方法,显著降低了大规模MIMO系统中CSI反馈的复杂度开销。将经过针对性优化的基于数据聚类的AMM方法如MADDNESS应用于神经网络后,不仅降低了计算复杂度,亦保持了CSI反馈Transformer网络的高性能。仿真结果及复杂度分析表明,在简化4层全连接层且压缩比为1/4时,CSI反馈的NMSE及余弦相似性(0.008 2、0.996 0)均十分接近简化前的性能(0.006 8、0.996 5),同时可将被简化层的计算复杂度降低约83%,整个网络的计算复杂度降低约43%,以较小的存储开销显著降低了计算复杂度。此外,CsiTransformer网络中多头自注意力层存在一部分相较全连接层更复杂的矩阵乘法形式,如何简化这类矩阵乘法是未来的研究方向之一。
参考文献
LU L, LI G Y, SWINDLEHURST A L, et al. An overview of massive MIMO: Benefits and challenges[J]. IEEE Journal of Selected Topics in Signal Processing, 2014, 8(5): 742-758. [百度学术]
LARSSON E G, EDFORS O, TUFVESSON F, et al. Massive MIMO for next generation wireless systems[J]. IEEE Communications Magazine, 2014, 52(2): 186-195. [百度学术]
NGO H Q, LARSSON E G, MARZETTA T L. Energy and spectral efficiency of very large multiuser MIMO systems[J]. IEEE Transactions on Communications, 2013, 61(4): 1436-1449. [百度学术]
XU Q, JIANG C, HAN Y, et al. Waveforming: An overview with beamforming[J]. IEEE Communications Surveys & Tutorials, 2017, 20(1): 132-149. [百度学术]
BJÖRNSON E, LARSSON E G, MARZETTA T L. Massive MIMO: Ten myths and one critical question[J]. IEEE Communications Magazine, 2016, 54(2): 114-123. [百度学术]
KUO P H, KUNG H T, TING P A. Compressive sensing based channel feedback protocols for spatially-correlated massive antenna arrays[C]//Proceedings of IEEE Wireless Communications and Networking Conference (WCNC). Paris, France: IEEE, 2012: 492-497. [百度学术]
DAUBECHIES I, DEFRISE M, DE MOL C. An iterative thresholding algorithm for linear inverse problems with a sparsity constraint[J]. Communications on Pure and Applied Mathematics, 2004, 57(11): 1413-1457. [百度学术]
DONOHO D L, MALEKI A, MONTANARI A. Message-passing algorithms for compressed sensing[J]. Proceedings of the National Academy of Sciences, 2009, 106(45): 18914-18919. [百度学术]
LI C, YIN W, ZHANG Y. User’s guide for TVAL3: TV minimization by augmented Lagrangian and alternating direction algorithms[J]. CAAM Report, 2009, 20(46/47): 4. [百度学术]
METZLER C A, MALEKI A, BARANIUK R G. From denoising to compressed sensing[J]. IEEE Transactions on Information Theory, 2016, 62(9): 5117-5144. [百度学术]
O’SHEA T J, ERPEK T, CLANCY T C. Deep learning based MIMO communications[EB/OL]. (2017-07-25)[2024-01-05]. https://arxiv.org/abs/1707.07980. [百度学术]
WEN C K, SHIH W T, JIN S. Deep learning for massive MIMO CSI feedback[J]. IEEE Wireless Communications Letters, 2018, 7(5): 748-751. [百度学术]
VASWANI A, BENGIO S, BREVDO E, et al. Tensor2Tensor for neural machine translation[EB/OL]. (2018-05-16)[2024-01-05]. https://arxiv.org/abs/1803.07416. [百度学术]
XU Y, YUAN M, PUN M O. Transformer empowered CSI feedback for massive MIMO systems[C]//Proceedings of Wireless and Optical Communications Conference (WOCC). Taipei, China: IEEE, 2021: 157-161. [百度学术]
HAN S, LIU X, MAO H, et al. EIE: Efficient inference engine on compressed deep neural network[J]. ACM SIGARCH Computer Architecture News, 2016, 44(3): 243-254. [百度学术]
HANIF M A, KHALID F, SHAFIQUE M. CANN: Curable approximations for high-performance deep neural network accelerators[C]//Proceedings of the 56th Annual Design Automation Conference 2019. New York, NY, USA: Association for Computing Machinery, 2019: 1-6. [百度学术]
TASOULAS Z G, ZERVAKIS G, ANAGNOSTOPOULOS I, et al. Weight-oriented approximation for energy-efficient neural network inference accelerators[J]. IEEE Transactions on Circuits and Systems I: Regular Papers, 2020, 67(12): 4670-4683. [百度学术]
HAMMAD I, LI L, EL-SANKARY K, et al. CNN inference using a preprocessing precision controller and approximate multipliers with various precisions[J]. IEEE Access, 2021, 9: 7220-7232. [百度学术]
YU Q, MADDAH-ALI M A, AVESTIMEHR A S. Straggler mitigation in distributed matrix multiplication: Fundamental limits and optimal coding[J]. IEEE Transactions on Information Theory, 2020, 66(3): 1920-1933. [百度学术]
JIA Z, JAFAR S A. Cross subspace alignment codes for coded distributed batch computation[J]. IEEE Transactions on Information Theory, 2021, 67(5): 2821-2846. [百度学术]
DAS A B, RAMAMOORTHY A. Coded sparse matrix computation schemes that leverage partial stragglers[J]. IEEE Transactions on Information Theory, 2022, 68(6): 4156-4181. [百度学术]
JEGOU H, DOUZE M, SCHMID C. Product quantization for nearest neighbor search[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 33(1): 117-128. [百度学术]
BLALOCK D, GUTTAG J. Multiplying matrices without multiplying[C]//Proceedings of the 38th International Conference on Machine Learning. Virtual: PMLR, 2021: 992-1004. [百度学术]
GRAY R M, NEUHOFF D L. Quantization[J]. IEEE Transactions on Information Theory, 1998, 44(6): 2325-2383. [百度学术]
INTEL. Intel® Intrinsics Guide[EB/OL]. (2023-07-12)[2024-01-05]. https://www.intel.com/content/www/us/en/docs/intrinsics-guide/index.html. [百度学术]