对称行列式一般怎么计算,对称行列式的规律

首页 > 经验 > 作者:YD1662022-11-04 15:42:05

论文地址:https://arxiv.org/pdf/2112.01898.pdf

Transformer 是 Google 的团队在 2017 年提出的一种 NLP经典模型。Transformer采用注意力机制( Self-Attention)来提高模型训练速度,它抛弃了传统的CNN和RNN,整个网络结构完全是由Attention机制组成。主要由两部分组成:encoder和decoder。

对称行列式一般怎么计算,对称行列式的规律(5)

Transformer最初为机器翻译设计,后被应用于各种问题,从文本生成到图像处理、语音识别等等。在数学中,Transformer大多应用集中在符号计算上,它“操作”数学符号,就像“操作”自然语言中的单词一样。

但数学≠ 符号处理:许多实际应用涉及数值计算,精确(如算术)或近似(如函数计算、方程数值解)。使用Transformer数值计算的研究较少,而且多数早期算术实验结果差强人意。

但有一个不可回避的问题:数学和科学中的大多数问题都涉及符号计算和数值计算。如果我们希望Transformer端对端解决这些问题,它们就必须能进行高精度数值计算。

作者François Charton训练Transformer计算线性代数问题的解,线性代数是许多科学问题的基本组成部分:矩阵的基本运算、矩阵求逆、特征值和奇异值分解

接下来我们将介绍四种将问题和解决方案表示为Transformer可处理的编码方案,在生成的随机矩阵数据集上训练小型Transformer(最多 6 层,1000 到 5000 万个可训练参数)。训练过的模型计算问题的近似解(到其L1范数的几个百分比),精确度超过90%(大多数情况下为99%)。

同时,泛化训练过的模型,通过更多样化的数据集(特别是具有非独立和相同分布系数矩阵进行的训练),能够大大提高域外精度。

作者相信这些结果为Transformer打开了全新世界的大门,为Transformer作为数学和科学问题的端对端解算器铺平了道路。

1

问题建模

对称行列式一般怎么计算,对称行列式的规律(6)

第一步,将矩阵编码为序列。

因为问题的输入和输出是矩阵,要由Transformer处理,它们需要转换为token序列。

首先对一个m×n矩阵进行编码,将其维度编码为两个符号标记(Vm和Vn),然后是其mn系数,编码为序列。在本文中,使用了四种矩阵系数的编码方案:P10、P1000、B1999 和 FP15。

在基数为 10 的位置编码 (P10) 中,是五个标记的序列:一个符号标记( 或 -)、尾数的 3 位数字(从 0 到 9)和符号标记(来自E-100到E 100) 的指数。

例如,3.14 将表示为

,并编码为

。下图中展示了一些编码的示例。

对称行列式一般怎么计算,对称行列式的规律(7)

第二步,随机矩阵生成。

大多数实验是在均匀分布的随机矩阵数据集上训练模型的,[−A, A] (with A = 10)。有时,也对具有相同标准偏差

的高斯系数进行采样。

在研究特征值问题的分布外泛化时,生成具有不同特征值分布的随机对称矩阵(对应于具有非 iid 系数的随机矩阵)。为此,作者运用高斯系数随机采样对称矩阵M,并计算它们的特征值分解

P是特征向量的正交矩阵。然后,用从另一个分布采样的对角线D'替换M的特征值的对角矩阵D。

最后重新计算

,一个对称矩阵(因为P是正交的),特征值按选择分布,特征向量均匀分布在单位球面上。

2

实验和结果

学习转置矩阵相当于学习其元素的排列。矩形矩阵的排列涉及更长的周期。作者研究了两个公式:

1.固定大小情况,数据集中所有矩阵都具有相同维度,只需要学习一个排列。

2.可变大小的情况,数据集包括不同维度的矩阵,尽可能多的排列学习。

在编码器和解码器中使用四种编码方案,并数据集上训练1 层、256 个维度和 8 个注意力头的Transformer。模型学会在超过 99% 的测试用例准确预测解决方案(具有 0% 的容差)。

对称行列式一般怎么计算,对称行列式的规律(8)

上一页12345下一页

栏目热文

文档排行

本站推荐

Copyright © 2018 - 2021 www.yd166.com., All Rights Reserved.