仅用200个样本就能得到当前最佳结果:手写字符识别新模型TextCaps

动漫av

目前最好的结果只能获得200个样本:手写字符识别新模型TextCaps

来自arxiv

作者:Vinoj Jayasundara等

参与人:李世孟,王淑婷

由于近来深度学习的进步,手写字符识别任务不再是某些主流语言的问题。但对于一些训练样本很少的非主流语言来说,这仍然是一个具有挑战性的问题。为此,本文提出了一个新模型TextCaps,它每个类仅使用200个训练样本来获得与当前最佳水平相当的结果。

由于深度学习模型的最新进展,已经为许多主流语言解决了手写字符识别。但对于其他语言而言,由于缺乏足够大的注释数据集来训练深度学习模型,这仍然是一个具有挑战性的问题。

虽然CNN可以很好地理解图像中的低级和高级功能,但这样做会丢失有关池池的有价值信息。 CNN训练需要大量训练样本(通常每类数千或数万个样本)才能成功地对图像进行分类。因此,对使用少量训练样本训练的CNN有浓厚的兴趣。

本文提出了一种技术,通过胶囊网络(Capsule Networks,CapsNets)[4]解决了注释数据集太小的问题。我们利用CapsNet通过操纵实例化参数来增强数据的能力[5]。在本文的示例中,CapsNet不仅可以识别字符图像,还可以了解其属性。这使得CapsNet能够用很少的数据在字符识别问题上产生很大的不同。

本文的体系结构基于Sabour等人提出的CapsNet架构[4]。 [4],它由一个胶囊网络和一个完全连接的解码器网络组成。研究人员用解卷积网络取代了解码器网络,并对胶囊网络进行了微小的改动。

通过向表征实体属性的实例化参数添加一些可控噪声,研究人员将实体转换为表征现实中发生的实际变化。这导致了一种全新的数据生成技术,该技术产生的数据比基于仿射变换生成的增强数据更加真实。

在许多情况下,重建准确性也很重要,因此研究人员提出了一种经验上合适的策略,并结合可以显着提高重建性能的损失函数。该系统产生的结果与当前最佳结果相当,每个样本仅有200个数据点。如果使用更多的训练数据,可以获得更好的结果。

本文的主要贡献如下:

在对所有可用训练样本进行系统训练之后,在EMNIST字母,EMNIST平衡和EMNIST数字字符数据集上获得的结果优于当前最佳结果;

研究人员还评估了非角色数据集Fashion-MNIST的架构,以确保模型的灵活性和稳健性。他们使用200个训练样本来获得非常好的结果,并使用完整的数据集获得最佳结果;

研究人员提出了一种新技术,用于训练胶囊网络,只需少量训练样本(每类200个数据),并在相同数量的测试样本上获得最佳性能。与目前最好的系统相比,我们的模型只需要10%的数据就可以得到类似的结果;

研究人员还提出并评估了解码器网络的几种变体,分析具有不同损耗函数的解码器网络的性能,以提供用于组合损耗函数的适当策略。

论文:TextCaps:具有极小数据集的手写字符识别

dca1605e44b94a2baa4871f90fc4e46e.jpeg

论文地址:

摘要:虽然字符识别系统发展迅速,但由于缺乏大量标记的训练数据,许多本地化语言仍然难以受益。这是因为这种语言难以获得大量注释数据,并且深度学习无法通过少量训练样本正确学习。

为了解决这个问题,我们引入了一种基于现有样本生成新训练样本的技术。通过将随机可控噪声添加到相应的实例化参数中,这种新技术可以产生真实的增强,这也反映了人类在手写字符时实际所做的一些变化。

我们仅使用每类200个训练样本的数据来获得超出EMNIST字母数据集的现有字符识别结果,并且还获得与EMNIST平衡,EMNIST数字和MNIST相同的结果。该数据集与现有结果相当。

我们还制定了一项策略,使用损失函数的组合有效地提高重建能力。我们的系统在缺少大量训练数据的本地化语言中的字符识别任务中非常有用,即使在目标识别等其他相关的通用内容上也是如此。

使用胶囊网络识别字符

我们提出了一种由胶囊网络和解码器网络组成的体系结构,用于字符识别任务,如图1和图2所示。

2768af613ef64901a93f25d418fe7626.jpeg

图1:TextCap模型:用于字符分类的CapsNet模型。

686fe13b9feb45cdb922b4a28247a270.jpeg

图2:TextCap解码器:用于字符重建的解码器网络。通过屏蔽TextCap分类器的DigitCaps层获取网络输入。

基于实例化参数摄动的图像数据生成技术

利用预先训练的解码器网络,我们可以仅使用实例化的参数矢量成功地重建原始图像。这种扰动算法背后的基本原理是,通过将可控随机噪声添加到实例化的矢量值,我们可以创建与原始图像完全不同的新图像,从而有效地扩展训练数据集。

图3显示了更改特定实例化参数所产生的图像变体。

2c9e55b6668841dc8ca8819517d8131b.jpeg

图3:扰乱实例化参数后生成的字符变体。

类似地,每个实例化参数单独或共同地负责图像的特定属性。因此,我们提出了一种新技术,可以根据训练样本的有限数据集生成新的数据集,如图4所示。

0c77153f581846b6b8f95db88c397f6f.jpeg

图4:提高解码器性能的整体方法。

实验和结果

我们从表1中每个数据集的训练集中选择了200个训练样本,以训练TextCaps并使用每个数据集的完整测试集对其进行测试。为了测试TextCaps架构的性能,我们还使用完整的训练集训练模型,并使用完整的测试集进行测试。

8f9add3d820f455a9c13f3f0e4cf3a11.jpeg

表1:用于评估TextCaps的五个数据集。

418dcbbc0f344cbc8e058200a30fa62b.jpeg

表2:TextCaps和当前最佳结果的比较,显示3次试验的平均值和标准偏差。

c643c99dc1dc4b3e90d6ab17d2bbae0c.jpeg

表3:使用不同损失函数组合产生的每个重建结果的PSNR值。我们在这里使用两个解码器网络模型,每个都具有丢失功能。对于每个损失函数组合,第一行的PSNR值对应于第一重建损失函数(在第一解码器中使用),第二行对应于第二丢失函数(在第二行中用于解码器中)。

原始链接:

看看更多