请选择 进入手机版 | 继续访问电脑版
从零开始 从零开始 查看内容

自从学了这个方式,深度进修再也不愁没钱买数据集了

2020-6-17 12:41| 发布者: 夜的黑| 查看: 149| 评论: 2

摘要: 雷锋网 AI科技评论按:深度学习大牛吴恩达曾经说过:做AI研究就像造宇宙飞船,除了充足的燃料之外,强劲的引擎也是必不可少的。假如燃料不足,则飞船就无法进入预定轨道。而引擎不够强劲,飞船甚至不能升空。类比于A ...
雷锋网 AI科技批评按:深度进修大牛吴恩达已经说过:做AI研讨就像造宇宙飞船,除了充沛的燃料之外,微弱的引擎也是必不成少的。假如燃料不敷,则飞船就没法进入预定轨道。而引擎不够微弱,飞船甚至不能升空。类比于AI,深度进修模子就似乎引擎,海量的练习数据就似乎燃料,这两者对于AI而言一样缺一不成。

在深度进修中,当数据量不大时能够会致使过拟合,使得练习误差很小,但测试误差却出格大。怎样办呢,你又没钱买数据?明显最好的法子(之一,其他方式请参看“当数据量不够大的时辰”)就是自己“造”数据——野生增加练习集的巨细,也就是Data Augmentation Transformation。

分歧的使命布景下,凡是我们可以经过图像的多少变更,利用例如剪切、扭转/反射/翻改变更、缩放变更、平移变更、标准变更、对照度变更、噪声扰动、色彩变更等一种或多种组合数据增强变更的方式来增加数据集的巨细。例如假如你的数据集只要10张256*256的图片,那末经过剪切你可以在每张图片上获得32*32=1024张224*224的图片,然后再做一次水平翻转,那末你的数据集就扩大了2048倍,也就是说你现在有了一个20480张图片的数据集。看起来很诱人。那末它的结果若何呢?

(雷锋网注: 多少变更不改变像素值, 而是改变像素地点的位置. 经过Data Augmentation方式扩大了数据集的范围, 作为输入时, 以期待收集进修到更多的图像稳定性特征。)

近期加拿大多伦多大学的Salehinejad等人在论文(arXiv:1708.04347v1)中提出了别的一种分歧于上面几种的数据增强变更——极坐标变更,方式极为简单,完全可以作为数据增强变更一个案例来先容。

所谓极坐标变更,就是像素由本来(x, y)的暗示经过极坐标变更获得(r, θ)的暗示,然后把它暗示成一个二维图片。数学常识只触及这两个高中的数学公式:

用图来暗示就是:

自从学了这个方式,深度进修再也不愁没钱买数据集了__2020-6-17 12:41发布_从零开始_149

例如在一张256*256的图片上,挑选圆心肆意、半径为256且等分为256条像素辐条(角度变化为2*pi/256)的圆盘来覆盖图片,那末覆盖到像素都将对应一个(r, θ)对,放到二维直角坐标系中就天生了一幅新图。由于极坐标在靠近圆心位置像素粒度较大,而阔别圆心位置的像素粒度较小,所以改变圆心位置,将获得分歧的图片。

自从学了这个方式,深度进修再也不愁没钱买数据集了__2020-6-17 12:41发布_从零开始_149

作者挑选了两个数据集来停止实验。其中一个是MNIST数据集,共10个类,每个类别离为0-9的手写体数字。(RT为极坐标变更后的对应图片)

自从学了这个方式,深度进修再也不愁没钱买数据集了__2020-6-17 12:41发布_从零开始_149

另一个是多模医学影象数据集(Multimodal medical dataset),作者共选了9个类。

自从学了这个方式,深度进修再也不愁没钱买数据集了__2020-6-17 12:41发布_从零开始_149

在尝试中作者每个类只要20张图片。也即在数据增强变更之前(original)MNIST-OR数据集有200张图片,MMD-OR有180张图片。作者经过极坐标变更把数据增大了100倍,MNIST-RT有20000张图片,MMD-RT有18000张图片。

随后作者别离选用AlexNet和GoogLeNet两个深度进修模子对以上四个数据集停止练习,其成果则很是喜人。

自从学了这个方式,深度进修再也不愁没钱买数据集了__2020-6-17 12:41发布_从零开始_149

自从学了这个方式,深度进修再也不愁没钱买数据集了__2020-6-17 12:41发布_从零开始_149

对照有四:

1、在数据量较小时,AlexNet的表示要比GoogLeNet好;

2、经过数据增强变更后的数据集可以更敏捷地收敛,且精度较高;

3、经过数据增强变更后的数据集收敛时涨落较小。

4、对照MNIST数据和多模医学影象数据集,MNIST的两个数据集(OR和RT)精度之间的不同更明显。这能够是由于多模医学影象数据集的图像之间有关联,例如横向腹部磁共振成像和矢状面腹部磁共振成像之间有一定的关联性。

很明显喽,极坐标变更的数据增强变更方式也是很有用的。所以吧,没钱买数据了,无妨试试各类数据增强的变更方式,也可以将各类变更组合利用,那你的数据量将成n次方地增加。

雷锋网注——

以上内容参考了这些文章:

1、Training Neural Networks with Very Little Data -- A Draft

2、深度进修中的Data Augmentation方式

3、深度进修中的Data Augmentation方式和代码实现

4、数据不够怎样练习深度进修模子?无妨试试迁移进修

5、当数据量不够大的时辰,有什么方式可以进步CNN练习结果?

鲜花

握手

雷人

路过

鸡蛋
  • 联系我们
  • 邮箱:admin@c0ks.com(请把#改成@)
  • 电话:18530790808
  • QQ客服 1031180668
  • 工作时间:周一至周五(早上9点至下午5点)
  • 微信二维码

  • 扫描访问手机版

Archiver|手机版|小黑屋|从零开始

GMT+8, 2020-7-4 06:30 , Processed in 0.165597 second(s), 26 queries .

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

  • QQ: 1031180668

    客服电话

    18530790808

    电子邮件

    admin@c0ks.com

    在线时间:8:00-16:00