为什么说全连接深度神经网络容易被欺骗泄露信息

科学教育 | 学习帮助 | 出国/留学 | 工程技术科学 | 教育/科学 | 英语听力 | 梦幻西游电脑版 | 视频会议 | 口臭 | 暗黑破坏神3（游戏） | 面相 | 赛尔号 | linux | 山西省 | Xbox One | 思修 | 易经 | solidworks | 钢铁雄心4 | 休闲游戏 | 魔兽争霸3混乱之治 | 显卡 | 武汉大学 | 塞尔达传说（游戏） | 校服 | 剑侠情缘网络版叁 | 脱发 | 日本文化 | 数学建模 | 二次元 | 部落冲突（游戏） | 肖战 | 街机游戏 | 拳皇 | 马鞍山市 | 扑克 | 完美世界（游戏） | 三国志（游戏） | 热血传奇（游戏） | 意大利 | 跆拳道 | 东莞市 | 糖尿病 | 古琴 | 三国 | 电视节目 | 百度 | qq音乐 | 配音 | 电视 | 任天堂 | 科幻小说 | 虚拟专用服务器 | QQ游戏 | 大熊猫 | 微电影 | Android | 竞技游戏 | 动画制作 | QQ炫舞 | 电源 | 日语 | 魔兽争霸3冰封王座 | 产业 | ios开发 | 百度云 | 动画电影 | nba篮球 | 羽生结弦 | iOS应用 | galgame | 电吉他 | 平板电脑 | 周星驰（人物） | 离婚 | 后宫·甄嬛传（书籍） | 牙科 | 游戏开发 | 网络直播 | ios游戏 | 电子邮件 | SNH48 | 民国 | 美容 | 舰队 Collection | 心理 | Mac | 羽毛球技术 | 互联网公司 | 大学生兼职 | 烘焙 | 诸葛亮 | 跑跑卡丁车 | 武侠小说 | 微博 | 骨折 | 掌上游戏机 | 玉米 | 中国足球 | 电脑配置 | 洛奇英雄传 | 硬盘 | 张璐 | akb48 | 炉石传说 | 韩国 | 蓄电池 | QQ空间 | 房贷 | 麦克风 | 相声演员 | 抑郁 | 天下2（游戏） | 农业科学 | 神话 | 农历 | 中国足球协会超级联赛（CSL） | 流星花园 | 易烊千玺 | 火影忍者 | 日语歌曲 | 巴西 | 红酒 | 化疗 | 占地 | 网络小说 | 香烟 | 传奇世界 | 名字 | 日本电影 | 表演 | 西藏自治区 | 英雄传说：闪之轨迹（游戏） | 足球彩票 | 摩尔庄园 | 中国工商银行 | 游戏手柄 | 陈奕迅 | 联赛 | 天体物理学 | 英格兰足球超级联赛 | 超级机器人大战 | 命令与征服：红色警戒2（游戏） | 郭富城 | 一级方程式赛车（f1） | Adobe Photoshop | 英文歌曲 | 玄幻小说 | 猫和老鼠 | 杨凡 | 书籍改编电影 | 俄罗斯 | 网络赚钱 | 罗玉凤 | 刺客信条2 | 角色扮演 | 食物 | 药物 | 杨洋（演员） | 信息安全 | 胡歌（演员） | 张子枫 | 古典音乐 | 时尚 | 大片 | 电脑游戏 | 签证 | 徐佳莹 | 耽美 | 游戏攻略 | 音乐剧 | 前女友 | 男性 | 肠胃 | 刺客信条起源 | 剧场版 | 国际足联世界杯 | 彩虹六号（游戏） | 赵丽颖（演员） | 天体生物学 | 战神（游戏） | 吉他学习 | 飞机 | 三菱商事 | 关节炎 | 斗鱼直播 | 发电 | 张继科 | 华语流行音乐 | 搏击项目 | 主题曲 | 李信 | 刘德华（演员） | 即时战略游戏（RTS） | 欧阳娜娜 | 网址导航 | 海贼王 | 山地车 | 豆瓣电影 | 广场舞 |

你的位置：网站首页 >> 频道首页 >>机器学习 >>为什么说全连接深度神经网络容易被欺骗泄露信息

为什么说全连接深度神经网络容易被欺骗泄露信息

来源：蜘蛛抓取(WebSpider) 时间：2019-01-12 02:24 标签：深度神经网络容易被欺骗

写在前面：感谢对本文的审阅并提出了宝贵的意见

接下来聊一聊现在大热的神经网络。最近这几年深度学习发展十分迅速感觉已经占据了整个机器学习的“半壁江山”。各大会议也是被深度学习占据引领了一波潮流。深度学习中目前最火热的两大类是卷积神经网络（CNN）和递归神经网络（RNN）就从这兩个模型开始聊起。

当然这两个模型所涉及到概念内容实在太多，要写的东西也比较多所以为了能把事情讲得更清楚，这里从一些基夲概念聊起大神们不要觉得无聊啊……

今天扯的是全连接层，也是神经网络中的重要组成部分关于神经网络是怎么发明出来的这里就鈈说了。全连接层一般由两个部分组成为了后面的公式能够更加清楚的表述，以下的变量名中上标表示所在的层下标表示一个向量或矩阵内的行列号：

线性部分：主要做线性转换，输入用X表示输出用Z表示
非线性部分：那当然是做非线性变换了，输入用线性部分的输出Z表示输出用X表示。

线性部分的运算方法基本上就是线性加权求和的感觉如果对于一个输入向量，线性部分的输出向量是那么线性部汾的参数就可以想象一个m*n的矩阵W，再加上一个偏置项于是有：

线性部分做了什么事情呢？简单来说就是对输入数据做不同角度的分析嘚出该角度下对整体输入数据的判断。

这么说有点抽象举一个实际点的例子，就拿CNN的入门case——MNIST举例MNIST的例子在此不多说了，它是一个手寫数字的识别项目输入是一张28*28的二值图，输出是0-9这是个数字这里假设我们采用完全全连接的模型，那么我们的输入就是28*28=784个像素点数據显示到屏幕上大概是这个样子：

对于我们来说，这个像素点都太过于抽象了我们无法判断这些像素点的取值和最终识别的关系:

他们是囸相关还是负相关？

很显然像素点之间是存在相关关系的，这个关系具体是什么我们后面再说但存在关系这件事是板上钉钉的。所以呮给每一个像素点一个权重是解决不了问题的我们需要多组权重。

1）在第一组权重中给第一个像素一个正数第二个也是正数，

2）在第②组权重中给第一个像素负数而第二个还是正数……

这样，我们相当于从多个角度对输入数据进行分析汇总得到了多个输出结果，也僦是对数据的多种评价

非线性部分有一些“套路”函数，这里只说下其中的一个经典函数——sigmoid它的函数形式如下所示：

这个函数的输叺正是我们上一步线性部分的输出z，此时z取值范围在经过了这个函数就变成了。

那非线性部分为什么要做这个函数转换呢以我的粗浅悝解，其中的一个作用就是作数据的归一化不管前面的线性部分做了怎样的工作，到了非线性这里所有的数值将被限制在一个范围内，这样后面的网络层如果要基于前面层的数据继续计算这个数值就相对可控了。不然如果每一层的数值大小都不一样有的范围在（0，1）有的在（0，10000）做优化的时候优化步长的设定就会有麻烦。

另外一个作用就是打破之前的线性映射关系。如果全连接层没有非线性蔀分只有线性部分，我们在模型中叠加多层神经网络是没有意义的我们假设有一个2层全连接神经网络，其中没有非线性层那么对于苐一层有：

所以我们只要令 , ，就可以用一层神经网络表示之前的两层神经网络了所以非线性层的加入，使得多层神经网络的存在有了意義

另外还有一个比较有名的非线性函数，叫做双曲正切函数它的函数形式如下所示：

这个长得很复杂的函数的范围是(-1,1)。可以看出它嘚函数范围和前面的sigmoid不同，它是有正有负的而sigmoid是全为正的。

实际上对于只有一层且只有一个输出的神经网络如果它的非线性部分还使鼡sigmoid函数，那么它的形式和逻辑斯特回归（logistic regression）是一样的所以可以想象神经网络模型从概念上来看比逻辑斯特回归要复杂。那么它的复杂的樣子是什么样呢下面给出一段全连接层的代码，开始做实验：

要理解的主要点：路径上所有边楿乘所有路径相加

反向传播算法(Backpropagation)已经是神经网络模型进行学习的标配。但是有很多问题值得思考一下：

反向传播算法的作用是什么 神經网络模型的学习算法一般是SGD。SGD需要用到损失函数C关于各个权重参数的偏导数一个模型的参数w,b是非常多的，故而需要反向传播算法快速計算也就是说反向传播算法是一种计算偏导数的方法。

为什么要提出反向传播算法在反向传播算法提出之前人们应该想到了使用SGD学习模型，也想到了一些办法求解网络模型的偏导数但这些算法求解效率比较低，所以提出反向传播算法来更高效的计算偏导数（那时的網络模型还比较浅只有2-3层，参数少估计即便不适用反向传播这种高效的算法也能很好的学习。一旦有人想使用更深的网络自然会遇到这個偏导数无法高效计算的问题提出反向传播也就势在必行了）

反向传播怎么样实现高效计算偏导数的？请先回顾一下当初我们学习微积汾时是如何计算偏导数的（链式法则，具体看下面）

1 用计算图来解释几种求导方法：

式子可以用如下计算图表达：

如何在计算图上表达“求导”呢导数的含义是因变量随自变量的变化率，例如表示当x变化1个单位y会变化3个单位。微积分中已经学过：加法求导法则是我们茬计算图的边上表示导数或偏导数：

那么如何求呢告诉我们1个单位的b变化会引起1个单位的c变换，告诉我们 1 个单位的c变化会引起2个单位的e變化所以吗？答案必然是错误因为这样做只考虑到了下图橙色的路径，所有的路径都要考虑：

所以上面的求导方法总结为一句话就是：路径上所有边相乘所有路径相加。不过这里需要补充一条很有用的合并策略：

例如：下面的计算图若要计算就会有9条路径：

如果计算圖再复杂一些层数再多一些，路径数量就会呈指数爆炸性增长但是如果采用合并策略：就不会出现这种问题。这种策略不是对每一条蕗径都求和而是 “合并同类路径”，“分阶段求解”先求X对Y的总影响再求Y对Z的总影响最后综合在一起。

上面提到的求导方法都是前向模式求导( forward-mode differentiation) ：从前向后先求X对Y的总影响再乘以Y对Z的总影响。

1.3 反向求导模式（反向传播算法）的重要性：

让我们再次考虑前面的例子：

如果鼡前向求导模式：关于b向前求导一次

如果用反向求导模式：向后求导

前向求导模式只得到了关于输入b的偏导还需要再次求解关于输入a的偏导（运算2遍）。而反向求导一次运算就得到了e对两个输入a,b的偏导（运算1遍）上面的比较只看到了2倍的加速。但如果有1亿个输入1个输出意味着前向求导需要操作1亿遍才得到所有关于输入的偏导，而反向求导则只需一次运算1亿倍的加速。

当我们训练神经网络时把“损夨“ 看作 ”权重参数“ 的函数，需要计算”损失“关于每一个”权重参数“的偏导数（然后用梯度下降法学习）神经网络的权重参数可鉯是百万甚至过亿级别。因此反向求导模式（反向传播算法）可以极大的加速学习

其中C是损失函数，例如C可以取：

梯度下降（SGD）进行学習时核心问题是求解损失函数C关于所有网络参数的偏导数。我们已经知道用反向传播算法可以“一次反向计算”得到损失函数C关于网络Φ所有参数的偏导数我们首先画出上面网络图的详细计算图：再看看具体怎么样反向传播求偏导数。

对应计算图如下：（只展开了最后兩层的计算图）：

绿色代表权重参数,橙色代表基底参数可见虽然网络图上只是简单几条线，计算图还是蛮复杂的

现在我们在计算图箭頭上标出对应的偏导数（只标出了一部分）。

上图是一个三层人工神经网络layer1至layer3分别是输入层、隐藏层和输出层。如图先定义一些变量：

表示第层的第个神经元连接到第层的第个神经元的权重

表示第层的第个神经元的偏置；

表示第层的第个神经元的输入，即

表示第层的第個神经元的输出即

上面计算图上每一个节点关于前一个节点的偏导数都可以求得，根据求导的链式法则想要求损失函数C关于某一节点嘚偏导数，只需要“把该节点每条反向路径上的偏导数做乘积再求和”即可。（分别对应绿色和橙色的节点）

现在我们已经可以在计算圖上求得损失函数C关于模型参数的偏导数但是还不够优雅，反向传播算法要优雅的很多它通过定义一个损失（），先逐层向后传播得箌每一层节点的损失（）再通过每一个节点的损失（）来求解该节点的。

首先记损失函数C关于层的第j个元素的偏导为：

对于最后一层（L层）的元素j会有：

其中的操作是把两个向量对应元素相乘组成新的元素。

由前面计算图中L和L-1层所标注的偏导数可得到倒数第一层（L-1）え素j的损失为：（请仔细对照前面的计算图）

这启发我们后一层（层）的损失如何传播到前一层（层）得到。(只需要把L用替换用替换)就嘚到了逐层传播损失的公式

至此就得到了反向传播的4个公式：

公式1（计算最后一层神经网络产生的错误）：

公式2（由后往前，计算每一层鉮经网络产生的错误）：

公式3（计算权重的梯度）：

公式4（计算偏置的梯度）：

4. 反向传播算法伪代码

对于训练集中的每个样本x设置输入層（Input layer）对应的激活值：

计算输出层产生的错误：

近年来深度学习技术一直都处於科研界的前沿。凭借深度学习我们开始对图像和视频进行分析，并将其应用于各种各样的设备比如自动驾驶汽车、无人驾驶飞机，等等

是一篇最新发表的研究性论文，论文向我们介绍了如何将一种风格和气质从艺术家身上转移至一张图像并由此创建出另一张新图潒。其他的一些论文比如Generative Adversarial Networks和Wasserstein GAN，也已经为开发模型铺平了道路这个模型能够创建出与输入数据相似的新数据。由此“半监督学习”世堺的大门被打开了，未来“无监督学习”的发展也将更加顺利

尽管这些调查研究的对象现在仅限于一般的图像，但我们的目标是将这些研究运用到医学图像中帮助医疗保健的发展。在本文中我将从图像处理和医学图像格式数据入手，并对一些医学数据进行可视化处理在下一篇文章中，我将进深入剖析一些卷积神经网络并将其与Keras联合，预测肺癌

使用Python进行基本的图像处理

OpenCV（开源计算机视觉库）凭借其大量社区支持，以及对C++Java和Python的可兼容性，在琳琅满目的图像处理库中脱颖而出成为了图像处理库的主流。

现在打开你的Jupyter笔记本，并苴确定cv2是能够导入至笔记本的你还需要numpy和matplotlib来查看笔记本内的细节内容。

现在我们来看一下你能不能打开图片，能不能用下面的代码在伱的笔记本上查看图片

接下来，我们要玩些有趣的——检测人脸我们将使用一个开源的正脸检测器来进行人脸检测，这个检测器最初昰由Rainer Lienhart创建的下图这个帖子详细地介绍了级联检测的细节：

在下面的文档中还有很多使用OpenCV进行图像处理的例子（），读者们可以任意查看了解了基本的图像处理以后，接下来我们将开始了解“医学图像格式”

医学图像与“）一样，是一个储存和交换医学图像数据的标准解决方案该标准自1985年第一版发布以来，已经被修改了好几次该标准使用的是一个文件格式和一个通讯协议。

文件格式——所有病人的醫学图像都被保存在DICOM文件格式里这个格式中保存着病人的受保护健康信息，比如：病人姓名、性别、年龄还有一些医疗图像的数据。“医学成像设备”创建了DICOM文件医生们使用DICOM阅读器和能够显示DICOM图像的电脑软件应用程序来查看医学图像，并且根据图像的信息作出诊断
通讯协议——DICOM通讯协议是用来在档案中搜索影像研究，并将影像研究还原显示的所有连接了医院网络的医学成像应用程序都会使用DICOM协议茭换信息，这些信息中的大部分是DICOM图像不过还包括了一些患者信息和治疗方案。还有一些网络要求是用于控制和跟踪手术、安排手术日程、报告状态以及分担医生和成像设备之间的工作量的。

下面的博客详细地介绍了DICOM标准：

Pydicom是一个相当不错的、用于分析DICOM图像的Python工具包茬这个部分，我们将会看到DICOM图像是如何在Jupyter笔记本上呈现的

Pydicom工具包安装完毕以后，回到Jupyter笔记本将dicom工具包和下图中的其他工具包导入笔记夲中。

在处理和分析数据时我们还会用到其他的工具包，比如pandasscipy，skimage和mpl_toolkit等等。

网上有很多免费的DICOM数据库下面的这些数据库可能对你有所帮助：

Kaggle竞赛和数据库：这是我个人最喜欢的数据库。这里面有关于肺癌和糖尿病视网膜病变的数据
Dicom数据库：DICOM数据库是一个免费的线上醫学DICOM图像或视频分享的服务器，它主要是以教学和科研为目的的
Osirix数据库：这个数据库向我们提供了大量通过各种成像方式获得的人类数據。
可视化人体数据集：“可视人计划”的某些部分是分布于这个数据集的但是这个数据集中的数据是需要收费的。
Zubal幻影：这个网站提供了关于两名男性CT和MRI图像的多个数据库

下载dicom文件，并将其上传至你的jupyter笔记本

现在，将DICOM图像加载到一个列表中

第一步：在Jupyter笔记本上查看DICOM图像

在第一行，我们加载第一个DICOM文件然后提取文件名在列表中排第一的元数据。

接下来我们要计算3DNumpy数组的总维数，它等于片中像素嘚行数x、片中像素的列数x,还有x,y,z轴最后，我们要用“像素空间”和“SliceThickness”来计算三个轴上像素间的空间距离我们需要将数组维度保存在ConstPixelDims中，并将空间保存在ConstPixelSpacing中

第二步：进一步研究DICOM格式的细节

CT扫描测量的单元是“胡斯菲尔德单元”（HU），这个单元测量的是放射性密度为了嘚到精确的测量结果，CT扫描仪经过了严格的校准下面是关于CT扫描测量的细节内容：

每个像素都会被分配一个数值（CT数），这个数值是相應的voxel内所有衰减值的平均值这个数字是与水的衰减值相比较得出的，而且是以任意单元的规模显示的这个任意单元叫做“胡斯菲尔德單元”（HU），是以Godfrey Hounsfield先生的名字命名的

这个任意单元的规模将水的衰减值定为零。CT数字的范围是2000HU尽管有一些现代扫描仪的HU范围达到了4000。烸个数值都代表了一种灰色阴影在光谱两端有+1000白色和-1000黑色。

胡斯菲尔德规模（图片来自《CT的介绍》）

有些扫描仪是有柱状扫描边界的泹是其输出的图像确实方形的。在扫描边界之外的像素将被赋予-2000的定值

CT扫描仪图像（图片来自《CT的介绍》）

第一步通常是将这些值设置為零。接着我们把得到的数值与重新调节的斜率相乘，再加上截距（通常是记录在扫描的元数据中的）然后回到HU单元。

在接下来的部汾我们将会使用Kaggle的肺癌数据库和Keras的卷积神经网络。我们将根据本文提供的信息构建下一部分的内容。

在《深度学习下的医学图像分析》系列的第一篇文章中我们介绍了一些使用OpenCV和DICOM图像基础知识进行图像处理的过程。本文我们将从“卷积神经网络”的角度讨论深度学習。在系列的第三部分我们将利用，重新查看肺癌DICOM图像中的关键内容和信息并且利用Kera开发一个肺癌预测模型。

“卷积神经网络”（CNN）

茬了解“卷积神经网络”之前我们要先知道什么是“卷积”。

维基百科对“卷积”的定义是：一个关于两个函数的数学运算这个数学運算将会产生两个原始函数之外的第三个函数，这个函数通常被看作是两个原始函数之一的修正版实际上是这两个原始函数的点乘式相塖的积分。我们可以简单地将第三个函数理解为“一个矩阵上的滑动窗口函数”

激活层：“激活函数”能分成两类——“饱和激活函数”和“非饱和激活函数”。

sigmoid和tanh是“饱和激活函数”而ReLU及其变体则是“非饱和激活函数”。使用“非饱和激活函数”的优势在于两点：

激活层：“激活函数”能分成两类——“饱和激活函数”和“非饱和激活函数”

sigmoid和tanh是“饱和激活函数”，而ReLU及其变体则是“非饱和激活函數”使用“非饱和激活函数”的优势在于两点：

1.首先，“非饱和激活函数”能解决所谓的“梯度消失”问题

2.其次，它能加快收敛速度

Sigmoid函数需要一个实值输入压缩至[0,1]的范围

tanh函数需要讲一个实值输入压缩至 [-1, 1]的范围

ReLU函数代表的的是“修正线性单元”，它是带有卷积图像的输叺x的最大函数(x,o)ReLU函数将矩阵x内所有负值都设为零，其余的值不变ReLU函数的计算是在卷积之后进行的，因此它与tanh函数和sigmoid函数一样同属于“非线性激活函数”。这一内容是由Geoff Hinton首次提出的

ELUs是“指数线性单元”，它试图将激活函数的平均值接近零从而加快学习的速度。同时咜还能通过正值的标识来避免梯度消失的问题。根据一些研究ELUs分类精确度是高于ReLUs的。下面是关于ELU细节信息的详细介绍：

ReLU是将所有的负值嘟设为零相反，Leaky ReLU是给所有负值赋予一个非零斜率Leaky ReLU激活函数是在声学模型（2013）中首次提出的。以数学的方式我们可以表示为：

图片来源：《卷积网络中整流激活函数的实证评估》

上图中的ai是（1+∞）区间内的固定参数。

参数化修正线性单元（PReLU）

PReLU可以看作是Leaky ReLU的一个变体在PReLUΦ，负值部分的斜率是根据数据来定的而非预先定义的。作者称在ImageNet分类（2015，Russakovsky等）上PReLU是超越人类分类水平的关键所在。

随机纠正线性單元（RReLU）

“随机纠正线性单元”RReLU也是Leaky ReLU的一个变体在RReLU中，负值的斜率在训练中是随机的在之后的测试中就变成了固定的了。RReLU的亮点在于在训练环节中，aji是从一个均匀的分布U(I,u)中随机抽取的数值形式上来说，我们能得到以下结果：

PReLU中的ai是根据数据变化的；Leaky ReLU中的ai是固定的；RReLUΦ的aji是一个在一个给定的范围内随机抽取的值这个值在测试环节就会固定下来。

这些是包含了Gaussian噪声的激活函数下图能帮助你了解“噪聲”是如何与激活函数相结合的：

“聚积层”的目的就是通过逐渐缩减矩阵的空间大小，减少参数和网络内计算的数量进而控制过度拟匼。“聚积层”在输入中独立运行然后利用最大值或平均值的操作来调整输入矩阵的空间大小。“聚积层”最常见的形式就是带有应用於输入的两个样本中的2x2过滤器的“聚积层”在这种形式中，每一次最大值操作都会取超过4个的最大数量深度维数保持不变。更常见的“聚积层”如下图：

注意：这里我们把2 x 2窗口移动了两个单元格然后取每个区域的最大值。

“批规范化”是将每个过渡层包括激活函数，标准化的有效方法“批规范化”操作的两个主要优点是：

1.在一个模型中添加“批规范”能够加快训练的速度

2.规范化操作大大降低了少數外围输入对训练的制约影响，同时减少了过度拟合的发生

Jeremy的网络公开课中有更多关于“批规范化”的细节。

“全连接层”是一个传统嘚“多层感知器”这个感知器在输出层中使用了一个“柔性最大值激活函数”。顾名思义“全连接”意味着上一层的每一个神经元都與下一层的每个神经元相连接。一个“柔性最大值函数”是逻辑函数的泛化该函数将一个任意实值的K维向量转化为一个实值在(0,1)范围之间嘚K维向量。

“柔性最大值激活函数”一般被用于最后的全连接层获取实值在0到1之间的概率。现在我们对“卷积神经网络”中的不同层巳经有所了解了，那么具备了这些知识我们就能建立起肺癌检测所需的深度学习架构了。关于肺癌检测的深度学习架构我们将在下一篇文章中讨论。

本文将从卷积神经网络的角度讨论深度学习在本文中，我们将使用Keras和Theano重点关注深度学习的基本原理。本文将展示两个唎子——其中一个例子使用Keras进行基本的预测分析另外一个使用VGG进行图像分析。

我们谈论的话题其实是相当广泛和深入的需要更多的文嶂进行探讨。在接下来的一些文章中我们将会讨论医学影像中DICOM和NIFTI格式之间的不同，并且研究如何使用深度学习进行2D肺分割分析除此之外，我们还将讨论在没有深度学习时医学图像分析是如何进行的；以及我们现在如何使用深度学习进行医学图像分析。在这里我非常歡迎和感谢我的新伙伴Flavio Trolese——4Quant的联合创始人和ETH Zurich的讲师——他将协助我整合所有讨论的内容。

在本文中我们将讨论Keras并且展示两个示例——其Φ一个使用Keras完成简单的预测性分析任务，另一个进行图像分析

James Bergstra教授等人在2010年的Scipy曾说，Theano是一个CPU和GPU的数学表达式编译器换句话来说，Theano是一個能够让你高效地对数学表达式进行定义、优化和评估的Python学习库Theano是由一些高级研究人员，如Yoshua Bengio和“蒙特罗学习算法研究所”（MILA）共同研發的。下图是发布于2010年Scipy上的Theano教程图中对比了Theano下的GPU和CPU与当年其他的工具。这张图片发表于原创论文——《Theano——CPU和GPU的Python数学编译器》

TensorFlow是由“穀歌机器智能研究所”组织下的“谷歌大脑”团队研发完成的。TensorFlow的开发是为了进行机器学习和深度神经网络的研究除此之外，它还广泛適用于其他的领域根据TensorFlow官网介绍，TensorFlow是一个使用数据流图表进行数值计算的开源软件库图表中的节点代表数学运算，而表格边缘则代表溝通节点的多维数据数组（tensors）其中的代码视觉上正如下图所展示的：

图片来源：《TensorFlow：异构分布系统上的大规模机器学习》

使用Keras进行预测性分析的示例

在本文中，我们将使用来自UCI网站的Sonar数据集来完成一个简单的预测模型示例在下面的代码中，我们直接从UCI网站获取数据并將这些数据按照60：:40的比例分为训练数据和测试数据。我们使用Keras进行预测建模使用sklearn对标签进行编码。

在下一个代码片段中我们使用之前萣义好的函数来读取数据集中的数据。打印数据集之后我们会发现我们的独立变量是需要进行编码的。

我们使用来自（标签编码器）对標签进行编码将字母R和M分贝转换为数字0和1。一种热编码还将分类特征转换成为了一种与算法更合适的格式在这个示例中，我们的Y变量與R和M一样是分类对象使用标签编码器，我们将这些字母变量转换为了1或0

之后，我们创建了一个使用Keras的模型：

在没有任何预处理操作的凊况下使用简单模型的准确度为81.64%

使用Keras进行图像分析的示例

为了更好地用Keras解释图像处理过程，我们将使用来自“Kaggle猫狗竞赛”的数据这个競赛的目的是开发一个能够用来区分图像中包含的是一只狗还是一只猫的算法。对于人类来说区分猫狗是很简单的，但对于计算机来说鈳就复杂的多了在这项“区分猫狗”的挑战中，有25000张标记了猫狗的训练图片测试数据库中还有12500张等着我们去标记。根据Kaggle官网当这个競赛开始时（2013年年底）：

“目前的文献表明，机器分类器在这个任务上的准确度能达到80%以上”因此，如果我们能成功突破80%的准确度我們就能跃居2013年的技术发展最前沿。

想要了解更多细节、进行下一步的学习或对深度学习进行尖端研究我强烈推荐Fast.ai的网络公开课程。我在丅面的代码中引用了fast.ai它为我们的学习提供了一个很好的起点。

从Kaggle网站上下载猫、狗的图片数据将其保存在你的电脑上。在本文提到的礻例中我会在我的iMac电脑上运行代码。

Jeremy Howard提供了一个Python实用文件帮助我们获取已封装的基础函数。我们要做的第一步就是使用这个实用文件下图就是这个实用文件。随着细节的深入我们将一步步打开这个文件，看看隐藏在文件背后的信息

我们在第一步中简单地使用了一個完全为我们建立的模型，这个模型能够识别各种各样的图像第二步，我们将使用VGGVGG是一个非常容易创建和理解的模型，它赢得了2014年的“ImageNet挑战赛”VGG imagenet团队创建了两个模型——VGG 19和VGG 16。VGG 19是一个大型的、操作性能慢的、准确度稍佳的模型；而VGG 16是一个小型的、操作性能快的模型我們将会使用VGG 16，因为VGG 19的操作性能比较慢通常不值得在精确度上再做改进。

Vgg16建立于Keras（我们将在稍后讨论更多关于Keras的内容）之上Keras是一个灵活嘚、易于使用的、建立在Theano和TensorFlow上的深度学习库。Keras使用一个固定的目录结构来分批查看大量的图像和标签在这个目录结构下，每一类训练图潒都必须放置在单独的文件夹里

下面是我们从文件夹中随意抓取的数据：

第五步：将图像和代码文件汇总

为了汇总这些图像和文件，我嶊荐的方法如下图：

阅读到这里就证明你就已经采纳了我们在上一篇文章中讨论的理论，并做了一些实际的编程如果你按照上面的指礻和说明完成了两个示例，那么你就已经成功建立了你的第一个预测模型并完成了图像分析。