2.3 三层神经网络的实现

1.各层间信号传递的实现

1).示意图：

在这里插入图片描述

2).公式：

①.用数学式表示a1⁽¹⁾：
在这里插入图片描述

②.用矩阵表示第一层的加权和：

在这里插入图片描述

3).实现：

import numpy as np


# 3层神经网络的实现

# 参数初始化
def init_network():
    network = {}

    network['w1'] = np.array([[0.1, 0.3, 0.5], [0.2, 0.4, 0.6]])
    network['b1'] = np.array([0.1, 0.2, 0.3])
    network['w2'] = np.array([[0.1, 0.4], [0.2, 0.5], [0.3, 0.6]])
    network['b2'] = np.array([0.1, 0.2])
    network['w3'] = np.array([[0.1, 0.3], [0.2, 0.4]])
    network['b3'] = np.array([0.1, 0.2])
    return network


# 激活函数:sigmoid函数
def sigmoid(x):
    return 1 / (1 + np.exp(-x))


# 输出函数:恒等函数
def identity_function(x):
    return x


# 正向传播
def forward(network, X):
    W1, W2, W3 = network['w1'], network['w2'], network['w3']
    b1, b2, b3 = network['b1'], network['b2'], network['b3']

    # 第一层
    a1 = np.dot(X, W1) + b1
    z1 = sigmoid(a1)

    # 第二层
    a2 = np.dot(z1, W2) + b2
    z2 = sigmoid(a2)

    # 第三层
    a3 = np.dot(z2, W3) + b3
    y = identity_function(a3)

    return y


network = init_network()
X = np.array([1.0, 0.5])
y = forward(network, X)

print(y)

4).结果展示：

在这里插入图片描述

2.4 输出层设计

神经网络可以用在分类问题和回归问题上，根据不同的情况使用不同的输出函数。一般而言，回归问题使用恒等函数，分类问题使用softmax函数。

回归问题:根据某个输入预测一个(连续的)数值的问题（例如：根据一个人的图像预测这个人的体重）
分类问题:数据属于哪一个类别的问题（例如：区分图像中的人是男性还是女性）

1.恒等函数

1).示意图：

在这里插入图片描述

2).公式：

恒等函数会将输入信号原样输出。

在这里插入图片描述

2.softmax函数

1).示意图：

在这里插入图片描述

2).公式：

原式：

注意：
①.softmax函数的实现要进行指数函数运算，但是指数函数的值很容易变得非常大(无穷大inf)，如果这些超大值之间进行除法运算，结果会出现“不确定”的情况.
计算机处理“数”时，数值必须在4字节或8字节的有限数据宽度内，这意味着数存在有限位数。会出现超大值无法表示的问题，就是溢出。
改进后的公式：

注意：
①.分子分母都乘以C这个任意常数，结果是不变的，目的是为了解决数据溢出的问题
②.C这个任意常数：通常会使用输入信号中的最大值
③.在进行Softmax的指数函数运算时，加上或减去某个常数并不会改变运算的结果

3).特征：

softmax函数的输出是0.0到1.0之间的实数，并且softmax函数输出值的总和为1，这是softmax函数的一个重要特性，我们可以把softmax函数的输出解释为“概率”.
使用了softmax函数，各元素之间的大小关系不会发生改变是因为指数函数（y=e^x）是单调递增函数
神经网络在进行分类时，输出层的softmax函数可以省略。（因为神经网络只把输出值最大的神经元所对应的类别作为识别结果，即使使用了softmax函数，输出最大神经元的位置也不会发生改变）
输出层的神经元数量需要根据待解决的问题来决定。对于分类问题而言，神经元的数量一般设置为类别的数量。

4).实现：

import numpy as np


# 输出层:softmax函数的实现
# 减去输入信号中的最大值是为了解决数据溢出的问题
def softmax(a):
    arraymax = np.max(a)
    return np.exp(a - arraymax) / np.sum(np.exp(a - arraymax))


a = np.array([0.3, 2.9, 4.0])
y = softmax(a)
print(y)

y_total = np.sum(y)
print(y_total)