1 MapReduce
- 每个节点计算梯度,然后汇聚到一台机子上,再进行梯度下降。
- 时间还需要考虑通信时间。
- 通信的方式有两种:共享内存和消息传递;
- 在这里存在多机的情况都是消息传递的方式。
通信耗时
MapReduce 会有风险,因为每个节点需要同时完成后才会进行reduce,所以如果某个节点挂了,那么就需要等待完成后才能进行reduce操作。
总结map reduce
- 可以使用MapReduce进行梯度下降;
- 数据并行:数据分配到每个worker上;
- 一次梯度下降需要一次broadcast(分发数据),一次map,一次reduce操作。
- 耗时:计算耗时、通信耗时、同步耗时;
- 如果m个节点,那么最好的加速比是m倍。