mongoDB mapreduce使用总结

news2025/7/12 11:38:30

        大家都知道,mongodb是一个非关系型数据库,也就是说,mongodb数据库中的每张表是独立存在的,表与表之间没有任何依赖关系。在mongodb中,除了各种CRUD语句之外,还给我们提供了聚合和mapreduce统计的功能,这篇文章主要来跟大家聊聊mongodb的mapreduce的操作。

        Map-Reduce部分:Map-Reduce相当于关系型数据库中的group by,主要用于统计数据之用。mapreduce的概念我就不赘述了,大家自己去查查。

映射化简(官网截取)

映射化简是一种将大量数据转换为有价值的*聚合*结果的数据处理方式。在MongoDB中,使用 mapReduce 命令来执行映射化简的操作。

请看下面的映射化简操作:

在这个映射化简操作中,MongoDB对每个输入文档(例如集合中满足查询条件的文档)执行了*map*操作。映射操作输出了键值对结果。对那些有多个值的关键字,MongoDB执行*reduce*操作,收集并压缩了最终的聚合结果。然后MongoDB把结果保存到一个集合中。化简函数还可以把结果输出到*finalize*函数,进一步对聚合结果做处理,当然这步是可选的。

在MongoDB中,所有的映射化简函数都是使用JavaScript编写,并且运行在 mongod 进程中。映射化简操作使用一个集合中文档作为*输入*,并且可以在映射阶段之前执行任意的排序和限定操作。 mapReduce 命令可以把结果作为一个文档来返回,也可以把结果写入集合。输入集合和输出集合可以是分片的。

在mongodb中,mapreduce的语法如下:

db.table.mapReduce(
        map,
        reduce,
        {
            query: query,
            out: out,    //指定结果集以什么方式存储,可选参数包括:
                        //replace:如果文档(table)存在,则替换table,
                        //merge:如果文档中存在记录,则覆盖已存在的文档记录
                        //reduce: 如果文档中存在相同key的记录了,则先计算两条记录,然后覆盖旧记录
                        // {inline:1}  在内存中存储记录,不写入磁盘(用户数据量少的计算)
            sort: sort,
            limit: limit,
            finalize: function  //这个function主要用来在存入out之前可以修改数据,function(key,values) { 
                                //return modifiedValues;}
            scope: document,    //指定reduce可访问的文档范围
            jsMode:boolean      //指定是否在map和ruduce之间立即将数据转换为Bason格式,默认为false
                                //如果想设置为true,则要记住官方我那当的注意事项:
                                //You can only use jsMode for result sets with fewer than
                     //500,000 distinct key arguments to the mapper’s emit()function.
            verbose:boolean     //是否在结果集中包含timing信息,默认是包含的
        }
    )

在做mongodb的mapreduce时,要确保你的query是可以利用到索引的,不然在大数据量的统计下,将会托夸整个数据库,如果确实没办法建索引,那么就在结果集中判断一些不符合条件的数据,而去掉query。

mapreduce的语法其实很简单,只不过这里面有几点需要注意一下:

1.在map中,mongodb是每1000条数据就reduce一次

2.在map中,如果你想统计一个数据之和,需要这样写:

emit(key:this.key,sum:0})

然后再在reduce里需要将上一次的sum迭代累加起来,然后return {sum:sum};如果不这样做,你计算出来的数据总是最后不足1000条数据之后统计出来的,而前面的数据就都丢失了。

3.如果能不用mapreduce,就不用,程序能够统计的,就不要用mongodb频繁统计。

4.mapreduce的结果集的数据格式是:{_id:key,value:{}},因此如果想直接使用这个表的话,最好再重新将数据格式整理一次,尽量将数据放在最上次,而不是再用value.xxx去查询。

这里附上统计我们网站的用户发表内容的数量的mapreduce,仅供一种代码格式的参考价值吧:

var db = connect('127.0.0.1:27017/test');
db.aAccounttemp.drop();
var map = function() {
    emit(this.accountId, 
        {sum:0,
            reblogFlag:this.reblogFlag,dashboardFlag:this.dashboardFlag,dashboardType:this.dashboardType,
            photoNum:0,postNum:0,reblogNum:0,videoNum:0,videoShortNum:0, musicNum:0,
            questionNum:0,appNum:0, dialogNum:0});
}

var reduce = function(key,values) {

    var sum = 0;
    var photoNum = 0;
    var postNum = 0;
    var reblogNum = 0;
    var videoNum = 0;
    var videoShortNum = 0;
    var musicNum = 0;
    var questionNum = 0;
    var appNum = 0;
    var dialogNum = 0;
    for (var i = 0; i < values.length; i++) {
        var data = values[i];
        var reblogFlag = data.reblogFlag;
        var dashboardFlag = data.dashboardFlag;
        var dashboardType = data.dashboardType;
        sum += data.sum;
        photoNum += data.photoNum;
        reblogNum += data.reblogNum;
        postNum += data.postNum;
        videoNum += data.videoNum;
        musicNum += data.musicNum;
        videoShortNum += data.videoShortNum;
        questionNum += data.questionNum;
        appNum += data.appNum;
        dialogNum += data.dialogNum;
        if(!reblogFlag) {
            if(dashboardFlag) {
                sum += 1;
                if(dashboardType == 10) {
                    postNum += 1;
                } else if(dashboardType == 20) {
                    photoNum += 1;
                } else if(dashboardType == 30) {
                    videoNum += 1;
                } else if(dashboardType == 31) {
                    videoShortNum += 1;
                } else if(dashboardType == 40) {
                    musicNum += 1;
                } else if(dashboardType == 60) {
                    questionNum += 1;
                } else if(dashboardType == 100) {
                    appNum += 1;
                } else if(dashboardType == 91) {
                    dialogNum += 1;
                }
            } else {
                if(dashboardType == 20) {
                    photoNum += 1;
                }
            }
        } else if(reblogFlag && dashboardFlag) {
            reblogNum += 1;
        }
        
    }
    return {sum:NumberInt(sum),reblogNum:NumberInt(reblogNum),postNum:NumberInt(postNum),photoNum:NumberInt(photoNum),
        videoNum:NumberInt(videoNum),videoShortNum:NumberInt(videoShortNum),
        musicNum:NumberInt(musicNum), questionNum:NumberInt(questionNum),appNum:NumberInt(appNum),dialogNum:NumberInt(dialogNum)};
};
db.getMongo().setSlaveOk();
db.dashboard_basic.mapReduce(
        map,
        reduce,
        {
            out:{merge:'aAccounttemp'}
        }
    );
var results = db.aAccounttemp.find();
//重新整理数据格式,存入正规表中
while (results.hasNext()) {
    var obj = results.next();
    var value = obj.value;
    var sum = NumberInt(value.sum);
    var reblogNum = NumberInt(value.reblogNum);
    var postNum = NumberInt(value.postNum);
    var photoNum = NumberInt(value.photoNum);
    var videoNum = NumberInt(value.videoNum);
    var videoShortNum = NumberInt(value.videoShortNum);
    var musicNum  = NumberInt(value.musicNum);
    var questionNum = NumberInt(value.questionNum);
    var appNum = NumberInt(value.appNum);
    var dialogNum = NumberInt(value.dialogNum);
    var accountId = obj._id;
    db.dashboard_account_num.insert({accountId:accountId,sum:sum,reblogNum:reblogNum,postNum:postNum,photoNum:photoNum,
        videoShortNum:videoShortNum,videoNum:videoNum,musicNum:musicNum,questionNum:questionNum,
        appNum:appNum,dialogNum:dialogNum});
}

print('success insert total ' + results.count()+ ' datas');
db.aAccounttemp.drop()
quit()  

如果本篇文章对你有帮助的话,很高兴能够帮助上你。

当然,如果你觉得文章有什么让你觉得不合理、或者有更简单的实现方法又或者有理解不来的地方,希望你在看到之后能够在评论里指出来,我会在看到之后尽快的回复你。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/17871.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

JVM 彻底搞懂JVM内存区域及直接内存

面试题&#xff1a;直接内存会导致OOM么&#xff1f; 程序计数器 代表当前线程所执行的字节码所在的行号&#xff0c;配合字节码解释器获取下一条需要执行的字节码指令。 代码中的分支、循环、跳转、异常处理、线程恢复都要依靠它来实现。 程序计数器是线程私有的&#xff0…

进程控制的一些具体操作

目录进程控制进程终止进程退出的方式进程等待进程等待的方法wait使用方法waitpid使用方法进程程序替换替换函数execl函数execv函数execlp函数execvp函数execle函数execve函数---->只有这一个是系统调用&#xff0c;其他都是库函数execvpe函数补充几个知识: %s/被替换的文件…

代码随想录——冗余连接II(并查集)

题目 在本问题中&#xff0c;有根树指满足以下条件的 有向 图。该树只有一个根节点&#xff0c;所有其他节点都是该根节点的后继。该树除了根节点之外的每一个节点都有且只有一个父节点&#xff0c;而根节点没有父节点。 输入一个有向图&#xff0c;该图由一个有着 n 个节点&am…

vb.net自定义白板

希沃白板在学校里基本上是一直使用的&#xff0c;但是在非希沃电脑里面是没有启动白板的 简答介绍思路和具体的功能 1、背景颜色和画笔颜色自由切换、画笔粗细1~20可以调节。 2、画笔样式&#xff1a;虚线、点线、短线 3、基本图形&#xff1a;矩形&#xff0c;正方形&…

程序员级别分析,看看你是哪个级别

关于程序员的工资众说纷纭&#xff0c;有说开七八千的&#xff0c;也有人说每月上万的&#xff0c;但不管怎么说&#xff0c;程序员的工资是真的比一些文职、行政人员岗位挣得多&#xff0c;大家都是靠自己的能力赚钱&#xff0c;这没什么可比的&#xff0c;况且大家都是在学习…

JAVASE零基础到高级教程(1)------ 集成开发环境安装使用

一 什么是环境变量 环境变量是在操作系统中⼀个具有特定名字的对象&#xff0c;它包含了⼀个或者多个应⽤程序所将使⽤到的 信息。例如Windows和DOS操作系统中的path环境变量&#xff0c;当要求系统运⾏⼀个程序⽽没有告诉它程 序所在的完整路径时&#xff0c;系统除了在当前⽬…

前端框架 Electron 使用总结

目录 一、基础搭建 通过脚手架搭建 1、Electron官方案例搭建环境 2、查看调试 3、菜单的使用 4、图标配置 5、项目打包 web应用相信每位程序员都不陌生&#xff0c;PC端应用可能会底层开发的就不是太多了&#xff0c;下面的这套技术栈就是为前端程序员快速一键搭建windo…

Linux学习——网络编程基础及TCP服务器

目录 一、网络采用分层的思想&#xff1a; 二、各层典型的协议&#xff1a; 三、网络的封包和拆包&#xff1a; 四、网络编程的预备知识 4.1.SOCKET 4.2 IP地址 4.3 端口号 4.4 字节序 五、TCP编程API TCP协议分成了两个不同的协议&#xff1a;可靠传输&#xff1a;用来检测网络…

读书笔记-学习GNU Emacs-3终篇

学习本书目的&#xff1a; emacs的学习一直是陆陆续续看博客和上手实践&#xff0c;这次想通过阅读"学习GNU Emacs"这本书好好系统的再复习下emacs。 yps:读技术书应该是带着一定的目的去读的&#xff0c;最简单的目的可能就是为了学好某一项技术或者复习下某一项技…

[附源码]java毕业设计社区健康服务平台管理系统lunwen

项目运行 环境配置&#xff1a; Jdk1.8 Tomcat7.0 Mysql HBuilderX&#xff08;Webstorm也行&#xff09; Eclispe&#xff08;IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持&#xff09;。 项目技术&#xff1a; SSM mybatis Maven Vue 等等组成&#xff0c;B/S模式 M…

IDEA利用maven建立javaWeb项目(IDEA 2021.3.3)

1、在Idea中配置maven (1)、打开Idea&#xff0c;点击File&#xff0c;然后点击Settings&#xff0c;进入设置&#xff0c;或者直接按CtrlAltS进入设置 (2)、先在左上角的搜索框输入maven&#xff0c;找到maven后单击&#xff0c;然后在右边的maven home path的右边选择你的m…

置信度--学习笔记

置信区间是衡量测量精度的一个指标&#xff0c;也能显示出估算有多稳定&#xff0c;也就是说如果重复做某项实验&#xff0c;得到的结果与最初的估计有多接近。步骤&#xff1a; 确定要测试的情况&#xff1a;如“A大学男生的平均体重是80公斤”&#xff0c;则后续就是要测试在…

最新最全面的Spring详解(三)——Resources,验证、数据绑定和类型转换与Spring表达式语言(SpEL)

前言 本文为 【Spring】Resources与Spring表达式语言&#xff08;SpEL&#xff09; 等相关知识&#xff0c;下边将对Resources&#xff08;包含&#xff1a;Resource接口、内置的 Resource的实现、ResourceLoader接口、应用环境和资源路径&#xff09;&#xff0c;验证、数据绑…

浅谈化工生产制造企业软件系统的选择

现在大家都在讨论全球COVID流行和经济衰退对企业的影响&#xff0c;以及一个有作为的企业&#xff0c;在当下的环境下如何求生存和谋发展的问题。“埃森哲的一份报告发现&#xff0c;99%的首席运营官都认为&#xff0c;使用实时数据运营对于应对Covid或经济衰退威胁等至关重要。…

Java的JDBC编程

1. 数据库编程的必备条件 编程语言&#xff0c;如Java&#xff0c;C、C、Python等数据库&#xff0c;如Oracle&#xff0c;MySQL&#xff0c;SQL Server等数据库驱动包&#xff1a;不同的数据库&#xff0c;对应不同的编程语言提供了不同的数据库驱动包&#xff0c;如&#xf…

Telnet SMTP协议关于“535 Error: authentication failed“解决思路

计算机网络中应用层的SMTP(Simple Mail Transfer Protocol)协议可用来发送邮件&#xff0c;在Telnet使用SMTP登陆账号密码时出现“535 Error: authentication failed”问题。现记录解决步骤。 1. 确认在邮箱中已开启SMTP服务。 2. 按照扫码流程&#xff0c;获得授权密码&…

第六章第二节:图的遍历(广度优先遍历和深度优先遍历)和应用(最小生成树、最短路径、有向无环图的描述表达式、拓扑排序、关键路径)

文章目录1. 图的遍历1.1 广度优先搜索&#xff08;BFS&#xff09;1.1.1 遍历序列的可变性1.1.2 复杂度的分析1.1.3 广度优先生成树1..1.4 广度优先生成森林1.2 深度优先搜索&#xff08;DFS&#xff09;1.2.1 树的深度优先遍历1.2.2 图的深度优先遍历1.2.2 复杂度的分析1.2.4 …

Servlet | 域对象、request对象其它常用的方法

目录 一&#xff1a;域对象 1、应用域对象 2、请求域对象 二&#xff1a;request对象其它常用的方法 一&#xff1a;域对象 1、应用域对象 &#xff08;1&#xff09;应用域对象是什么&#xff1f; ServletContext &#xff08;Servlet上下文对象。&#xff09; 什么情况…

NCV7705DQAR2G 汽车电机驱动器(NCV7705DQR2G)引脚配置

型号&#xff1a;NCV7705DQAR2G NCV7705DQR2G 封装&#xff1a;36-BFSOP 类型&#xff1a;电机驱动器&#xff0c;控制器 NCV7705/NCV7705(A)是一款功能强大的汽车车身控制系统驱动IC。该集成电路设计用于控制车辆前门的多个负载。单片集成电路可以控制镜面定位、加热、折叠等…

JS测试出最小支持字体,以及修复PDFJS的文本错误偏移

PDFJS的文本层有时会有一个错误的整体偏移&#xff0c;导致文本处于错误位置&#xff0c;导致用户选择错误的文本。 为什么会这样呢&#xff1f;其一&#xff0c;如果浏览器的文本缩放不是100%&#xff0c;而PDFJS没有检测这一点&#xff0c;导致文本排布发生偏移。安卓可以通…