搜索：

mongo对文档中数组进行过滤的三种方法

发表于阅读(1) 博客类别：Crawler 转自：https://www.cnblogs.com/goldsunshine/p/18460043
如有侵权请联系我们删除 (页面底部联系我们)

前言

在mongo中数据类型有很多种，常见的包括：

数据类型	例子	描述
String	`{ "x" : "foot" }`	字符串。存储数据常用的数据类型。在 MongoDB 中，UTF-8 编码的字符串才是合法的。
Integer	`{ "x" : 1 }`	整型数值。用于存储数值。根据你所采用的服务器，可分为 32 位或 64 位。
Object	`{ "x" : { "y" : "foot" } }`	用于内嵌文档
Array	`{ "x" : [ "a" , "b" ] }`	用于将数组或列表或多个值存储为一个键。

有一种很常见的查询，就是过滤数组中的一些数据，只返回符合要求的数据。数据如下，将下面travel中的vehicle=train的记录保留，过滤掉其他的元素，并返回整个文档。

{
    "name": "tom", 
    "travel": [
        {
            "vehicle" : "train",
            "city" : "北京"
        },
        {
            "vehicle" : "plane",
            "city" : "上海"
        }, 
        {
            "vehicle" : "train",
            "city" : "深圳"
        }
    ]
}

想要实现数组的过滤有三种方法，包括：

聚合查询使用$unwind将travel数组打散,获取结果集后用$match筛选符合条件的数据，最后使用$group进行聚合获取最终结果集
聚合查询使用$match过滤符合条件的根文档结果集，然后使用$project返回对应字段的同时，在travel数组中使用$filter进行内部过滤，返回最终结果集
普通查询先筛选记录，然后通过投影查询过滤数组

下面来分析这三种方法能否实现需求。

添加数据

假设有两条记录，每条记录是一个人的信息，包括姓名、职业、旅游过的城市。旅游过的城市是一个数组，包含城市的名字以及交通工具。

db.test.insertOne({
    "uid" : "1000001",
    "name" : "zhangsan",
    "job": "coder",
    "travel" : [ 
        {
            "vehicle" : "train",
            "city" : "北京"
        }, 
        {
            "vehicle" : "plane",
            "city" : "上海"
        }, 
        {
            "vehicle" : "train",
            "city" : "深圳"
        }
    ]
})

db.test.insertOne({

    "uid" : "1000002",
    "name" : "lisi",
    "job": "coder",
    "travel" : [ 
        {
            "vehicle" : "plane",
            "city" : "北京"
        }, 
        {
            "vehicle" : "car",
            "city" : "上海"
        }, 
        {
            "vehicle" : "train",
            "city" : "深圳"
        }
    ]
})

db.test.find()
{ _id: ObjectId("6708d3e646d2075ca11e88ce"),
  uid: '1000001',
  name: 'zhangsan',
  job: 'coder',
  travel: 
   [ { vehicle: 'train', city: '北京' },
     { vehicle: 'plane', city: '上海' },
     { vehicle: 'train', city: '深圳' } ] }
{ _id: ObjectId("6708d3f646d2075ca11e88cf"),
  uid: '1000002',
  name: 'lisi',
  job: 'coder',
  travel: 
   [ { vehicle: 'plane', city: '北京' },
     { vehicle: 'car', city: '上海' },
     { vehicle: 'train', city: '深圳' } ] }

验证三种方法

需求说明

现在的目标是：筛选的出所有记录中通过火车去旅游的城市，也就是travel数组中vehicle=train的记录，过滤掉非目标记录。

方法一

方法一：使用$unwind将travel数组打散,获取结果集后用match筛选符合条件的数据，最后使用$group进行聚合获取最终结果集。

db.getCollection('test').aggregate(
    [
        {   
            $unwind: "$travel" 
        },
        { 
            $match : {
                "job":"coder", 
                "travel.vehicle": "train" 
            } 
        },
        { 
            $group : { 
                "_id" : "$uid", 
                "travel": { $push: "$travel" } 
            } 
        } 
    ]
)

结果：

{ _id: '1000002', travel: [ { vehicle: 'train', city: '深圳' } ] }
{ _id: '1000001', travel: [ { vehicle: 'train', city: '北京' }, { vehicle: 'train', city: '深圳' } ] }

分析：

unwind 可以将一个数组拆分，例如unwind的效果如下：

{ _id: ObjectId("6708d3e646d2075ca11e88ce"),
  uid: '1000001',
  name: 'zhangsan',
  job: 'coder',
  travel: { vehicle: 'train', city: '北京' } }
{ _id: ObjectId("6708d3e646d2075ca11e88ce"),
  uid: '1000001',
  name: 'zhangsan',
  job: 'coder',
  travel: { vehicle: 'plane', city: '上海' } }
{ _id: ObjectId("6708d3e646d2075ca11e88ce"),
  uid: '1000001',
  name: 'zhangsan',
  job: 'coder',
  travel: { vehicle: 'train', city: '深圳' } }
{ _id: ObjectId("6708d3f646d2075ca11e88cf"),
  uid: '1000002',
  name: 'lisi',
  job: 'coder',
  travel: { vehicle: 'plane', city: '北京' } }
{ _id: ObjectId("6708d3f646d2075ca11e88cf"),
  uid: '1000002',
  name: 'lisi',
  job: 'coder',
  travel: { vehicle: 'car', city: '上海' } }
{ _id: ObjectId("6708d3f646d2075ca11e88cf"),
  uid: '1000002',
  name: 'lisi',
  job: 'coder',
  travel: { vehicle: 'train', city: '深圳' } }

然后通过match筛选出符合条件的数据

{ _id: ObjectId("6708d3e646d2075ca11e88ce"),
  uid: '1000001',
  name: 'zhangsan',
  job: 'coder',
  travel: { vehicle: 'train', city: '北京' } }
{ _id: ObjectId("6708d3e646d2075ca11e88ce"),
  uid: '1000001',
  name: 'zhangsan',
  job: 'coder',
  travel: { vehicle: 'train', city: '深圳' } }
{ _id: ObjectId("6708d3f646d2075ca11e88cf"),
  uid: '1000002',
  name: 'lisi',
  job: 'coder',
  travel: { vehicle: 'train', city: '深圳' } }

最后通过group进行聚合，以_id为聚合依赖，合并相同_id的数据。

总结：

这种方法是能够达到过滤数组的要求，但是有一个问题，拆分数组比较简单，想要再合并起来就不容易了。group只能以某一个变量为基准聚合，其他变量都会丢失。比如最后的结果只保留了_id和travel,其他变量都丢失了。

方法二

方法二：使用$match过滤符合条件的根文档结果集，然后使用$project返回对应字段的同时，在travel数组中使用$filter进行内部过滤，返回最终结果集

db.getCollection('test').aggregate(
    [
        { 
            $match : { "job": "coder" } 
        },
        {
            $project: {
                "uid": 1,
                "name": 1,
                "travel": {
                    $filter: {
                        input: "$travel",
                        as: "item",
                        cond: { $eq : ["$$item.vehicle","train"] }
                    }
                }
            }
        }
    ]
)

结果分析：

{ _id: ObjectId("6708d3e646d2075ca11e88ce"),
  uid: '1000001',
  name: 'zhangsan',
  travel: [ { vehicle: 'train', city: '北京' },{ vehicle: 'train', city: '深圳' } ] }
{ _id: ObjectId("6708d3f646d2075ca11e88cf"),
  uid: '1000002',
  name: 'lisi',
  travel: [ { vehicle: 'train', city: '深圳' } ] }

分析：

mongo中查询分为两种：普通查询和高级查询。高级查询包括聚合查询，用aggregate关键字实现。

MongoDB的聚合管道将MongoDB文档在一个管道处理完毕后将结果传递给下一个管道处理。管道操作是可以重复的。

这里我们介绍一下聚合框架中常用的几个操作：

$project：修改输入文档的结构。可以用来重命名、增加或删除域，也可以用于创建计算结果以及嵌套文档。
$match：用于过滤数据，只输出符合条件的文档。$match使用MongoDB的标准查询操作。
$limit：用来限制MongoDB聚合管道返回的文档数。
$skip：在聚合管道中跳过指定数量的文档，并返回余下的文档。
$unwind：将文档中的某一个数组类型字段拆分成多条，每条包含数组中的一个值。
$group：将集合中的文档分组，可用于统计结果。
$sort：将输入文档排序后输出。
$geoNear：输出接近某一地理位置的有序文档。

这里首先使用match过滤所有job=coder，然后使用project修改输出的结构。在project中使用了filter来过滤数组中的元素。

filter的定义如下：

根据指定条件选择要返回的数组的子集。返回仅包含与条件匹配的那些元素的数组。返回的元素按原始顺序。

$filter 具有以下语法：

{ $filter: { input: <array>, as: <string>, cond: <expression> } }

领域	规格
input	解析为数组的表达式。
as	可选的。代表数组中每个单独元素的变量名称input。如果未指定名称，则变量名称默认为this
cond	该表达式可解析为布尔值，该布尔值用于确定输出数组中是否应包含元素。该表达式input使用在中指定的变量名称分别引用数组的每个元素as。

https://mongodb.net.cn/manual/reference/operator/aggregation/filter/

在cond将vehicle=train的元素留下，排除其他元素。

总结：

这种方法可以完成查询目标，既可以过滤掉数组中的元素，也可以返回完整的文档。

方法三

方法三：

通过投影查询，先选择符合条件的记录，在通过使用投影操作符，需要返回的字段，以及排除特定的字段。

db.test.find(
      {
         job: "coder"
      }, 
      {  
          uid: 1, 
          name: 1, 
          travel: {
             $filter: {
                input: "$travel",
                as: "item",
                cond: { $eq : ["$$item.vehicle","train"] }
             } 
          } 
      }
)

结果：

{ _id: ObjectId("6708d3e646d2075ca11e88ce"),
  uid: '1000001',
  name: 'zhangsan',
  travel: 
   [ { vehicle: 'train', city: '北京' },
     { vehicle: 'train', city: '深圳' } ] }
{ _id: ObjectId("6708d3f646d2075ca11e88cf"),
  uid: '1000002',
  name: 'lisi',
  travel: [ { vehicle: 'train', city: '深圳' } ] }

分析：

什么是投影查询？

在MongoDB中，投影查询是一种查询操作，用于选择性地返回文档中的字段。通过使用投影操作符，我们可以指定需要返回的字段，以及是否要排除特定的字段。

投影查询语法如下所示：

db.collection.find({ <query> }, { <projection> })

其中，是一个查询表达式，用于筛选满足条件的文档。是一个可选参数，用于指定要返回的字段。

在projection中保留字段、排除字段、选择或排除数组中的特定元素。利用选择或排除数组中的特定元素的特性也可以达到目的。

例如：

如果我们只想返回每个文档中的第一个标签，我们可以这样做：

db.products.find({}, { tags: { $slice: 1 } })

在本篇中通过filter方法来过滤数组，保留符合条件的元素。

总结：

该方法能够完成查询目标，并且是一种简洁的实现，普通查询复杂度低，而且没有太多关键字的使用。

参考文档 ：

https://geek-docs.com/mongodb/mongodb-questions/393_mongodb_mongo_query_with_projection.html

https://segmentfault.com/a/1190000016629733

https://mongodb.net.cn/manual/reference/operator/aggregation/filter/

https://blog.csdn.net/weixin_44009447/article/details/115479348

上一篇：使用doccano标注NER数据详细教程

下一篇：.NET 8 实现无实体库表 API 部署服务