DSL官方地址:
DSL查询分类
Elasticsearch提供了基于JSON的DSL(https://www.elastic.co/docs/explore-analyze/query-filter/languages/querydsl)来定义查询。常见的查询类型包括:
-
查询所有:查询出所有数据,一般测试用。例如:match_all
-
全文检索(full text)查询:利用分词器对用户输入内容分词,然后去倒排索引库中匹配。例如:
-
match_query
-
multi_match_query
-
-
精确查询:根据精确词条值查找数据,一般是查找keyword、数值、日期、boolean等类型字段。例如:
-
ids
-
range
-
term
-
-
地理(geo)查询:根据经纬度查询。例如:
-
geo_distance
-
geo_bounding_box
-
-
复合(compound)查询:复合查询可以将上述各种查询条件组合起来,合并查询条件。例如:
-
bool
-
function_score
-
查询所有
Query基本语法
match查询:全文检索查询的一种,会对用户输入内容分词,然后去倒排索引库检索,语法:
GET /hotel/_search
{
"query": {
"match_all": {
}
}
}
全文检索
GET /hotel/_search
{
"query": {
"match": {
"all": "速8北京后海"
}
}
}
multi_match:与match查询类似,只不过允许同时查询多个字段
GET /hotel/_search
{
"query": {
"multi_match": {
"query": "北京后海速8",
"fields": ["brand","name"]
}
}
}
这两个比较 上面的 效率要高
GET /hotel/_search
{
"query": {
"match": {
"all": "速8北京后海"
}
}
}
GET /hotel/_search
{
"query": {
"multi_match": {
"query": "北京后海速8",
"fields": ["brand","name"]
}
}
}
精确查询
精确查询一般是查找keyword、数值、日期、boolean等类型字段。所以不会对搜索条件分词
term查询
# 精确查找
GET /hotel/_search
{
"query":{
"term": {
"city": {
"value": "北京"
}
}
}
}
区间查询
区间查询 价格 100-200 gt:大于 lt:小于
区间查询 价格 100-200 gte:大于等于 lte:小于等于
# 区间查询 价格 100-200 gte:大于等于 lte:小于等于
GET /hotel/_search
{
"query": {
"range": {
"price": {
"gte": 100,
"lte": 200
}
}
}
}
# 区间查询 价格 100-200 gt:大于 lt:小于
GET /hotel/_search
{
"query": {
"range": {
"price": {
"gt": 1000,
"lt": 2000
}
}
}
}
地理查询
geo_distance 查询
# geo_distance 查询
GET /hotel/_search
{
"query": {
"geo_distance":{
"distance":"5km",
"location":"31.23462, 121.47327"
}
}
}
查询附近的 15km 千米 46 家
查询附近的 5km 千米 15 家
复合查询
复合(compound)查询:复合查询可以将其它简单查询组合起来,实现更复杂的搜索逻辑。常见的有两种:
-
function score:算分函数查询,可以控制文档相关性算分,控制文档排名
-
bool query:布尔查询,利用逻辑关系组合多个其它的查询,实现复杂搜索
Function Score Query
使用 function score query,可以修改文档的相关性算分(query score),根据新得到的算分排序。
测试案例 给“如家”这个品牌的酒店排名靠前一些
# function_score 查询
GET /hotel/_search
{
"query": {
"function_score": {
"query": {
"match": {
"all": "外滩"
}
},
"functions": [
{
"filter": {
"term": {
"brand": "如家"
}
},
"weight": 10
}
],
"boost_mode": "sum"
}
}
}
function score query定义的三要素是
过滤条件:哪些文档要加分
算分函数:如何计算function score
加权方式:function score 与 query score如何运算
复合查询 Boolean Query
布尔查询是一个或多个查询子句的组合,每一个子句就是一个子查询。子查询的组合方式有:
-
must:必须匹配每个子查询,类似“与”
-
should:选择性匹配子查询,类似“或”
-
must_not:必须不匹配,不参与算分,类似“非”
-
filter:必须匹配,不参与算分
语法示例
GET /hotel/_search
{
"query": {
"bool": {
"must": [
{
"match": {
"name": "如家"
}
}
],
"must_not": [
{
"range": {
"price": {
"gt": 400
}
}
}
],
"filter": [
{
"geo_distance": {
"distance": "10km",
"location": {
"lat": 31.21,
"lon": 121.5
}
}
}
]
}
}
}
must 里面会参与算分,参与字段越多 性能越差,如不需要算分的就移除到 filter 里面
搜索结果处理
排序
elasticsearch默认是根据相关度算分(_score)来排序,但是也支持自定义方式对搜索结果排序。可以排序字段类型有:keyword类型、数值类型、地理坐标类型、日期类型等
keyword、数值、日期类型排序的语法基本一致
普通排序
语句
# sort 排序 查询
GET /hotel/_search
{
"query": {
"match_all": {}
},
"sort": [
{
"score": "desc"
},
{
"price": "asc"
}
]
}
地理坐标排序
地理坐标 升序排序
# 安 地理坐标 升序排序
GET /hotel/_search
{
"query": {
"match_all": {}
},
"sort": [
{
"_geo_distance": {
"location": {
"lat": 31.034661,
"lon": 121.612282
},
"order": "asc",
"unit": "km"
}
}
]
}
分页
基本的分页
# 分页
GET /hotel/_search
{
"query": {
"match_all": {}
},
"from": 10,
"size": 5,
"sort": [
{
"price": "desc"
}
]
}
深度分页问题
高亮
语法
GET /hotel/_search
{
"query": {
"match": {
"name": "如家"
}
},
"highlight": {
"fields": {
"name": {}
}
}
}
GET /hotel/_search
{
"query": {
"match": {
"all": "如家"
}
},
"highlight": {
"fields": {
"name": {
"require_field_match": "false"
}
}
}
}