文章目录
- 题目需求
- 思路一
- 实现一
- 题目来源
 
 
 
题目需求
现有各用户的登录记录表(login_events)如下,表中每行数据为:一个用户何时登录了平台。
现要求统计各用户最长的连续登录天数,间断一天也算作连续,例如:一个用户在1,3,5,6登录,则视为连续6天登录。
期望结果如下(截取部分):
| user_id (用户id) | max_day_count (最大连续天数) | 
|---|---|
| 100 | 3 | 
| 101 | 6 | 
| 102 | 3 | 
| 104 | 3 | 
| 105 | 1 | 
需要用到的表:
用户的登录记录表:login_events
| user_id | login_datetime | 
|---|---|
| 100 | 2021-12-01 19:00:00 | 
| 100 | 2021-12-01 19:30:00 | 
| 100 | 2021-12-02 21:01:00 | 
思路一

实现一
-- 3) 计算日期差
select user_id,
       -- 统计每个用户每次连续登录的日期聚合
       -- collect_set(login_datetime)
       datediff(collect_set(login_datetime)[size(collect_set(login_datetime)) - 1], collect_set(login_datetime)[0]) +
       1 as max_day_count
from (
         -- 2) 求 sum
         select user_id,
                login_datetime,
                sum(flag) over (partition by user_id order by login_datetime) as sum
         from (
                  select user_id,
                         -- 本地登录时间
                         date_format(login_datetime, 'yyyy-MM-dd')                                       as login_datetime,
                         -- 1.1) 获取该用户上次登录时间
                         -- 1.2)计算该用户 (本次登录时间 - 上次登录时间), if(本次登录时间 - 上次登录时间) > 2, 标记为1(不连续登录标记),否则为0
                         if(datediff(date_format(login_datetime, 'yyyy-MM-dd'),
                                -- 注意: 不可以使用不存在的日期,例如 '0000-00-00'
                                     lag(date_format(login_datetime, 'yyyy-MM-dd'), 1, '0001-01-01')
                                         over (partition by user_id order by login_datetime)) > 2, 1, 0) as flag
                  from login_events
              ) t1
     ) t2
group by user_id, sum;
题目来源
http://practice.atguigu.cn/#/question/43/desc?qType=SQL



















