文章目录

1.Pure LDP Protocol
- 1.1相关背景
- 1.2支持集
- 1.3相关定义
2.Basic one-time RAPPOR
3.Rappor
4.Direct Encoding
- 4.1GRR
- 4.2RR
5.Unary Encoding
- 5.1Symmetric Unary Encoding
- 5.1Optimized Unary Encoding
6.Local Hashing
- 6.1Binary Local Hashing
- 6.2Local Hashing
- 6.3Optimal Local Hashing
7.Histogram Encoding
- 7.1Summation with Histogram Encoding不纯
- 7.2Thresholding with Histogram Encoding

本文重点：搞清楚真实值、观察值、估计值之间的关系。

1.Pure LDP Protocol

1.1相关背景

基于LDP频率估计的几种方法，如何比较它们？在同一隐私水平下，哪个协议能提供更好的精度和更低的通信代价？
为了回答这些问题，本文定义了一个Pure LDP Protocols

Pure LDP Protocols是一种简单的、通用的协议
给出了估计方差的公式，统一标准，目前大多数现有的方法都能适应这个协议
该协议还能够精确地分析和比较不同方法的准确性，并对它们进行归纳和优化

1.2支持集

$\text{Pr}\left[\text{PE}(v_1)\in\{y\mid v_1\in\text{Support}(y)\}\right]=p^*,\\ \forall_{v_2\neq v_1}\text{Pr}\left[\text{PE}(v_2)\in\{y\mid v_1\in\text{Support}(y)\}\right]=q^*.$
在这里插入图片描述
以这个例子为例（个人理解）：当i等于3时，满足编码后B0的向量中第3个位置为1的集合，再通过集合映射到原来的用户，用户所组成的集合，即为支持集。

定义了Support函数：它将每个可能的输出y映射到y支持的一组输入值。

example：Basic RAPPOR 输出的二进制变量值B被解释为支持每个对应位为1的输入 Support(B)={i|B[i]=1} d=5,i=2,Encode(i)=[0,1,0,0,0] Support(B[2])=x表示的是有哪些x值经过编码以后第2个位置为1，满足条件的集合。

1.3相关定义

条件：

pure LDP协议要求任何值v映射到其所支持集的概率是相等的（每个p或者q都是独立且相等）
p* > q*

步骤说明：
$Support(B) = \{ i|B[i] = 1\}$
$Support({y_1}) = \{ i|{y_1}[i] = 1\} {\text{ = \{ }}{v_1}{\text{,}}{{\text{v}}_4}{\text{\} }}$
$令\{ {y_1}|\{ {v_1},{v_4}\} \in Support({y_1})\} = t$
可以得出
$\Pr [PE({v_1}) \in t] = \Pr [PE({v_4}) \in t] = {p^*}$ ${\forall _{{v_j} \ne {v_1}}}\Pr [PE({v_j}) \in t] = {q^*}$

2.Basic one-time RAPPOR

举一个满足PureLDP的例子Basic one-time RAPPOR：
在这里插入图片描述

参考图见上图
p*满足相等(真实扰动概率)：
${p^*}[{y_1}|PE({v_1})] = {p^*}[{y_1}|PE({v_4})] = {(1 - \frac{1}{2}f)^4}$

q*满足相等(非真实扰动概率)：
${\forall _{{v_j} \ne {v_i}}},{q^*}[{y_1}|PE({v_2})] = (1 - \frac{1}{2}f){(\frac{1}{2}f)^2}(1 - \frac{1}{2}f) = {(1 - \frac{1}{2}f)^2}{(\frac{1}{2}f)^2}$
${q^*}[{y_1}|PE({v_3})] \to = (\frac{1}{2}f)(\frac{1}{2}f){(1 - \frac{1}{2}f)^2} = {(1 - \frac{1}{2}f)^2}{(\frac{1}{2}f)^2}$

Aggregation:
概率表达式：
$\pi p* + (1 - \pi )q*P(y = 0) = \pi q* + (1 - \pi )p*$
构建似然函数：
${[\pi p* + (1 - \pi )q*]^{{n_1}}}{[\pi q* + (1 - \pi )p*]^{n - {n_1}}}$
${n_1}ln[\pi p* + (1 - \pi )q*] + (n - {n_1})ln[\pi q* + (1 - \pi )p*]$
求偏导：
$\frac{{\partial lnL}}{{\partial \pi }} = \frac{{{n_1}(p* - q*)}}{{\pi p* + (1 - \pi )q*}} + \frac{{(n - {n_1})(q* - p*)}}{{\pi q* + (1 - \pi )p*}} = 0$
估计量：
$\hat \pi = \frac{{{n_1}/n - q*}}{{p* - q*}} \Rightarrow \hat c = \frac{{{n_1} - n*q}}{{p* - q*}}$

在这里插入图片描述
无偏性证明：
对于 $Pure\;Protocols,\tilde c = \frac{{{n_1} - q*n}}{{p* - q*}}$ 是无偏的
$E(\tilde c) = E(\frac{{{n_1} - q*n}}{{p* - q*}}) = \frac{{E({n_1}) - q*n}}{{p* - q*}} = \frac{{n(\pi p* + (1 - \pi )q*) - q*n}}{{p* - q*}} = n\frac{{\pi p* + q* - \pi q* - q*}}{{p* - q*}} = \pi n$

方差：
$Var(\tilde c) = Var(\frac{{{n_1} - {q^*}n}}{{{p^*} - {q^*}}}) = \frac{{Var({n_1})}}{{{{({p^*} - {q^*})}^2}}} = \frac{{n\pi {p^*}(1 - {p^*}) + n(1 - \pi ){q^*}(1 - {q^*})}}{{{{({p^*} - {q^*})}^2}}}{\text{ = }}\frac{{n\pi {p^*} - n\pi {p^*}^2 + n{q^*}(1 - {q^*}) - n\pi {q^*} + n\pi {q^{*2}}}}{{{{({p^*} - {q^*})}^2}}} = \frac{{n{q^*}(1 - {q^*})}}{{{{({p^*} - {q^*})}^2}}} + \frac{{n\pi (1 - {p^*} - {q^*})}}{{{p^*} - {q^*}}}$

当现实情况中，值域很大的情况。
或者p* + q* = 1 的情况。
$Var(\tilde c) = \frac{{n{q^*}(1 - {q^*})}}{{{{({p^*} - {q^*})}^2}}}$

这里计算方差的方式细节和RR有一些不同：

3.Rappor

举一个不满足PureLDP的例子RAPPOR：

在这里插入图片描述

概率树公式为：
$P[{S_i} = 1|{B_i} = 1] = (1 - \frac{f}{2})q + \frac{f}{2}p = {q^*}$
$P[{S_i} = 0|{B_i} = 0] = (1 - \frac{f}{2})(1 - p) + \frac{f}{2}(1 - q) = 1 - {p^*}$
$P[{S_i} = 1|{B_i} = 0] = (1 - \frac{f}{2})p + \frac{f}{2}q = {p^*}$
$P[{S_i} = 0|{B_i} = 1] = (1 - \frac{f}{2})(1 - q) + \frac{f}{2}(1 - p) = 1 - {q^*}$

p*满足相等(真实扰动概率)：
${P^*}[{y_1}|PE({v_1})] = {({q^*})^2}{(1 - {p^*})^2}$

q*不满足相等(非真实扰动概率)：
${\forall _{{v_j} \ne {v_1}}}{Q^*}[{y_1}|PE({v_2})] = ({q^*})({p^*})(1 - {q^*})(1 - {p^*})$
${Q^*}[{y_1}|PE({v_3})] = {({p^*})^2}{(1 - {q^*})^2}$

𝑣_2映射到𝑣_1的支持集的概率不等于𝑣_3映射到𝑣_1的支持集的概率所以RAPPOR不是Pure LDP Protocol

4.Direct Encoding

4.1GRR

Encoding:Encode(v)=v
Perturbation:GRR扰动
在这里插入图片描述
满足ε-LDP:
$LDP:\frac{{\Pr [PE({v_1}) = y]}}{{\Pr [PE({v_2}) = y]}} \leqslant {e^\varepsilon } \Rightarrow \frac{p}{{\frac{{1 - p}}{{d - 1}}}} \leqslant {e^\varepsilon }$

$\frac{{{e^\varepsilon }}}{{{e^\varepsilon } + d - 1}},q = 1 - p/d - 1 = \frac{1}{{{e^\varepsilon } + d - 1}}$

在这里插入图片描述
满足pureLDP：
从支持集角度来看
$Support(y = 1) = \{ {v_1} = 1\}$
$let\;\{ y|{v_1} \in Suppor{t_{DE}}(y)\} = t$
$\Pr [PE({v_1}) \in t] = {p^*} = p,{\forall _{{v_j} \ne {v_1}}}\Pr [PE({v_j}) \in t] = {q^*} = q$
直接带入计算得出方差：
$Var^*(\tilde{c}_{D E})\:=\:n\dfrac{e^{\varepsilon}+d\:-\:2}{\left(e^{\varepsilon}-1\right)^2}$

4.2RR

在这里插入图片描述

5.Unary Encoding

在这里插入图片描述
满足ε-LDP:
$P:\frac{\text{Pr}[\:B^{\circ}[i]\:|\:B_1[i]]}{\text{Pr}[\:B^{\circ}[i]\:|\:B_2[i]]}=\frac{\left(1-q\right)p\left(1-q\right)^{d-2}}{\left(1-p\right)q\left(1-q\right)^{d-2}}=\frac{\left(1-q\right)p}{\left(1-p\right)q}\leq\:e^{\varepsilon}$

$满足\varepsilon = \ln \left( {{{p(1 - p)} \over {q(1 - q)}}} \right) - LDP$

${{{e^\varepsilon }q} \over {1 - q + {e^\varepsilon }q}}$

满足pureLDP：
从支持集角度来看
$Suppor{t_{UE}}(B) = \{ i|B[i] = 1\}$
$Support({B_1}) = \{ i|{B_1}[i] = 1\} = \{ {v_1}\}$
$let\;\{ {B_1}|{v_1} \in Suppor{t_{UE}}({B_1})\} = t$
$\Pr [PE({v_1}) \in t] = {p^*},{\forall _{{v_j} \ne {v_i}}}\Pr [PE({v_j}) \in t] = {q^*}$

直接带入计算得出方差：
只要满足PureLDP可以直接带入方差公式。
因为这个例子中p和q没什么联系，用其中一个未知数来表示方差。

$Va{r^*}({\tilde c_{UE}}) = {{nq(1 - q)} \over {{{(p - q)}^2}}} = n{{{{(({e^\varepsilon } - 1)q + 1)}^2}} \over {{{({e^\varepsilon } - 1)}^2} + (1 - q)q}}$

5.1Symmetric Unary Encoding

和UE类似。满足p+q=1，0和1是对称的
证明满足LDP和PureLDP的过程和前文类似，不作过多描述。

直接带入计算得出方差：
$a\sigma^{*}(\tilde{c}_{S L E})\:=\:n\frac{\frac{1}{e^{\sigma\:2}\:+\:1}(1\:-\frac{1}{e^{\sigma\:2}\:+\:1})}{(\frac{e^{\sigma\:2}}{e^{\sigma\:2}\:+\:1}-\frac{1}{e^{\sigma\:2}\:+\:1}^{2}}\:=\:n\frac{e^{\sigma\:2}}{(e^{\sigma\:2}\:-\:1)^{2}}$

5.1Optimized Unary Encoding

目的：方差最小化
满足p+q!=1
在这里插入图片描述
直接带入计算得出方差：
$Va{r^*}({\tilde c_{UE}}) = {{nq(1 - q)} \over {{{(p - q)}^2}}} = n{{{{(({e^\varepsilon } - 1)q + 1)}^2}} \over {{{({e^\varepsilon } - 1)}^2} + (1 - q)q}}$

上图对方差进行求偏导得到极值点求出p=1/2，下图用现实中极端假设的角度进行思考。
在这里插入图片描述
$\over {1 - p}}{{1 - q} \over q} \le {e^\varepsilon } = {e^{{\varepsilon _1}}}{e^{{\varepsilon _2}}}$
$\over {1 - p}} = {e^{{\varepsilon _1} = 0}} = 1\; 且 {{1 - q} \over q} = {e^{{\varepsilon _2} = \varepsilon }} = {e^\varepsilon }$

6.Local Hashing

目的：处理实际情况中，编码太长，使用值域，降低通讯代价。通过hash的方式
HE和UE都使用一元编码，通信代价为O(d),当值域很大时，通信代价也很大
为了减少通信代价，将值哈希到k<d的值域上

6.1Binary Local Hashing

Encoding:𝑩𝑳𝑯(v)=<H,b>
H为哈希函数,b=H(v)，只能哈希为0或1，等于hash之后的值域只为0或1
满足ε-LDP:
p*概率为真实扰动：
p*=p。
q*先考虑Encoding的时候，任何值x！=y，有一半概率映射为0，有一半概率映射为1.

$\begin{array}{l}p^*=p\\ q^*=\Pr[H\left(v\right)=1]\Pr[\dot{b}^*=1]+\Pr[H\left(v\right)=0]\Pr[\dot{b}^*=1]\\ =\dfrac12p+\dfrac12q=\dfrac12\end{array}$

直接带入计算得出方差：
$r^{*}(\tilde{c}_{B H}(l))=n\frac{1/4}{(\frac{e^{\varepsilon}}{e^{\varepsilon}+1}-\frac{1}{2})^{2}}=n\frac{(e^{\varepsilon}+1)^{2}}{(e^{\varepsilon}-1)^{2}}$

6.2Local Hashing

推广了BLH算法，将输入值哈希为[g]中的一个值，[g]≥2
Encoding:Encode(v)=<H,x> H:哈希函数；x=H(v)
在这里插入图片描述
满足ε-LDP:
$LDP:{{\Pr [ < H,y > |{v_1}]} \over {\Pr [ < H,y > |{v_2}]}} = {{\Pr [Perturb(H({v_1})) = y]} \over {\Pr [Perturb(H({v_2})) = y]}} \le {e^\varepsilon }$
$\Rightarrow {p \over {{{1 - p} \over {g - 1}}}} \le {e^\varepsilon } \Rightarrow p = {{{e^\varepsilon }} \over {{e^\varepsilon } + g - 1}},q = {{1 - p} \over {g - 1}} = {1 \over {{e^\varepsilon } + g - 1}}$

满足pureLDP：
$支持函数：Suppor{t_{LH}}( < H,y > ) = \{ i|H(i) = y\}$
$假设{v_1} = 1,H({v_1}) = y = 1,let\;Support( < H,y > ) = \{ {v_1}|H({v_1}) = y\} = t$
$\Pr (PE({v_1}) \in t) = {p^*} = p,\Pr (PE({\forall _{{v_j} \ne {v_1}}}) \in t) = {q^*}$

每个p*或者q*都是独立且相等，同时p* > q*，因此满足。
在这里插入图片描述

直接带入计算得出方差：
$r(\tilde{c}_{L H}(i))=n\frac{\frac{1}{g}(1-\frac{1}{g})}{(\frac{e^{s}}{e^{s}+g-1}-\frac{1}{g})^{2}}=n\frac{(e^{s}+g-1)^{2}}{(e^{s}-1)^{2}(g-1)}$

6.3Optimal Local Hashing

在这里插入图片描述
直接极值点带入计算得出方差：
$r(\tilde{c}_{o L H}\left(i\right))=n\frac{4e^{\varepsilon}}{\left(e^{\varepsilon}-1\right)^{2}}$

7.Histogram Encoding

满足ε-LDP:
在这里插入图片描述

7.1Summation with Histogram Encoding不纯

SHE不是PureLDP协议，因为每次每个值加的噪音服从的是Laplace分布，每次加的噪声可能是不一样的，因此每次非真实扰动的概率也可能是不同的。

此时不能通过Pure LDP的公式计算方差，应该按照概率密度函数来计算方差。

直接计算得出方差：
每个值付出尺度参数为b的Laplace分布
在这里插入图片描述

7.2Thresholding with Histogram Encoding

满足pureLDP：
$\theta {\rm{ = }}1\;,Support(B) = \{ v|B[v] > 1\}$
$Support({B_1}) = \{ v|{B_1}[v] > 1\} = \{ {v_1}\}$
$let\;\{ {v_1}|{B_1}[{v_1}] > 1\} = t$
$\Pr [PE({v_1}) \in t] = {p^*},{\forall _{{v_j} \ne {v_1}}}\Pr [PE({v_j}) \in t] = {q^*}$

这里p和q都和Laplace的累积分布函数有关，由参数决定，参数定了以后概率也是一样的，因此满足PureLDP分布。

直接计算得出方差：
$Va{r^*}(\tilde c) = {{n{q^*}(1 - {q^*})} \over {{{({p^*} - {q^*})}^2}}}$

${p^*} = 1 - {1 \over 2}{e^{{\varepsilon \over 2}(\theta - 1)}},{q^*} = {1 \over 2}{e^{ - {\varepsilon \over 2}\theta }}$

$Va{r^*}[{\tilde c_{THE}}(i)] = n{{2{e^{{{\varepsilon \theta } \over 2}}} - 1} \over {{{(1 + {e^{\varepsilon (\theta - {1 \over 2})}} - 2{e^{ - {{\varepsilon \theta } \over 2}}})}^2}}}$