您好、欢迎来到现金彩票网!
当前位置:秒速快3 > 数据偏斜 >

哈尔滨工程大学硕士学位论文随机扰乱 方法 对数值型数据匿名最自

发布时间:2019-06-07 05:47 来源:未知 编辑:admin

  哈尔滨工程大学硕士学位论文随机扰乱 方法 对数值型数据匿名最自然方式就是扰乱数据。对于一个属性的值 对其扰乱就是 其中 是从一个适当的分布中提出的随机值。对于这种方法必须要谨慎 如果厂值的选取独立于每次被查询的 通过简单的平均计算就能消除它的影响。引入偏斜影响了数据表现出来的统计分析特性 一个比较常

  哈尔滨工程大学硕士学位论文随机扰乱 方法 对数值型数据匿名最自然方式就是扰乱数据。对于一个属性的值 对其扰乱就是 其中 是从一个适当的分布中提出的随机值。对于这种方法必须要谨慎 如果厂值的选取独立于每次被查询的 通过简单的平均计算就能消除它的影响。引入偏斜影响了数据表现出来的统计分析特性 一个比较常见的方法就是提前固定扰动。如果数据是分类型的 常用的方法 删除一些项 插入一些其它项 随机的选择项 这些方法就可以应用。注意区别以下两种扰乱方法 输入扰乱 是一种扰乱源数据本身的过程 返回对扰动的数据的正确查询结果。输出扰乱 和输入扰乱不同 输出扰乱使查询结果变得混乱。 聚类匿名 在微聚集 匿名算法中经常被使用 微聚集是源于统计泄露控制 研究领域的概念 微聚集有一系列的扰动 方法适用于连续的和分类的数据 并且不需要层次。不论什么数据类型 微聚集一般分以下两步操作 首先 原始数据元组集划分为几个不同的聚类 在相同聚类中的元组具有相似性 每个聚类中的元组的数目至少大于某个数 比如 然后 每个聚类经聚合运算符的计算后用来取代原来的元组 即是聚类中的每一个元组被聚类的原型 所取代。 其它方法。桶 方法 首先将表中的元组划分为桶 然后以随机变换每个桶中敏感属性值的方式将带有敏感属性的准标识符分离 分桶的数据就由变换的敏感属性值的桶集合组成。置换 方法也是一种数据匿名方式。假设一个表包含了敏感属性和标识属性 方法就是置换表中敏感属性的投影 置换的目的就是保持表中属性的聚集 破坏了敏感属性和标识符的链接 从而达到防止隐私泄露的目的。 匿名算法目前己有很多种实现数据匿名化的算法被提出。按照所采用匿名化方法的不同 对现有的典型匿名化算法进行的总结和归类 见图 基于泛化的算法基于泛化的算法包括全局重编码 和局部重编码 。全局重编码全局性地把一个域内给定的值映射到另一个域 而相对受限的局部重编码把数据空间划分为区域集 一个区域内的所有元组匿名映射到相同的泛化值或者其它的元组。多维重编码记录包括多维全局记录和多维局部记录。局部重编码比全局重编码产生较少的信息损失。 章匿名隐私保护技术微数据匿名化算法泛化分解其它多变量微聚 单变量微聚 多维桶分 泛化与分集算法 集算法 组技术 解结合 匿名化算法及分类基于聚类的匿名算法 首先 将原始数据映射到特定的度量空间中 然后对度量空间中的点聚类 从而使数据匿名。算法要求每个聚类中至少有 个数据点。根据度量的大小 算法以所有聚类中最大的半径为测量标准 对所有的数据点聚类 使每个聚类至少含有刀个点的同时 聚类中的最大半径越小越好。对原始数据表作聚类操作后 发布结果中包含聚类的中心、半径和敏感属性值 不能区分同一个等价类中的数据记录 因此对个体敏感信息进行了保护。 即算法安全的数据发布很多算法容易受到基于算法泄露 的攻击问题 即如果攻击者知道隐私保护所用的算法 隐私就可能泄露 提出了取消基于算法的隐私泄露的通用技术 同时引入了两个概率分布 在给定相同的外部知识和发布的数据的情况下一个算法是否是容易受到基于算法的泄露攻击取决于 是否等于删 当且仅当在相同的外部知识和发布数据的条件下 是相等的不存在基于算法的泄露。文献 】中结合 的设计提出了两种通用的工具 全域前瞻 和局域前瞻 还设计了一种提高数据质量的通用工具 分层提取 算法即随机破坏准标识符属性和敏感数据之间的关联 其主要思想是使用准标识符中一个属性的原始值的分布 随机地替换每个记录的准标识符数据的一部分。这种方式下 没有新的信息添加到匿名后的数据中 而准标识符属性和敏感数据之间的关联也被破坏了 原始数据的分布也被保留了。结果 拿哈尔滨工程大学硕士学位论文个体记录中的关联被破坏了因此整个数据集的关联统计特性仍然被保留。算法的输入是 原始数据集、准标识符属性、准标识符属性的概率分布、准标识符属性个数。算法输出 原始数据经过匿名后的数据集。增强 算法 算法上面作的改进随机匿名了至少一个的准标识符属性 降低了隐私泄露的机率 但是 知识就变得比较模糊了。统一的对每个记录选取 个准标识符属性用原始分布替代选取的准标识符属性值 也就是将 算法作进一步泛化【 隐私度量在隐私度量方面有很多的相关术语信息损失是以信息论方法定义的 隐私泄露是比较通用的术语 数据质量是数据发布后的有效性 从数据的可用性角度考虑的 匿名度量从数据匿名技术出发 对隐私保护的效果测量。这些术语都可以作为隐私保护度量的效果。从统计的方法、概率的方法、通用的度量方法等阐述了隐私保护度量标准 统计的方法度量主要有三种查询限制 对数据集的查询返回小于某个参数或者大于某个固定参数的记录 例如记录数为 的数据库 设定一参数 对于所有的查询返回小于 个记录或者大于 个记录。和数据抑化相比 不是删除了数据记录 而是限制了查询的结果 方差匿名 假设随机扰动后的数据为舅 很显然 扰动性越大 数据越混乱 数据受到保护的程度就越高。因此 测量扰乱数据的方差 方差越大 数据的匿名的程度就越高。有两种匿名测量 一种使用方差的下界评估敏感属性 另一种是交替方法即固定置信度 然后测量在这个置信度范围内的估计值的区间 区间越长 数据匿名就越成功。在这种模型下 数据质量的测量方式由扰乱模式和查询限制相结合 测量数据扰乱后可以被查询的部分 干扰 以方差 表示 越大 返回高基数集的查询部分就越大。这就说明了隐私 随着孑的增长而增长 和数据质量 随着被查询的部分增长而增长 之间的制衡 多样性匿名 是一种间隔长度的组合变量的测量 沿着泛化层次结构聚合元组获得组合变量。例如 通过聚合邮政编码至泛化层次的前三位【 概率方法的度量基于概率的度量方法 信息泄露视为在元组中显露出特定的数据。尽管攻击者不能获得数据项 但信息仍然泄露 因为这种攻击依赖于了解源数据库的汇聚信息。考虑到攻击者所掌握的背景知识的改变 匿名的度量方式就有所改变 不只是度量数据被泄露的可能性 而是测量一些更多的比较模糊的量 比如攻击者可能 苹匿名隐私保护技术获得的新的和背景知识相当的信息量。因此需要对信息泄露做更精确的测量 而不仅仅是计算扰动数据的方差。基于概率的方法核心因素是计算数据分布的函数。 匿名发布数据的有效性度量方式都是基于具体的应用情况 在没有提前获知匿名数据使用的目的时 应采用通用的度量方式 失真率 假设一个元组 记录 的属性值没有被泛化 则没有失真。但是 如果一个元组中的属性值泛化为分类树 中更普通的值或者概念化的泛化层次结构 有泛化操作的元组相关的属性就会存在失真。如果值的泛化程度高 比如将原始值泛化为分类树的根结点 失真也就大 另一种通用的信息损失度量是。假设准标识符泸 咒是一个等价类 对于数值类型的属性 磕】是咒中值的泛化范围。以和咒定义的信息损失为式 其域的泛化层次为危删。如果是咒中所有 值的最低共同祖先 那么以翻和咒的信息损失定义为式 其中是以 为根的危翻的子树叶子结点个数 是怠翻中所有叶子结点的个数。 其中是准标识符 的数目。匿名的代价由准标识符的数目决定。数据质量优化的目标就是减少差别代价。 郊归一化平均准标识符定义如式 匿名的数据质量以准标识符产生的平均个数测量。优化的目标就是减少归一化平均准标识符数。哈尔滨工程大学硕士学位论文 本章小节本章首先介绍了肛匿名方法、乒多样性方法和 方法 分析比较了它们的优缺点 肛匿名和厶多样性 简单实用 在隐私保护方法中应用比较广泛 但是对于一些攻击不能有效的防御 技术阻止相似性攻击、偏斜攻击和同质攻击的能力优于肛匿名和 多样性。本章还讨论分析了常用匿名的方法和匿名算法 基于泛化的匿名方法和匿名算法通用性较强 适用于大多数的匿名隐私保护方法。最后 比较了隐私度量的方式 统计方法的度量和概率方法的度量的形式化描述精确 数学属性较强 但更适合于具体的应用 失真率、 等隐私度量方式通用性较强。第章增强型 隐私保护方法研究第 章一种增强型 隐私保护方法在前两章介绍了国内外研究现状和缸匿名、厶多样性优缺点、 的基本概念、阈值计算方法的基础上 通过将敏感属性根据敏感度的高低 把语义隐私度的度量加入 模型 本章提出增强型 隐私保护方法 并给出具体的计算过程和算法。 阈值的计算目前 有很多种方法定义概率分布之间的距离 节提出的 一散度等距离测量公式以及不被普遍采用的 一散度、基于核平滑的距离度量等。最简单的一种方法是差分距离 假设有两个分布 】表示概率分布尸和概率分布之间的距离。但是该距离并没有反映出这些分布值之间语义的距离。假如健康状况属性的总体发布是 艾滋病 癌症 肝炎 肺结核 哮喘 心脏病 流感 发烧 胃病 。但是其中一个等价类的分布是 艾滋病 癌症 心脏病 另一个等价类如 癌症 肝炎 胃病 则认定尸 比岛泄露的信息多 因为 中整体健康状况处于中下等水平 属严重疾病 希望式 】成立但是上述的差分距离不能将这层意思表达出来 并没有包含语义。 计算有数值属性的 计算和分类属性的 计算两种具体应用的 计算公式。数值属性的 计算 假设属性域是 个最小值则数值属性是有序的 有序距离 基于总体有序数字值的两个值之间的距离比如式 并且满足对称性和三角不等式。为了计算有序距离的仅需考虑相邻元素分布的移动量 因为任何两个以上的分布的移动都哈尔滨工程大学硕士学位论文能分解为相邻元素之间的移动。基于上述思想 顺序地满足 中的所有元素就能计算出最小工作量。首先考虑元素 有一个 的额外数量 。假设 应从其它元素移动 当量到元素可以从元素 移动。移动后 元素 得到了满足 元素 有了额外的量 。相似地在元素 和元素 之间通过移动量 满足元素。直到元素 满足 就达到了。假设 。分类属性的计算 对于分类属性而言 一般不存在有两种距离度量方式 相等距离和层次距离。相等距离 任何两分类属性值的基准距离定义为 这也是一个标准度量。任何两值之间的距离是 对于每个点 仅需要移动额外距离到其它点用数学公式 表示 吼层次距离两个分类属性的值根据域层次泛化为相同的值 这两个值的层次距离是基于最小泛化程度的。用数学公式表达 表示域层次的高度 层次的叶子两个值之间的距离定义为 最低的共同祖先节点。这种层次距离测量也是一种度量标准。给定一个域层次和两个分布 定义和元素相关的叶子节点的 以下叶子结点的之和。 函数递归的定义为式 其中是结点 以下所有叶子结点的集合。 函数有一个性质是 相同层次的结点 。使用表示 的孩子分支之间移动的代价。一种优化的精确到以量 的移出 需要移出移出代价把 的双亲节点计算在内 。此外 为了使孩子分支均衡 必须在孩子节点之间移动 就可以定义为式 苹增强型隐私保护方法研究 其中是一个非叶子节点。 距离和 散度的计算表 是匿名数据发布表乃表 为例计算距离和 中符号代表的意义局表示等价类 表示敏感属性在等价类 中的概率 类似地 表示表丁中敏感属性的概率。如式 所示 其中是敏感属性值 在等价类 中出现的次数 是表丁中敏感属性值 出现的次数。表 匿名数据发布表丁年龄国籍邮政编码健康状况 亚洲 幸幸流行感冒 亚洲 幸幸癌症 亚洲 癌症亚洲 木流行感冒 亚洲 奉奉流行感冒 亚洲 枣宰艾滋病易 亚洲 幸癌症 亚洲 宰幸流行感冒【 】美洲 癌症【】美洲 幸幸艾滋病历【 】美洲 幸流行感冒【】美洲 幸宰幸艾滋病表中的三个等价类分别为 等价类敏感属性的分布与所在表的分布阈值用距离测量分别为胁 。因此匿名数据发布表满足性。哈尔滨工程大学硕士学位论文表 使用散度计算表 的阈值 因此表具有 散度的计算文献【简要介绍了使用 距离的方法 攻击者获得的敏感信息超过了总体分布 又研就可能造成隐私泄露 其中是平均分布 散度度量。散度测量避免了 散度第二个概率分布 成立一九 基于核平滑的距离度量的计算文献】中提出了基于核平滑的距离测量 该测量方法满足了概率分布距离度量应具有的 个属性。其思想是 核平滑是一个标准的统计工具 能够从较低频率变化的信号中过滤出高频率的噪声。因此 在敏感属性域内应用这项技术使分布变得平滑。假设敏感属性是 它的属性域是 。为了计算两个敏感属性的距离定义 的一个 的矩阵 矩阵第 力个单元西表示 其中是核函数 用作 苹增强型隐私保护方法研究球 的一个平滑的概率分布概率分布 之间的距离包含语义计算它们平滑概率分布之间的距离 作为一个估计替代 平滑概率分布之间的距离能够用一散度测量 尽管两概率分布中存在零概率 散度也有很好的定义。 距离矩阵相关矩阵中第 奶个单元姒 表示函和母之间的语义距离。距离矩阵由数据发布者指定。如果是一个连续的属性 距离矩阵定义如式 其中是属性 的范围 。如果是分类属性 基于属性 的域层次的距离矩阵可以定义如 所示 其中厅劝是毋和簟的最低共同祖先的高度 是属性 的域层次高度。 阈值的选择在 方法的实现过程中 等价类中敏感属性的概率分布 和敏感属性在整个表中的概率分布 的距离计算是非常重要的。 等人在文献【 】中提出了有效的概率分布距离度量应满足下述五个基本属性 其中 表示分布之间的距离 不可区分之同一性 如果攻击者的信度没有改变 他就没有信息增益。从数学角度上讲 形式化描述为对于任何 都有 如果攻击者获知发布表他应该有一个非负的增益。形式化描述为 对于任何两个分布尸和 都有

  一种增强型tCloseness隐私保护方法一种,方法,增强,隐私保护,保护隐私,隐私 保护

http://istighcomputing.com/shujupianxie/236.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有