发布时间:2020-03-25所属分类:计算机职称论文浏览:1次
摘 要: 摘要数据确权一直是大数据交易面临的挑战性之一.传统的确权手段采用提交权属证明和专家评审的模式,但是缺乏技术可信度,且存在潜在的篡改等不可控因素.为解决这些问题,迫切需要操作性强的确权方案.基于区块链技术和数字水印技术,提出了一种新的大数据确权方案
摘要数据确权一直是大数据交易面临的挑战性之一.传统的确权手段采用提交权属证明和专家评审的模式,但是缺乏技术可信度,且存在潜在的篡改等不可控因素.为解决这些问题,迫切需要操作性强的确权方案.基于区块链技术和数字水印技术,提出了一种新的大数据确权方案.首先,引入审计中心和水印中心,以分离大数据完整性审计和水印生成的职责.其次,基于数据持有性证明技术和抽样技术,实现对大数据完整性的轻量级审计.再次,利用数字水印技术的特殊安全性质,实现对大数据起源的确认.最后,针对整个确权过程中涉及到的证据的完整性和持久性,利用区块链的原生特点实现确权结果与相关证据的强一致性.正确性和安全性分析结果表明,该方案能够为大数据的所有权界定提供新的技术思路和方法.
关键词数据确权,区块链,数字水印技术,密码学
1引言
数据是继物质、能源之后的第三大基础性战略资源.2016年12月,国务院印发的«“十三五”国家信息化规划»中明确指出,优先开展数据资源共享开放行动.在推进数据资源开放共享的实践中,须解决的首要问题是[1]:数据作为一种重要资产,其流通和应用必然涉及数据的所有权问题.明晰数据的所有权,是大数据交易的前提和基础.数据的权属关系不清晰,一方面可能造成后续开发利用中产生权属纠纷问题;更严重的是,在数据归属模糊的情况下进行大数据分析关联,也难以界定权责归属,数据安全和个人隐私难以得到保障.这些问题严重制约着大数据的共享开放实践.因此,数据确权在大数据时代尤为关键,关系到大数据产业的创新活力及大数据交易市场的繁荣.
相关期刊推荐:《计算机科学》主要报导国内外计算机科学与技术的发展动态,涉及面广的方法论与技术,和反映新苗头、能起承先启后作用的研究成果。内容涉及程序理论、计算机软件、计算机网络与信息、数据库、人工智能、人机界面、国际会议、应用等。杂志报导特点是“前沿学科”与“基础研究”相结合;“核心核术”与“支撑技术”相结合;“倡导”与“争鸣”相结合。
数据确权[1]一般是确定数据的权利人,即谁拥有对数据的所有权、占有权、使用权、受益权,以及对个人隐私权的保护责任等.本文研究数据确权时,主要聚焦于数据的所有权,即数据归属问题.具体地说,产生这批数据或者第一个收集这些数据的企业主体就是这批数据的所有者.通过其他任何方式(交易等)获得这批数据的企业或个人都只拥有使用权,而无所有权.目前,学术界对数据确权的研究成果相对较少.彭云[2]于2016年在大数据环境下研究了数据确权的核心问题.同年,涂燕辉[3]从法律的角度论述了数据确权的紧迫性和必要性.郭兵等人[4]于2017年以保护个人数据产权、知情权、隐私权和收益权为核心,提出了一种个人大数据资产管理与增值服务系统.王帅宇等人[5]于2017年公开了一种基于区块链技术的大数据确权方法及系统,但该方法未涉及对大数据源头的确认.因此,亟须从技术角度给出一种可靠且可操作性强的大数据确权方法.
目前,比较有代表性的确权方法是贵阳大数据交易所从管理角度提出的“提交权属证明+专家评审”模式.在此确权模式下,首先,大数据的拥有者提交权属证明;其次,大数据交易所组织专家进行评审;最后,大数据交易所公布结果.专家在评审过程中有可能掺杂主观情感甚至偏见,破坏数据确权的公平性;且大数据交易所的内部人员出于利益关系可能存在恶意修改等行为.大数据交易所缺乏一种机制来永久保存评审材料和评审结果以备审计,当前交易所一般采用纸质文档和电子文档保存的方式,存在易丢失和易被篡改等问题.此外,鉴于大数据数据量大的特性,如何实现在不发送整批大数据的前提下高效、轻量地完成数据确权也是一大挑战.这些不可控因素表明,在技术上寻找一种解决方案迫在眉睫.
针对这些挑战,本文基于数字水印技术[6]和区块链技术[7],提出了一种新的大数据确权方案,该方案具有确权的公平性、完整性和不可欺骗性.在初始化阶段,数据源供应商首先将大数据分块,并采用BLS短签名方案[8]对数据块取认证器,利用认证器的同态特性使数据源供应商不必发送原始数据;在确权请求、证据挑战和验证阶段,引入审计中心,数据源供应商和审计中心基于隐私保护数据持有性证明[9]和抽样技术[10]交互完成大数据的完整性审计,其中抽样技术确保了审计中心在挑战时抽取数据块的随机性;在水印生成和嵌入阶段,引入水印中心,由数据源供应商将能唯一标识自己身份信息的数据发送给水印中心,请求水印生成.水印中心将生成的水印发送给数据源供应商,由数据源供应商完成水印嵌入数据块的工作.在登记上链和查询阶段,基于区块链的内生优势(分布式、不可篡改、共享账本)实现确权结果和相关证据的链上高冗余保存,确保确权结果的完整性及不可篡改性.本文力图在技术上杜绝传统确权模式下大数据交易所篡改确权结果的完整性以及破坏确权的公平性,确保数据源供应商的利益,进一步为大数据交易市场的健康有序运作提供技术支撑.
本文第2节简要介绍双线性映射、BLS短签名方案、同态认证器、区块链和数字水印技术;第3节提出一种大数据确权方案;第4节对大数据确权方案进行正确性分析、安全性分析和复杂度分析;最后总结全文.
2.5数字水印技术
数字水印是指将标识信息嵌入到数据载体内部,以达到版本保护、保密通信、文件真伪鉴别和产品标识等目的.嵌入的信息不影响数据载体的使用,并且不易被提取或修改.一旦发生所有权纠纷,可以将水印提取出来进行检测,从而证明版权的归属.一个完整的水印系统包括水印的生成、嵌入、检测和提取.
3大数据确权方案
3.1系统模型
本方案包括4个主体单元:数据源供应商P,审计中心T,水印中心C,Fabric区块链权属登记商业网络B.图1是本方案中使用的模型.
本方案中各主体单元首先向证书机构CA申请公钥数字证书(同时完成认证接入);其次,数据源供应商P对大数据进行分块,运用BLS短签名方案对数据块分别取认证器,并把数据块数、数据块认证器、大数据标识符ID的签名等与大数据确权相关的确权请求信息发送给审计中心T;再次,审计中心T利用数据源供应商P的公钥验证签名的正确性,若验证通过,则审计中心T会向数据源供应商P发送证据挑战请求;最后,审计中心T收到证据后,利用双线性对的双线性质来验证等式是否成立,若成立,则数据源供应商P向水印中心C申请生成水印并完成水印嵌入.审计中心T和水印中心C将挑战证据、相关确权信息、水印以及相关元信息以JSON的格式封装成一笔交易并发送给数据源供应商P,待数据源供应商P签名以后再将其发送到Fabric区块链权属登记商业网络B.网络中的共识节点在鉴定交易中签名的合法性后,按照共识算法的要求最终将权属信息写入Fabric区块链.
3.2方案的构造
3.2.1参数
方案中用到的相关参数及其意义如下.
1)审计中心T:负责大数据完整性审计事宜实施的专业机构.
2)数据源供应商P:发起大数据确权请求的实体单元,一般为政府部门或互联网企业.
3)水印中心C:负责为数据源供应商P生成水印,实现大数据起源的确认.
4)Fabric区块链权属登记商业网络B:负责将审计中心T和水印中心C联合构造的数据(交易)登记上链.该网络包括注册中心CA、数据源供应商P、节点X等负责共识的主体单元,其中CA负责对其他主体单元进行身份核实并签发公钥证书。
4.2安全性分析
本节将从公平性、完整性、不可欺骗性3方面来分析大数据确权方案.
定理1该大数据确权方案满足确权公平性.
证明:首先,在确权方案的初始化阶段,数据源供应商P、审计中心T以及区块链权属登记商业网络B均向CA申请公钥证书,参与主体的身份得到了确认,交互行为处在相对可靠的环境中,同时基于CA可以实现行为不可抵赖性.其次,方案中采用“水印中心C+审计中心T”替代传统方法中大数据交易所负责确权实施的模式,消除了大数据交易所内部人员和专家评审过程中带来的篡改和主观威胁等,同时在证据挑战阶段,式(3)的可公开验证性可以进一步增强审计中心T在确权过程中的公平性.本方案将确权中的完整性审计和水印分发进行分离,审计中心T负责大数据完整性的审计工作,水印中心C负责大数据水印的生成,数据源供应商P负责将水印嵌入到数据块中.数据上链也需要水印中心C、审计中心T和数据源供应商P三方签名后才能有效,缺少任何一方,均完成不了该过程.
定理2该大数据确权方案满足确权数据的完整性.
证明:确权数据的完整性一方面是指已经完成确权之后的大数据的完整性.在确权方案的初始化阶段,数据源供应商P首先对D进行分块,将分块数据记为di,其中1≤i≤n,并且采用BLS短签名方案对每个数据块di取认证器σi.然后,供应商P将认证器集合和大数据ID的标签{ψ={σi}1≤i≤n,tag}一起发送给审计中心T,审计中心T收到后,若供应商P试图对大数据D本身进行修改或者对分块数据di进行修改,则只有供应商P能够重新找到一个di′≠di使得(H(Wi)
定理3该大数据确权方案具有不可欺骗性.
证明:初始化阶段,数据源供应商P首先对D进行分块,将分块数据记为di,其中1≤i≤n,并且采用BLS短签名方案对每个数据块di取认证器σi.在确权请求、证据挑战和验证阶段,数据源供应商P将认证器集合ψ发给审计中心T.数据源供应商P用自己的私钥x对数据块di签名,具有不可欺骗性.在证据挑战时,利用BLS签名机制的聚合性,P将挑战请求chal={(i,vi)}s1≤i≤sc聚合成σ发送给审计中心T.审计中心T会验证数据源供应商P的签名,只有验证成功,数据源供应商P才会向水印中心C请求水印生成且在后续参与交易上链.水印是由水印中心C生成的,水印中心C会将水印记录在链上.后期的数据使用者在交易这批数据时可以从大数据中提取出水印,进而与链上的水印进行比对,水印一致时提取的水印才是合法的.在登记上链和查询阶段,审计中心T和水印中心C将确权结果和相关证据以一笔交易的形式发给区块链权属登记商业网络B,其中的共识节点会验证审计中心T和水印中心C发起的交易的真实性,只有通过验证的交易才会写入链上.因此,整个确权过程中的参与确权请求、证据挑战和水印生成的主体行为均具备不可欺骗性.
4.3复杂度分析
下面给出本方案在大数据完整性审计、水印生成和确权相关证据组成的交易上链三阶段的复杂度分析.本方案的通信复杂度由确权过程中(审计、水印生成和交易上链)的通信轮数表示,如表1所列.
审计阶段的计算复杂度由两部分组成,分别是数据源供应商的O(n)和审计中心的O(c),通信复杂度为O(1),其中n为大数据分块数目,c为随机抽取的数据块数.水印生成阶段的计算复杂度主要是水印中心产生水印的O(qn),通信复杂度为O(1),其中q为给数据块嵌入水印的抽取比例.交易上链阶段的计算复杂度主要由审计中心T、水印中心C和数据源供应商P计算签名组成,共计O(1),通信复杂度为O(1).
结束语本文引入审计中心和水印中心,以分离大数据的完整性审计和证明数据所有权的水印生成和嵌入,进而替代传统确权中大数据交易所直接实施确权的组织和评审以及由此引发的确权不公平和不可信局面;其次,鉴于大数据交易所负责确权结果的保存给确权结果的完整性带来了篡改威胁和不确定性风险,本文引入区块链,利用其分布式、高度冗余等特点将确权结果的保存从传统的大数据交易所一家转入整个大数据交易生态圈,实现了确权结果的始终一致性.在本文工作的基础上,下一步将基于区块链研究大数据交易权的流转,力图实现大数据交易生命周期中的可追责性.
SCISSCIAHCI