前言:想要寫出一篇引人入勝的文章?我們特意為您整理了大數(shù)據(jù)挖掘下用戶隱私數(shù)據(jù)保護(hù)淺析范文,希望能給你帶來靈感和參考,敬請閱讀。
隨著人工智能技術(shù)的發(fā)展,基于大數(shù)據(jù)的預(yù)測分析技術(shù)被廣泛應(yīng)用于各個領(lǐng)域。尤其是近年來新冠肺炎疫情防控過程中,基于大數(shù)據(jù)的疫情數(shù)據(jù)分析挖掘技術(shù)對排查疫情防控風(fēng)險點(diǎn)帶來了極大的便利,大數(shù)據(jù)為人們編織了嚴(yán)密的數(shù)字網(wǎng)絡(luò)的同時也把個人信息置于開放式的環(huán)境中,使得出現(xiàn)很多起個人隱私泄露的事件,因此,如何在大數(shù)據(jù)挖掘過程中進(jìn)行用戶隱私或敏感數(shù)據(jù)的保護(hù)成為亟待解決的問題。本文主要針對在大數(shù)據(jù)挖掘過程中用戶隱私數(shù)據(jù)的保護(hù)技術(shù)熱點(diǎn)方向的專利進(jìn)行分析,通過六個技術(shù)分支來對基于大數(shù)據(jù)挖掘的用戶隱私數(shù)據(jù)保護(hù)方法的技術(shù)進(jìn)行全面的歸納和總結(jié)。
一、主要技術(shù)分支和數(shù)量
通過對檢索出的國內(nèi)外專利申請進(jìn)行分析,得出國內(nèi)外基于大數(shù)據(jù)挖掘的用戶隱私數(shù)據(jù)保護(hù)的方法的主要技術(shù)分支如圖1所示。根據(jù)對大數(shù)據(jù)挖掘過程中隱私數(shù)據(jù)防護(hù)的策略,重點(diǎn)關(guān)注了主流的技術(shù),其中,技術(shù)分支二的專利申請量最大,技術(shù)分支一的專利申請量最小,具體分析結(jié)果如下:基于對敏感/隱私數(shù)據(jù)監(jiān)控和追蹤保護(hù)用戶隱私數(shù)據(jù)的技術(shù),其申請量較少,總共有6件,分析存在上述情況的主要原因在于對數(shù)據(jù)追蹤的成本較高,隨著不同平臺數(shù)據(jù)共享需求越來越大,用戶隱私數(shù)據(jù)在各大平臺上使用的數(shù)量和次數(shù)也越來越多,這樣會導(dǎo)致需要監(jiān)控和追蹤的數(shù)據(jù)量也越來越大,付出的硬件成本太高。基于對敏感/隱私數(shù)據(jù)處理保護(hù)用戶隱私數(shù)據(jù)的技術(shù)在2015來之后呈現(xiàn)明顯的增長,2021年申請量呈下降趨勢,主要是由于筆者在獲取數(shù)據(jù)時2021年數(shù)據(jù)量不全導(dǎo)致。根據(jù)筆者對該領(lǐng)域?qū)@暾堏厔莸呐袛啵?021年以后該技術(shù)分支的專利申請應(yīng)當(dāng)有更大的增大率。分析存在這種情況的原因主要是隨著隱私數(shù)據(jù)處理相關(guān)算法逐漸成熟,能夠滿足不同場景下的個性化需求,因此,該技術(shù)方向是創(chuàng)新主體研究的熱門方向,申請量也一直居于高位?;趯γ舾?隱私數(shù)據(jù)的訪問權(quán)限控制保護(hù)用戶隱私數(shù)據(jù)的技術(shù)也在近5年取得快速發(fā)展,2019年至2021年的申請量占近10年申請量的80%。分析存在這種情況的原因主要是云計(jì)算及區(qū)塊鏈技術(shù)的快速發(fā)展,為用戶權(quán)限控制提供了更加安全和穩(wěn)定的系統(tǒng)架構(gòu)?;诙喾铰?lián)合計(jì)算保護(hù)用戶隱私數(shù)據(jù)的專利申請從2018年開始出現(xiàn),2018年之前,該技術(shù)分支的申請量較少。分析存在這種情況的原因主要是通過脫敏處理的數(shù)據(jù),數(shù)據(jù)價值受損。而多方聯(lián)合計(jì)算技術(shù),關(guān)聯(lián)其多方的特征,在沒有相互泄露數(shù)據(jù)的情況下擴(kuò)展分析維度,提高分析精確度,因此,該技術(shù)在近年來也逐漸成為熱門研究領(lǐng)域?;趯γ舾?隱私數(shù)據(jù)的識別和攔截保護(hù)用戶隱私數(shù)據(jù)的技術(shù)相關(guān)的申請量在六個技術(shù)分支中排在第二位,并且在近五年來申請數(shù)量分布比較均衡。分析存在這種情況的原因主要是隨著圖像識別技術(shù)和信息檢索算法的日益成熟,通過技術(shù)的手段在圖像中或海量的數(shù)據(jù)中檢測敏感/隱私信息也越來越容易實(shí)現(xiàn),因此,根據(jù)不同的場景定制個性化的敏感/隱私庫,更能夠滿足個性化的需求?;趯?shù)據(jù)融合、隱私算法/模型的改進(jìn)來保護(hù)用戶隱私數(shù)據(jù)的技術(shù)也是近年來的研究熱點(diǎn),專利申請量在三個技術(shù)分支中處于第三位。該技術(shù)分支偏重在底層設(shè)計(jì),神經(jīng)網(wǎng)絡(luò)技術(shù)的快速發(fā)展,為基于神經(jīng)網(wǎng)絡(luò)模型的隱私保護(hù)提供了基礎(chǔ)的算法支撐,并且模型能夠更好地利用歷史數(shù)據(jù)來為隱私保護(hù)提供更加精準(zhǔn)的保護(hù)策略,因此,成為近幾年來研究的熱點(diǎn)技術(shù)。下面結(jié)合具體的專利分別對上述六個技術(shù)分支的專利申請進(jìn)行分析。
二、基于對敏感/隱私數(shù)據(jù)監(jiān)控
和追蹤保護(hù)用戶隱私數(shù)據(jù)的技術(shù)基于對敏感/隱私監(jiān)控和追蹤保護(hù)用戶隱私數(shù)據(jù)的技術(shù),早期的代表性專利有US20140026184A1,其對作為該獲取的行為數(shù)據(jù)和由用戶所定義的敏感性簡檔的函數(shù),評估分?jǐn)?shù)被分配給該目標(biāo)聯(lián)系人,該分?jǐn)?shù)是關(guān)于由傳播該用戶的個人數(shù)據(jù)所表示的危險性。近年來,隨著數(shù)據(jù)追蹤監(jiān)控技術(shù)的發(fā)展,敏感/隱私數(shù)據(jù)監(jiān)控或追蹤的技術(shù)手段越來越靈活和多樣化。代表性的專利有CN110795751A、CN112596894A、CN112231715A、CN113094730A。其中,CN110795751A能夠自動發(fā)現(xiàn)敏感數(shù)據(jù),并根據(jù)數(shù)據(jù)分級分類規(guī)則和對應(yīng)的安全防護(hù)措施,發(fā)現(xiàn)敏感數(shù)據(jù)并對其進(jìn)行安全保護(hù),同時監(jiān)控敏感數(shù)據(jù)使用情況、數(shù)據(jù)流向信息,形成規(guī)則和模型:CN112596894A中基于異構(gòu)數(shù)據(jù)對業(yè)務(wù)弱隔離環(huán)境下的數(shù)據(jù)安全態(tài)勢感知,有助于及早發(fā)現(xiàn)業(yè)務(wù)系統(tǒng)中存在的安全隱患,提高業(yè)務(wù)系統(tǒng)的數(shù)據(jù)安全;CN112231715A中形成具備“智能識別、主動防護(hù)、監(jiān)控響應(yīng)”能力的一體化防護(hù),可同時兼顧不同防護(hù)應(yīng)用場景和數(shù)據(jù)流向生命周期的保護(hù);CN113094730A設(shè)置數(shù)據(jù)泄露檢測子模塊,監(jiān)測調(diào)取到醫(yī)療數(shù)據(jù)的藥企對該數(shù)據(jù)的傳播路徑和次數(shù),對違法行為做出警示提醒。
三、基于對敏感/隱私數(shù)據(jù)處理
保護(hù)用戶隱私數(shù)據(jù)的技術(shù)對敏感/隱私數(shù)據(jù)執(zhí)行特定的處理以防止敏感/隱私數(shù)據(jù)的泄漏是應(yīng)用最廣泛的一項(xiàng)隱私數(shù)據(jù)保護(hù)技術(shù),其可根據(jù)不同的需求、不同的場景靈活設(shè)置數(shù)據(jù)處理策略。2018年之前的基于對敏感/隱私數(shù)據(jù)處理保護(hù)用戶隱私數(shù)據(jù)的技術(shù)主要集中于對敏感數(shù)據(jù)/隱私數(shù)據(jù)的準(zhǔn)確識別。代表性專利有CN106599713A、CN105653981A、CN108304726A、US2015213288A1。其中,CN106599713A該篇專利中采用基于規(guī)則和與自然語言處理結(jié)合的方式提升敏感數(shù)據(jù)發(fā)現(xiàn)的準(zhǔn)確率,解決了帶有語義的敏感數(shù)據(jù)無法識別的問題;CN105653981A提出了基于專家系統(tǒng)和自然語言處理的敏感數(shù)據(jù)自動發(fā)現(xiàn)方法,能夠自動發(fā)現(xiàn)敏感數(shù)據(jù);CN108304726A中的數(shù)據(jù)脫敏方法,將Apriori關(guān)聯(lián)規(guī)則挖掘和敏感數(shù)據(jù)相結(jié)合,從而可以智能地找出人工不能發(fā)現(xiàn)的敏感數(shù)據(jù)組合泄露的規(guī)則方法;US2015213288A1中提供的PII(個人可識別信息)清理方法,清理器配置所提供的靈活性允許即使是從非結(jié)構(gòu)化的數(shù)據(jù)中也只清理PII,無須包括周圍數(shù)據(jù)。2018~2020年對敏感/隱私數(shù)據(jù)處理保護(hù)用戶隱私數(shù)據(jù)的技術(shù)在各個不同場景或領(lǐng)域中的應(yīng)用得到了快速的發(fā)展。針對不同場景/領(lǐng)域的特點(diǎn),探索出不同的敏感/隱私數(shù)據(jù)的處理策略。代表性專利有CN111143880A、CN110781519A、CN110502924A。其中,CN111143880A通過對原始共享數(shù)據(jù)進(jìn)行脫敏,獲得脫敏共享數(shù)據(jù),保障了共享數(shù)據(jù)的安全性,避免敏感數(shù)據(jù)的泄露,使得數(shù)據(jù)擁有方的原始共享數(shù)據(jù)的所有權(quán)和隱私得到有效保護(hù);CN110781519A中對每個用戶的語音數(shù)據(jù)進(jìn)行三維脫敏處理,以保護(hù)用戶的語音數(shù)據(jù)隱私,通過對語音數(shù)據(jù)的脫敏處理實(shí)現(xiàn)保護(hù)用戶數(shù)據(jù)隱私和保證數(shù)據(jù)有用性;CN110502924A中基于識別出的目標(biāo)脫敏數(shù)據(jù)中的每一個目標(biāo)脫敏字段所屬的敏感數(shù)據(jù)類型,確定目標(biāo)脫敏數(shù)據(jù)對應(yīng)的至少一個優(yōu)選脫標(biāo)脫敏字段的目標(biāo)脫敏算法。2021年對敏感/隱私數(shù)據(jù)處理保護(hù)用戶隱私數(shù)據(jù)的技術(shù)更加注重將神經(jīng)網(wǎng)絡(luò)技術(shù)和區(qū)塊鏈技術(shù)應(yīng)用于敏感/隱私處理。代表性的專利有CN112861179A、CN112580107A。其中,CN112861179A中通過訓(xùn)練文本生成對抗網(wǎng)絡(luò)模型生成與包含敏感信息的解析文件相同統(tǒng)計(jì)特征和結(jié)構(gòu)的脫敏數(shù)據(jù),實(shí)現(xiàn)對結(jié)構(gòu)化的文本信息進(jìn)行數(shù)據(jù)脫敏處理;CN112580107A中的區(qū)塊鏈系統(tǒng)利用審查算法對目標(biāo)數(shù)據(jù)進(jìn)行聚合運(yùn)算,將聚合結(jié)果作為應(yīng)答,返回給數(shù)據(jù)請求節(jié)點(diǎn),從而能夠不泄露原始數(shù)據(jù)。
四、基于對敏感/隱私數(shù)據(jù)的訪問權(quán)限控制保護(hù)用戶隱私數(shù)據(jù)的技術(shù)
通過對敏感/隱私數(shù)據(jù)的訪問權(quán)限控制來保護(hù)用戶隱私數(shù)據(jù)在技術(shù)層面實(shí)現(xiàn)更加簡單和靈活,因此,被安全領(lǐng)域用作基礎(chǔ)的防護(hù)手段。早期代表性的專利有US2012278830A1,該篇專利中,在遇到隱私和保密性時讓用戶進(jìn)行控制,并且允許用戶表達(dá)他們的隱私偏好,允許消費(fèi)者控制隱私設(shè)置;2018年以后的代表性專利有CN110032888A,其根據(jù)預(yù)設(shè)的數(shù)據(jù)使用權(quán)限和數(shù)據(jù)使用者分類信息,對原始數(shù)據(jù)設(shè)置相應(yīng)的數(shù)據(jù)使用權(quán)限,提高數(shù)據(jù)共享開放的安全可靠性;近年來,隨著區(qū)塊鏈以及算法的快速發(fā)展,越來越多的隱私防護(hù)技術(shù)中借助新的計(jì)算機(jī)技術(shù)實(shí)現(xiàn)隱私訪問控制的精準(zhǔn)性,代表性專利有CN109741803A以及CN112241543A。其中,CN109741803A設(shè)置敏感數(shù)據(jù)的密文訪問控制策略,在信息認(rèn)證、廣播、傳輸過程中,通過數(shù)據(jù)脫敏和加密,充分保護(hù)個人隱私和數(shù)據(jù)安全;CN112241543A中通過理清數(shù)據(jù)中臺中的敏感數(shù)據(jù)分布情況以及分類分級情況,實(shí)現(xiàn)基于敏感標(biāo)簽或敏感級別的授權(quán)訪問控制,對敏感數(shù)據(jù)進(jìn)行梳理、整合。
五、基于多方聯(lián)合計(jì)算保護(hù)用戶隱私數(shù)據(jù)
基于多方聯(lián)合計(jì)算保護(hù)用戶隱私數(shù)據(jù)技術(shù),讓不同機(jī)構(gòu)的數(shù)據(jù)在保證數(shù)據(jù)隱私安全的前提下完成跨組織的聯(lián)合分析與學(xué)習(xí),是近年來發(fā)展起來的一種新型的隱私防護(hù)技術(shù)。代表性的專利有EP3580685A1、CN111967038A、CN112231746A、CN111931221A。EP3580685A1中提出的技術(shù)方案用于為由不受信任和/或獨(dú)立方維護(hù)的數(shù)據(jù)項(xiàng)安全地確定隱私集交集或隱私集交集的特性的方法。隱私數(shù)據(jù)集的交集是指數(shù)據(jù)集中的每一個共有的數(shù)據(jù)項(xiàng)。例如,由幾方維護(hù)的隱私數(shù)據(jù)集中表示的相同對象或個人的數(shù)據(jù)項(xiàng)可以被分類為在隱私數(shù)據(jù)集中的交集內(nèi);CN111967038A通過利用多方安全計(jì)算的方式對輸入數(shù)據(jù)和執(zhí)行代碼進(jìn)行處理以執(zhí)行計(jì)算指令,防止數(shù)據(jù)泄露;CN112231746A中提供了一種聯(lián)合數(shù)據(jù)分析方法,通過鏡像等價模型得到關(guān)聯(lián)其多方的特征,在沒有相互泄露數(shù)據(jù)的情況下擴(kuò)展了分析維度,提高了分析精確度;CN111931221A在不向?qū)Ψ交虻谌叫孤兑环剿鶕碛械臄?shù)據(jù)對象具體的屬性數(shù)據(jù)和特征數(shù)據(jù)的前提下,根據(jù)雙方各自擁有的數(shù)據(jù)對象的第一特征數(shù)據(jù)、第二特征數(shù)據(jù)進(jìn)行聯(lián)合分組,避免在上述數(shù)據(jù)處理場景中泄露一方所擁有的數(shù)據(jù)對象的具體數(shù)據(jù)。
六、基于對敏感/隱私數(shù)據(jù)的識別和攔截保護(hù)用戶隱私數(shù)據(jù)
基于對敏感/隱私數(shù)據(jù)的識別和攔截保護(hù)用戶隱私數(shù)據(jù)是被廣泛使用的一種隱私防泄漏技術(shù)。該技術(shù)分支具有領(lǐng)域性特點(diǎn),不同的領(lǐng)域關(guān)注不同類型的隱私/敏感數(shù)據(jù)類型,代表性的專利有CN111079174A、CN110175623A、CN110020553A。CN111079174A中構(gòu)建基于匿名化和差分隱私技術(shù)的用電數(shù)據(jù)脫敏算法模型,可以對用電數(shù)據(jù)進(jìn)行脫敏;CN110175623A中涉及一種基于圖像識別的脫敏處理方法,通過對多個圖像識別模型的敏感特征識別結(jié)果進(jìn)行核對來提升敏感特征識別的準(zhǔn)確度;CN110020553A保護(hù)敏感數(shù)據(jù)的方法能夠確保敏感數(shù)據(jù)被準(zhǔn)確高效地發(fā)現(xiàn)和梳理,并對敏感數(shù)據(jù)的各個出口都進(jìn)行保護(hù)。通過上述分析可知,該技術(shù)分支下,不同的領(lǐng)域在隱私防護(hù)過程中根據(jù)其各自的領(lǐng)域特定確定要識別和攔截的具體對象,從而實(shí)現(xiàn)有針對性的精準(zhǔn)防護(hù)。
七、基于對數(shù)據(jù)融合、隱私算法/模型的改進(jìn)來保護(hù)用戶隱私數(shù)據(jù)
對隱私防護(hù)中具體使用的算法或/模型進(jìn)行改進(jìn)是近年來研究的熱點(diǎn),由于其屬于偏底層的技術(shù)改進(jìn),技術(shù)的通用性強(qiáng),并且通過模型或算法能夠大大提高隱私防護(hù)中數(shù)據(jù)處理的效率及準(zhǔn)確性。代表性的專利有CN110610098、CN111914287A、CN112464269A。CN110610098中保證在多方垂直分割數(shù)據(jù)的發(fā)布過程中,滿足對于所發(fā)布的數(shù)據(jù)集的差分隱私的要求,同時發(fā)布的整體數(shù)據(jù)能夠支持多種數(shù)據(jù)分析任務(wù);CN111914287A中針對位置服務(wù)中的隱私保護(hù)方法,基于改進(jìn)DTW距離算法,來量化用戶的軌跡隱私保護(hù)程度,避免構(gòu)造同步的軌跡數(shù)據(jù)集,科學(xué)評估軌跡隱私保護(hù)程度;CN112464269A的方法包括過濾出和任務(wù)相關(guān)的用戶和數(shù)據(jù)、訓(xùn)練前用戶選擇、訓(xùn)練過程中用戶和數(shù)據(jù)選擇、模型訓(xùn)練,本發(fā)明采用了向量草圖和隨機(jī)響應(yīng)機(jī)制,用戶選擇策略高效且?guī)в须[私保護(hù)。從上述分析可知,該技術(shù)分支下,重點(diǎn)在于對模型或算法的改進(jìn),強(qiáng)調(diào)在防止隱私泄露的前提下最大程度的保證數(shù)據(jù)的可用性,使得數(shù)據(jù)分析結(jié)果更有價值。
八、結(jié)束語
從以上分析結(jié)果可以看出,前期對大數(shù)據(jù)挖掘過程中隱私數(shù)據(jù)防護(hù)的策略專利申請的主要集中在基于對敏感/隱私數(shù)據(jù)處理保護(hù)用戶隱私數(shù)據(jù),但近年來隨著人工智能和區(qū)塊鏈技術(shù)的快速發(fā)展,越來越多的專利申請利用多種技術(shù)的結(jié)合來進(jìn)行隱私數(shù)據(jù)的防護(hù)。隨著大數(shù)據(jù)分析在各領(lǐng)域的廣泛應(yīng)用,隱私保護(hù)面臨越來越多的技術(shù)挑戰(zhàn),也為該領(lǐng)域的發(fā)展帶來了新的契機(jī),只有根據(jù)實(shí)際的需求,通過結(jié)合多種技術(shù)手段,才能更好地解決不同場景下的隱私保護(hù)的問題。
作者:張琳 石蒙蒙 單位:國家知識產(chǎn)權(quán)局專利局專利審查協(xié)作江蘇中心