재식별 공격 (Re-identification Attack)

1. 정의

  • 재식별 공격이란 익명화(Anonymization) 또는 가명화(Pseudonymization)된 데이터에서 특정 개인을 다시 식별하는 공격 기법을 의미한다.
  • 데이터 보호 기법을 적용했더라도 보조 정보(External Data)와 결합하여 개인 신원을 유추할 수 있음.

 

2. 공격 기법과 대응 방안

공격 기법대응방안
연결 공격
- 익명화된 데이터셋을 외부 보조 정보(공적 데이터, SNS 등)와 결합하여 특정 개인을 식별
K-익명성(k-Anonymity)
- 같은 준식별자 속성값을 가진 레코드가 최소 K개 이상 존재하도록 하여, 특정 개인이 다른 정보와 결합되어 쉽게 식별되는 것을 방지
동질성 공격
- 동일한 속성을 가진 그룹 내에서 민감 정보가 유추되는 공격
L-다양성(l-Diversity)
- K-익명성 모델의 한계를 보완
- K-익명성으로 묶인 동질집합 내에 적어도 L개 이상의 서로 다른 민감정보가 포함되도록 하는 기법
배경지식 공격
- 공격자가 기존에 알고 있는 배경지식을 활용하여 특정 대상의 정보를 추론
쏠림 공격
- 정보가 특정한 값에 쏠려 있을 때 공격대상의 민감정보를 추론할 수 있는 공격
T-근접성(t-Closeness)
- K-익명성과 L-다양성 모델의 취약점을 보완
- 동질 집합 내 특정 민감정보의 분포와 전체 데이터 집합의 민감정보 분포가 t 이하의 차이를 보이도록하여 재식별 위험을 감소시키는 기법

유사성 공격
- 비식별 조치된 레코드가 서로 비슷하면 L-다양성을 통해 비식별되었다 하더라도 민감정보를 추론할 수 있는 공격

 

3. 활용 및 시사점

  • 의료, 금융, 공공 데이터 개방 시 재식별 위험이 높음 → 기술적·법적 대응 필요
  • GDPR, 국내 개인정보 보호법에서도 재식별 시도 자체를 금지하고 강력히 규제
  • 개인정보 활용과 보호의 균형을 위해 프라이버시 보호 기술(PETs) 발전 필수

 

결론

재식별 공격은 빅데이터 시대 개인정보 활용의 가장 큰 위협 중 하나로, 비식별화만으로는 불충분하다.
따라서 차등 프라이버시, k-익명성 등 기술적 기법과 법적 규제를 병행하여 데이터 활용과 보호의 균형을 달성해야 한다.
 

+ Recent posts