#book

[서평] 머신러닝을 위한 실전 데이터셋(feat. 한빛미디어 나는리뷰어다)

WOONY 2021. 2. 21. 02:53

 

 

"데이터 합성을 위해 읽어야 할 필수 서적"

유럽의 GDPR, 미국의 CCPA, HIPAA 등 강력한 Privacy 규제 속에서 최근 합성 데이터가 각광을 받고 있으며 책 <머신러닝을 위한 실전 데이터셋>에서는 합성 데이터 활용 사례부터 합성 방법, 효용성 평가 등 데이터 합성에 대해 자세히 설명하였다. 

 

1장에서는 제조와 유통업, 헬스케어, 금융 서비스, 교통에서 합성 데이터의 활용 사례를 소개하였고 2~5장까지는 데이터를 합성하는 방법, 6장에서는 이렇게 생성된 합성 데이터에서 노출될 수 있는 유형들과 개인정보 보호법에서의 합성데이터 이슈사항들을 자세히 설명하였다. 마지막 7장에서는 실제 데이터를 처리할 때 고려사항을 제시함으로써 실무자들에게 도움이 될만한 해결 방안을 소개하였다.

 

현업에서 데이터를 분석하는 입장에서 국내 법상 왠만한 데이터는 개인정보가 아닌 데이터가 없다보니(그 정보만으로 특정 개인을 알아볼 수 없더라도, 다른 정보와 쉽게 결합하여 개인을 알아볼 수 있다면 전부 개인정보다.) 이러한 데이터 Privacy와 데이터 효용성 사이에서 균형을 이루는 최적의 지점을 찾는 것이 가장 큰 숙제인 것 같다. 개인을 식별하는 식별자를 제거할수록 개인화된 맞춤형 서비스를 제공하기 위한 분석이 점점 어려워지기 때문이다. 이러한 데이터 접근 장벽을 해결하기 위한 강력한 솔루션이 합성 데이터라고 생각한다.

 

작년 8월 국내에서도 데이터3법(개인정보 보호법, 정보통신망법, 신용정보법) 개정안이 시행되면서 마이데이터 사업자가 생겨나고 기업들간 데이터 업무 협약도 점점 활발해지는 것 같다.

해외 서적이다보니 아쉽게도 국내 개인정보 보호법에 대한 내용은 없지만 전세계 어디서든 데이터를 다루는 실무자들의 고민은 모두 똑같을 것이다. 데이터를 가공하는 데이터 엔지니어부터 데이터 애널리틱스, 데이터 사이언티스트까지 그리고 개인정보 담당자까지 데이터를 다루는 모든 이들에게 추천한다.