1과목 2장 : 데이터의 가치와 미래
※ 1장, 2장, 3장 등은 책을 기준으로 나눴습니다. 책 : ADsP 한 권으로 끝내기
빅데이터의 이해
빅데이터의 정의
•관점의 범위에 따라
1. 3V 또는 7V로 요약되는 데이터 자체의 특성 변화에 초점을 맞춘 좁은 범위
2. 데이터 자체뿐만 아니라 처리, 분석 기술적 변화까지 포함하는 중간 범위
3. 인재, 조직 변화까지 포함해 빅데이터를 넓은 관점으로 정의하는 방식
3V or 7V
- 규모(Volume)
- 다루어야할 데이터의 크기
- 다양성(Variety)
- 다양한 종류의 데이터를 수용하는 속성
- 정형 데이터뿐만 아니라 다양한 비정형 데이터도 생성
- 속도(Velocity)
- 대용량의 데이터를 빠르게 처리하고 분석할 수 있는 속성
- 진실성 또는 신뢰성(Veracity)
- 빅데이터셋이 얼마나 신뢰할 수 있는 지를 의미
- 정확성(Validity)
- 데이터의 정확성을 의미.
- Veracity가 없다면 노이즈와 바이어스로 인해 잘못된 결론을 이끌어냄
- Validity가 없다면 데이터는 규모가 크더라도 쓸모가 없어짐
- 휘발성(Volatility)
- 데이터의 양이 많고 깔끔하게 정리되어 있더라도 몇 년만 지나면 의미가 없어지는 유형이 데이터이거나 데이터의 양이 너무나도 커서 오래 저장하기 힘들다면, 빅데이터로서의 활용성을 점검해야한다
- 빅데이터는 단기적으로 활용하기보다는 장기적인 관점에서 유용한 가치를 창출할 수 있어야함
- 가치(Value)
- 빅데이터는 유용한 가치를 이끌어낼 수 있어야 의미가 있음
※ 가트너 그룹 더그래니가 언급한 빅데이터 정의
1. Volume(데이터의 크기) : 생성되는 모든 데이터를 수집
2. Variety(데이터의 다양성) : 정형화된 데이터를 넘어 모든 유형의 데이터를 분석대상으로 봄
3. Velocity(데이터의 속도) : 사용자가 원하는 시간 내에 데이터 분석결과를 제공하는 것, 데이터의 업데이트 속도가 매우 빨라지는 것
데이터의 크기를 나타내는 단위
1024 기가바이트(GB) = 1 테라바이트(TB)
1024 테라바이트(TB) = 1 페타바이트(PB)
1024 페타바이트(PB) = 1 엑사바이트(EB)
1024 엑사바이트(EB) = 1 제타바이트(ZB)
1024 제타바이트(ZB) = 1 요타바이트(YB)
크기 순서 : 요타바이트(YB) > 제타바이트(ZB) > 엑사바이트(EB) > 페타바이트(PB) > 테라바이트(TB) > 기가바이트(GB)
※ 크기 순서를 물어보는 문제가 기출에 자주 출제되는 것으로 보입니다.
출현 배경
- 산업계
- 고객 데이터를 축적하여 보유 데이터에 숨어 있는 가치를 발굴해 새로운 성장 동력원으로 만들어낼 수 있는 빅데이터 기술 확보
- 학계
- 거대 데이터 활용 과학 확산
- 예시 : 인간 게놈 프로젝트
- 거대 데이터 활용 과학 확산
- 관련 기술 발전
- 디지털화, 저장 기술, 인터넷 보급, 모바일 혁명, 클라우드 컴퓨팅
※ 빅데이터가 등장하게 된 결정적 요인은 기술변화인 클라우드 컴퓨팅과 분산처리 기술이라 할 수 있다
빅데이터 기능
- 빅데이터는 산업 혁명의 석탄, 철에 비유됨
- 빅데이터는 석탄과 철이 산업혁명에서 했던 역할을 차세대 산업혁명에서 해낼 것
- 제조업뿐 아니라 서비스 분야의 생산성을 획기적으로 끌어올려 혁명적 변화를 가져올 것
- 빅데이터는 원유에 비유됨
- 빅데이터는 원유처럼 필요한 ‘정보’를 제공함으로써 산업 전반의 생산성을 한 단계 향상 시킬 것
- 빅데이터는 렌즈에 비유됨
- 현미경이 생물학 발전에 미쳤던 영향만큼 빅데이터가 산업 전반에 영향을 미칠 것
- 빅데이터는 플랫폼에 비유됨
- 플랫폼이란 비즈니스 차원에서 일반적으로 ‘공동 활용의 목적으로 구축된 유무형의 구조물’을 의미
- 예시 : 페이스북은 SNS 서비스로 시작하였으나 개발자들이 페이스북 위에서 작동하는 앱을 만들며 플랫폼 역할을 수행
- 플랫폼이란 비즈니스 차원에서 일반적으로 ‘공동 활용의 목적으로 구축된 유무형의 구조물’을 의미
빅데이터가 만들어내는 본질적인 변화
- 사전처리에서 사후처리 시대로
- 기존에는 원하는 정보만 수집하고, 특수한 상황을 반영하는 정보의 수집을 포기함으로써 정보관리 비용을 줄였음
- 빅데이터 시대에는 가능한 한 많은 데이터를 모으고 그 데이터를 다양한 방식으로 조합해 숨은 정보를 찾아냄
- 표본조사에서 전수조사로
- 데이터 수집비용이 문제가 되지 않았고 클라우드 컴퓨팅 기술의 발전에 따라 데이터 처리 비용이 급격히 감소
- 전수조사의 장점의 표본조사가 주지 못하는 패턴이나 정보를 제공해주는 것
- 질보다 양으로
- 구글의 자동번역 시스템은 데이터의 양이 질보다 중요함을 잘 보여줌
- 데이터 수가 증가함에 따라 사소한 몇 개의 오류 데이터가 ‘대세에 영향을 주지 못하는’ 경향이 늘어남
- 즉 사소한 오류를 신경쓰지 않아도 됨
- 인과관계에서 상관관계로
- 비즈니스 상황에서는 여러 분석을 거쳐 인과관계를 찾기보다 인과관계를 모르고 상관관계 분석만으로 충분함
빅데이터의 가치와 영향
빅데이터의 가치(빅데이터의 가치 산정이 어려운 이유)
- 데이터의 활용 방식 : 데이터의 재사용, 재조합, 다목적용 데이터 개발 등이 일반화되면서
특정 데이터를 언제, 어디서, 누가 활용할 지 알 수 없음- 재사용 사례 : 구글 검색결과를 저장 후 재사용함
- 다목적용 사례 : 전기자동차의 배터리 충전시간&주유소 최적위치, CCTV
- 재조합 사례 : 휴대전화 전자파와 뇌종양 관계
- 데이터가 기존에 없던 가치 창출을 한다.
- 분석 기술의 발달이 데이터 가치에 영향을 준다
기존에는 가치가 없는 데이터도 새로운 분석기법으로 가치를 만든다
빅데이터의 영향(기업, 정부, 개인)
- 기업
- 혁신 : 빅데이터를 활용해 비즈니스 모델을 혁신하거나 신사업을 발굴할 수 있다
- 경쟁력제고 : 빅데이터를 활용하면 경쟁사보다 강한 경쟁력을 확보하는데 도움이 된다
- 생산성향상 : 빅데이터를 활용해 기업들의 운용 효율성이 증가하면, 산업 전체의 생산성이 향상된다
- 정부
- 환경탐색 : 정부는 기상, 인구이동, 각종 통계, 법제 데이터 등을 수집해 사회변화를 추정하고 각종 재해 관련 정보를 추출할 수 있다
- 상황분석 : 수집된 데이터를 바탕으로 사회관계망 분석이나 시스템 다이내믹스, 복잡계 이론과 같은 분석 방식을 적용해 미래 의제를 도출할 수 있다
- 미래대응 : 도출된 미래의제에 대한 대응 방안 역시 빅데이터를 통해 얻을 수 있다
- 개인
- 목적에 따라 활용
비즈니스 모델
빅데이터 활용 사례
- 구글의 검색엔진, 월마트의 구매패턴 분석, IBM 왓슨 의료 분야에 활용
- 정부의 실시간 교통정보 활용, CCTC 국가안전에 사용
- 정치인의 사회관계망 분석을 통한 유세, 가수의 팬 음악청취 기록 분석 활용 등
- 아마존의 킨들에 쌓이는 전자책 읽기 관련 데이터 분석해 저자들에게 제공
- 넷플릭스의 추천 알고리즘의 진화로 추천 정확도 증가
※ 핀테크(FinTech)는 금융(Financial)과 기술(Technology)의 합성어로 금융과, IT의 융합을 통한 금융서비스 및 산업의 변화를 통칭
빅데이터 활용 테크닉
- 연관규칙학습(Association rule learning)
- ‘커피를 구매하는 사람이 탄산음료를 더 많이 사는가?’ 라는 문제에 답하고자 할 때 사용
- 어떤 변인들 간에 주목할 만한 상관관계가 있는 지를 찾아내는 방법
- 예 : 슈펴마켓에서 상관관계가 높은 상품을 함께 진열 (우유와 기저귀)
- 유형분석(Classification tree Analysis)
- ‘사용자가 어떤 특성을 가진 집단에 속하는가?’ 와 같은 문제를 해결할 때 사용
- 기존 자료를 바탕으로 만들어진 훈련용 분류틀이 미리 갖춰져 있어야 함
- 문서를 분류하거나 조직을 그룹으로 나눌 때 사용
- 예 ; 온라인 수강생들을 특성에 따라 분류
- 유전 알고리즘(Genetic algorithms)
- ‘최대의 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야 하는가?’ 와 같은 문제를 해결할 때 사용
- 최적화 메커니즘을 찾아가는 방법
- 최적화가 필요한 문제의 해결책을 다양한 메커니즘을 통해 점진적으로 진화시켜 나가는 방법
- 기계학습(Machine Learning)
- ‘시청자가 현재 보유한 영화 중에서 어떤 것을 가장 보고 싶어할까?’ 와 같은 문제를 해결할 때 사용
- 훈련 데이터로부터 학습한 알려진 특성을 활용해 ‘예측’ 하는 일에 초점을 맞춤
- 회귀분석(Regression Analysis)
- ‘구매자의 나이가 구매 차량의 타입에 어떤 영향을 미치는가?’ 와 같은 질문에 답할 때 사용
- 부석가는 독립변수에 따른 종속변수가 어떻게 변화하는지를 보면서 두 변수의 관계를 파악
- 감정분석(Sentiment Analysis)
- ‘새로운 환불 정책에 대한 고객의 평가는 어떤가?’를 알고 싶을 때 활용
- 특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석
- 예 : 소셜미디어에 나타난 의견을 바탕으로 고객이 원하는 것을 찾아낼 때 사용
- 소셜 네트워크 분석(Social network analysis) = 사회관계망분석(SNA)
- ‘특정인과 다른 사람이 몇 촌 정도의 관계인가?’ 를 파악할 때 사용
- 이를 통해 영향력 있는 사람을 찾아낼 수 있으며, 고객들 간 소셜 관계를 파악할 수 있음
위기요인과 통제 방안
위기 요인 및 통제 방안
- 사생활 침해
- 위기 요인
- 빅데이터 시대가 본격화되면서 우리를 둘러싼 정보 수집 센서들의 수가 점점 늘어나고 있고, 특정 데이터가 본래 목적 외에 가공 처리돼 2차, 3차 목적으로 활용될 가능성이 증가하면서 사생활 침해를 넘어 사회, 경제적 위협으로 변형될 수도 있다
- 통제 방안
- 개인정보 사용자가 책임을 지도록 하여 개인정보 사용 주체가 보다 적극적인 보호 장치를 강구하게 하는 효과가 발생할 것으로 기대한다. 이러한 관점에서 포괄적인 해결책으로 제시된 것이 동의제를 책임제로 바꾸는 방안이다.
- 위기 요인
- 책임 원칙의 훼손
- 위기 요인
- 빅데이터 기반 분석과 예측 기술이 발전하면서 정확도가 증가한 만큼, 분석대상이 되는 사람들은 예측 알고리즘의 희생양이 될 가능성이 증가한다.
- 통제 방안
- 기존의 책임 원칙을 좀 더 보강하고 강화할 수 밖에 없다. 특정 기업이 담합할 가능성이 높다고 판단할 예측 알고리즘의 판단 근거로 해당 기업을 처벌하면 안되고, 실제 담합한 결과에 대해서만 처벌해야 한다.
- 위기 요인
- 데이터의 오용
- 위기 요인
- 빅데이터는 일어난 일에 대한 데이터에 의존한다. 그것을 바탕으로 미래를 예측하는 것은 적지 않은 정확도를 가질 수 있지만 항상 맞을 수는 없다. 주어진 데이터에 잘못된 인사이트를 얻어 비즈니스에 직접 손실을 불러올 수 있다.
- 통제 방안
- 이러한 문제를 해결하기 위해 알고리즘에 대한 접근권을 보장해야 한다는 목소리가 높아지고 있다.
- 접근권뿐만 아니라 객관적인 인증방안을 도입하자는 의견도 제시되고 있다.
- 알고리즘이 부당함을 반증할 수 있는 방법을 명시해 공개할 것을 주문하기도 한다.
- 위기 요인
데이터 3법 주요 개정 내용
•데이터 3법은
데이터 이용을 활성화하는 ‘개인정보보호법‘
‘정보통신망 이용촉진 및 정보보호 등에 관한 법률(이하 정보통신망법)’
‘신용정보의 이용 및 보호에 관한 법률(이하 신용정보법)’
등 3가지를 통칭한다.
데이터 3법 주요 개정 내용
•데이터 이용 활성화를 위한 가명정보개념 도입
•관련법률의 유사, 중복 규정을 정비하고 추진체계를 일원화하는 등 개인정보 보호 협치 체계의 효율화
•데이터 활용에 따른 개인정보처리자의 책임 강화
•모호한 개인정보판단 기준의 명확화
※개인정보 VS 가명정보 VS 익명정보
•개인정보 : 특정 개인을 알아볼 수 있는 정보
•가명정보 : 추가정보의 사용, 결합 없이는 특정 개인을 알아볼 수 없는 정보
•익명정보 : 시간, 비용, 기술 등을 합리적으로 고려했을 때 다른 정보를 사용하여도 더 이상 개인을 알아볼 수 없는 정보
달라진 개인정보 보호법
1. 개인정보 판단 기준 명확화
•개인정보의 판단기준 세부화, 익명정보는 법 적용 대상이 아님을 명시
개정 전(기존) | 개정 후(달라지는 점) |
---|---|
개인정보 : 살아있는 개인에 관한 정보 | 개인정보 1. 살아있는 개인에 관한 정보 2. 개인정보를 가명처리한 정보 |
•가명처리된 정보(가명정보)는 통계작성, 과학적 연구, 공익적 기록 보존 등의 목적으로 동의없이 처리 가능
2. 수집목적과 합리적 관련 범위 내에서 활용 확대
개정 전(기존) | 개정 후(달라지는 점) |
---|---|
•개인정보 수집, 이용 또는 제공 시 사전에 목적을 구체적으로 정하고, 그 목적의 범위에서 이용, 제공 가능 •목적변경 시, 정보주체의 재동의 필요 | •당초 수집 목적과 합리적으로 관련된 범위 내에서 정보주체의 동의 없이 개인정보 이용, 제공 가능 •고려사항 : 정보주체에게 불이익이 발생하는지 여부, 암호화 등 안전성 확보조치 여부 등 |
3. 개인정보보호 추친 체계 효율화
개정 전(기존) | 개정 후(달라지는 점) |
---|---|
행안부, 방송위, 금융위, 개인정보위 등 분야별 감독기구 상이 | 개인정보보호 위원회로 감독기구 일원화 |
개인정보처리자 책임성 강화 : 가명처리 및 결합 시 안전성 확보에 필요한 기술적, 관리적 및 물리적 조치의무, 재식별 금지 의무, 위반시 벌칙 조항이 신설
개인정보 처리단계별 보호
- 개인정보의 수집 • 이용
- 개인정보수집 : 정보주체로부터 직접 이름, 주소, 전화번호 등의 정보를 제공받는 것 뿌만 아니라 정보 주체에 관한 모든 형태의 개인 정보를 취득하는 것을 말함
- 정보원칙 : 개인 정보는 정보주체로부터 직접 수집이 원칙이나 필요한 경우 제 3자(국가기관, 신용평가기관 등), 공개된 자료원(인터넷, 전화번호부) 등에서 수집 • 이용 가능
- 개인정보의 수집 및 수집 목적내 이용이 가능한 경우
- 정보주체의 동의를 받는 경우
- 법률에 특별한 규정이 있거나 법령상 의무를 준수하기 위하여 불가피한 경우
- 공공기관이 법령 등에서 정하는 소관 업무의 수행을 위하여 불가피한 경우
- 정보주체와의 계약의 체결 및 이행을 위하여 불가피하게 필요한 경우
- 명백히 정보주체 등의 급박한 생명, 신체, 재산의 이익을 위해 필요한 경우
- (정보주체와의 권리보다 우선하는) 개인정보처리자의 정당한 이익 달성을 위하여 필요한 경우
- 개인정보 수집 • 이용 동의 시 필수 고지 사항
- 개인정보의 수집 • 이용 목적
- 수집하려는 개인정보의 항목
- 개인 정보의 보유 및 이용 기간
- 동의를 거부할 권리가 있다는 사실 및 동의 거부에 따른 불이익이 있는 경우에는 그 불이익의 내용
- 개인정보의 수집 제한
- 개인정보를 수집할 때에는 그 목적에 필요한 범위에서 최소한의 개인정보만을 적법하게 정당하게 수집하여야 한다.
- 개인정보수집 처리자는 ‘정보주체가 필요 최소한의 정보 외의 개인정보 수집에 동의하지 않는다’ 라는 이유로 정보주체에게 재화 또는 서비스의 제공을 거부할 수 없다.
- 개인정보를 수집할 때에는 그 목적에 필요한 범위에서 최소한의 개인정보만을 적법하게 정당하게 수집하여야 한다.
- 데이터 비식별화
- 비식별화란 정보의 일부 또는 전부를 삭제 • 대체하거나 다른 정보와 쉽게 결합하지 못하도록 하여 특정 개인을 알아볼 수 없도록 하는 일련의 조치를 말함
- 개인정보 수집은 개인정보 보호법 등 적법한 절차에 따라 최소한의 정보만 수집하고, 빅데이터 분석 및 테스트 등 데이터처리과정에서도 반드시 필요한 개인정보만 사용하며, 빅데이터 사용목적달성 후에는 안전하고 완벽하게 파기하고, 개인정보의 재활용을 위하여 보관시에는 다른 개인정보와 분리하여 관리한다.
- 개인정보의 이름, 주민등록번호 등 식별자는 원칙적으로 삭제 조치하지만, 데이터 이용 시 반드시 필요한 식별자는 마스킹처리, 가명처리 등 비식별 조치 후 활용한다.
■ 개인정보 식별요소 제거방법 및 예시(출처 : 한국정보화진흥원)
비식별 기술 | 제거방법 | 예시 |
---|---|---|
가명처리 | 개인정보 중 주요 식별 요소를 다른 값으로 대체하여 개인식별을 곤란하게 함 | 홍길동, 35세, 서울 거주, 한국대 재학 -> 임꺽정, 30대 서울 거주, 국제대 재학 |
총계처리 또는 평균값 대체 | 데이터의 총합 값을 보인으로써 개별 데이터의 값을 보이지 않도록 함 | 임꺽정 180cm, 홍길동 170cm, 이콩쥐 160cm, 김팥쥐 150cm -> 물리학과 학생 키 합 : 660cm, 평균키 165cm |
데이터 값(가치) 삭제 | 데이터 공유 • 개방 목적에 따라 데이터 셋에 구성된 값 중에 필요 없는 값 또는 개인식별에 중요한 값을 삭제 | 홍길동, 35세, 서울 거주, 한국대 졸업 -> 35세, 서울 거주 주민등록번호 001212-3456789 -> 00년대 생, 남자 |
범주화 | 데이터의 값을 범주의 값으로 변환하여 명확한 값을 감춤 | 홍길동, 35세 -> 홍씨, 30-40세 |
데이터 마스킹 | 공개된 정보 등과 결합하여 개인을 식별하는 데 기여할 확률이 높은 주요 개인식별자가 보이지 않도록 처리하여 개인을 식별하지 못하도록 함 | 홍길동, 35세, 서울 거주, 한국대 재학 -> 홍**, 35세, 서울 거주, **대학 재학 |
미래의 빅데이터

- 데이터 : 모든 것을 데이터화하는 추세를 빅데이터 시대에는 피할 수 없다. 특정한 목적없이 생산된 데이터라도 창의적으로 재활용되면서 가치를 만들어낼 수 있기 때문이다.
- 기술 : 빅데이터 분석 알고리즘의 진화가 가속화될 것이다. 알고리즘은 데이터 양의 증가에 따라 정확도가 증가하는 일반적인 경향이 있다. 그것은 알고리즘을 학습시킬 수 있는 데이터의 양이 증가하면서 알고리즘도 스마트해지는 경향이 있음을 의미한다.
- 인력 : 데이터 사이언티스트와 알고리즈미스트의 역할이 중요해질 것으로 전망된다. 데이터 사이언티스트는 빅데이터의 다각적 분석을 통해 인사이트를 도출하고 이를 조직 전략 방향 제시에 활용할 줄 아는 기획자로서 전문가 역할을 할 것으로 기대된다.
기출문제
다음 중 빅데이터 출현 배경으로 옳지 않은 것은? (ADsP 39회 기출)
① 비정형 데이터의 확산
② 학계의 거대 데이터 활용 과학 확산
③ 중앙 집중 처리 방식의 특성
④ 데이터 처리 기술 발전
정답 : 3번
해설 : 중앙 집중 처리 방식과 빅데이터의 출현은 관계가 없습니다.
위 검은 부분을 드래그하면 정답과 해설이 보입니다.
다음 내용 중 빅데이터 위기 요인과 해결 방안이 잘 못 연결된 것을 모두 고르면? (ADsP 39회 기출)
가. 사생활 침해 → 정보사용자의 동의제에서 책임제로 변환
나. 책임 원칙의 훼손 → 알고리즘에 대한 접근권 제공
다. 데이터의 오용 → 데이터의 선택적 공개
① 가,나
② 가,다
③ 나,다
④ 가,나,다
정답 : 3번
해설
나 : 데이터의 오용에 대한 통제 방안이다
다 : 알 수 없는 통제방안이다
위 검은 부분을 드래그하면 정답과 해설이 보입니다.
데이터 크기를 작은 것 부터 큰 것 순서로 올바르게 나열한 것은? (ADsP 38회 기출)
① PB < EB < ZB < YB
② PB < YB < EB < ZB
③ YB < ZB < EB < PB
④ PB < ZB < EB < YB
정답 : 1번
해설 : 데이터의 크기는 순서대로
기가바이트(GB) < 테라바이트(TB) < 페타바이트(PB) < 엑사바이트(EB) < 제타바이트(ZB) < 요타바이트(YB) 순서이다.
위 검은 부분을 드래그하면 정답과 해설이 보입니다.
다음 중 빅데이터 활용을 위한 3요소에 대한 내용으로 틀린 것은? (ADsP 38회 기출)
① 데이터 : 모든 것의 데이터화
② 기술 : 진화하는 알고리즘 , 인공지능
③ 인력 : 데이터 사이언티스트, 알고리즈미스트
④ 프로세스 : 이전과는 다른 데이터 관리를 위한 작업절차
정답 : 4번
해설 : 프로세스는 빅데이터 활용을 위한 3요소에 포함되지 않는다.
위 검은 부분을 드래그하면 정답과 해설이 보입니다.