4.빅데이터가 만들어 내는 본질적 변화

문) 다음 중 정보 관리 시스템의 능력을 넘어서는 정보량을 다루기 위해 필요한 정보만을 수집하여 효율성을 달성하는 것은?
① 사전처리
② 표본조사
③ 상관관계
④ 인과분석

 

문) 빅데이터가 만들어낸 본질적인 변화에 대한 설명으로 적절 것은?

ㄱ. 정해진 특정한 정보만 처리하는 것이 아니라 가능한 많은 데이터를 모으고, 다양한 형식으로 조합해 숨은 정보를 찾아내는 방식으로 전환

ㄴ. 폭발적인 데이터 증가와 더불어 처리비용 증가의 대안으로 전반적인 샘플링 분석 방식의 발전

ㄷ. 데이터의 양이 증가함에 따라 사소한 몇 개의 오류 데이터가 대세에 영향을 주지 못한다는 인식의 발전

ㄹ. 복잡한 상관관계 분석으로 발생하는 많은 시간과 비용을 줄이기 위해 인과관계 분석을 더욱 선호하게 되는 경향과 관련기술 발전


① ㄱ, ㄷ
② ㄱ, ㄹ
③ ㄴ, ㄷ
④ ㄴ, ㄹ

 

가. 사전처리에서 사후처리 시대로

인류가 정보 증가를 가장 폭발적으로 경험한 시점을 논할 때, 많은 학자가 산업혁명을 든다.  물론  쿠텐베르그의 인쇄술이 유럽에 도입됐을 때도 인류의 지식 및 정보가 폭발적으로 중가했지만. 그 정보의 양이 관리의 범주를 초월할 정도는 아니었다. 

 

반면 산업혁명 시대가 되면서 사람들이 모여 일올 분할 처리하면서 사람들. 기계들. 사람과 기계 간의 역할을 조정하는 일은 커다란 도전이 됐다. 더구나 거대한 공장과 복잡한 조립과정에서 쏟아져 나오는 정보의 양은 사회의 정보 관리 시스템의 한계를 넘어섰다.

 

정보 관리 시스템의 능력올 넘어서는 정보량을 다루기 위해서 산업혁명 시대에 발전해 온 것이 바로 정보의 사전 처리(pre-processing) 방식이다. 이는 필요한 정보만 수집하고 필요하지 않는 정보률 버림으로써 당시 시스템으로 달성할 수 있는 효율성을 만들어 냈다.

 

사전 처리의 대표적인 예로는 지금도 사용되고 있는 표준화한 문서 포맷을 들 수 있다. 사전에 정한 포맷으로 인쇄된 문서를 통해 자신들이 원하는 정보만 수집하고. 기타 개개인의 특수한 상황을 반영하는 세세한 정보의 수집을 포기함으로써 정보 관리비용을 줄인다.

 

이러한 사전 처리 관행은 빅데이터 시대를 맞아 종말을 맞고 있다. 빅데이터 시대에는 이미 가치가 있을 것이라고 정해진 특정한 정보만 모아서 처리하는 것이 아니라. 가능한 한 많은 데이터를 모으고 그 데이터를 다양한 방식으로 조합해 숨은 정보를 찾아낸다. 사용자가 로그 데이터에 관심을 두지 않았을 때. 구글은 이미 로그 데이터를 분석해 광고에 매칭하면서 세계 최고의 인터넷 기업으로 성장했다. 이것을 다른 말로 표현하면, 데이터 마이닝과 같은 방식으로 이해할 수 있고 관료주의 시대의 데이터의 사전 처리와 비교해 사후 처리(post-processing) 방식이라고 부를 수 있다.

 

다. 질보다 양으로

빅데이터라는 말은 늘어난 양의 의미까지 포함하고 있다.  데이터의 질보다 양을 강조하는 것으로볼 수도 있다. 실제로 빅데이터가 만들어 내는 마법의 상당 부분은 엄청난 용량이 질적으로 전환되는 과정에서 나타난다.

 

이것은 마치 통계학에서 회귀분석을 할 때 새로운 변수가 추가될 때마다 설명력 중가분은 하락하지만,그 변수의 수가 무한정 중가한다면 모델의 설명력 R2가 100에 수렴하는 것과 유사하다. 빅데이터 성공 사례로 자주 언급되는 구글의 자동번역 시스템 구축 과정은 데이터의 양이 질보다 중요함올 잘 보여준다.

 

구글은 IBM과 동일한 접근법을 취하며 자동번역 시스템을 개발했다. IBM이 포기한 프로젝트를 구글은 성공적으로 수행했다. 두 회사의 가장 큰 차이는 데이터에 관한 관점에서 비롯됐다. IBM은 의회에서 번역한 것처럼 고도로 정교하게 번역된 말몽치(corpus)를 중심으로 데이터베이스를 구축했지만, 구글은 번역에 참고할 말뭉치 데이터베이스에 잘 번역된 것 뿐만 아니라 오역이 있는 웹 사이트 정보까지 다 수용했다.

 

그 결과 IBM이 구축한 데이터베이스 말뭉치는 수백만 건 수준이었지만, 구글의 데이터베이스 말뭉치는 수십억 건에 이르렀다. 번역 품질은 데이터베이스 양에 따라 성패가 결정됐다. 이러한 현상은 데이터가 지속적으로 추가될 때 양질의 정보가 오류 정보보다 많기에 전체적으로 좋은 결과 산출에 긍정적인 영향을 미친다는 추론에 그 바탕을 두고 있다.


빅데이터를 다룰 때. 질보다 양이 중요한 또 다른 이유가 있다.  데이터 수가 증가함에 따라 사소한 몇개의 오류데이터가 •대세에 영향을 주지 못하는’ 경향이 늘어나기 때문이다.

 

100여 명 정도의 관리에서 한두명은 매우 의미 있는 변화를 만들어 내는 규모일 수 있지만 수천만. 수억의 전체 인구를 다루는 문제에서한두명은 그렇게 의미 있는 차이를 만들어 내는 수가 아닐 수 있다. 특히 사업 방향만을 결정할 때에, 60%와 61% 간의 차이 구별은 불필요하다. 따라서 활용하는 데이터 규모가 커짐에 따라 사소한 숫자의 오류는 특정사업에 착수 여부를 결정하는 데에 영향올 미치지 않기 때문에 데이터세트에 포함-분석해도 괜찮을 때가 늘어난다. 

 

기존의 샘플링에 의존하던 시대에는 될 수 있오면 정확하고 모든 조건을 충족시키는 사례만을 데이터세트에 넣어 분석했다. 그러나 모든 조건을 충족하는 데이터세트는 상당부분의 사례를 제외시키는 결과를 낳는다. 가령 3 0개의 변수를 포함하는 사례를 데이터세트로 삼아 분석할 때. 한두개의 변수에 대한 값을 가지지않아 제외되는 사례가 상당수 발생하게 된다. 그러나 이렇게 제외되는 사례들일지라도 다른 변수에 대해서는풍부한 정보를 갖고 있기 때문에 모든 데이터를 활용할 때. 훨씬 더 많은 가치를 추출할 수 있다고 보는 것이 빅데이터 세계의 데이터 관점이다.

 

라. 인과관계에서 상관관계로

 

기존의 과학적 발견법은 이론(theory)에 기초해서 수집할 변인을 결정하고 엄격한 실험을 통해 잘 정제된 데이터를 얻고 이를 정교한 이론적 틀에 맞춰 분석한 후 변인간의 인과관계(causation)률 찾으려 했다.그러나 앞 절에서 살펴본 바와 같이 이러한 접근법은 데이터를 얻는데 드는 비용이 매우 비쌌던 시대의모델이다. 

 

빅데이터 시대에는 데이터 획득 비용이 기하급수적으로 감소하고, 모든 곳에서 데이터가 넘쳐난다. 인터넷 로그 둥을 이용하면 특정 사이트를 이용하는 사용자전수에 대한 조사가 가능하므로 굳이 샘플링할 이유가 없다.

 

이론적 발견법은 인과관계로 특정 현상이 일어나는 이유와 과정을 설명하려 한다. 하지만 이유를 몰라도 괜찮은 경우들도 있다. 가령 독감 확산 경로를 예측해 예방 백신을 효율적으로 공급하려 할 때는 다음 확산지역을 알아내는 것 자체가 중요할 뿐이다. 구글이 수십억 개의 수학적 모델 분석을 통해 발견한 특정한 4 5개 키워드가 독감 발생과 매우 높은 상관관계(correlation)가 있다고 했을 때. 독감 확산 경로 예측에는 그 키워드의 검색 빈도 중감을 살펴보는 것 만으로 충분하다. 왜, 어떻게 그러한 키워드가 독감 중상을대변하고 설명하는지에 대한 관계 설명은 부수적이고 추후에 해도 되는 작업일 수 있다.비즈니스 상황에서는 인과관계를 모르고 상관관계 분석만으로 충분한 경우가 많다. 가령 특정 지표의 변화가 주가와 밀접한 상관관계가 있다고 밝혀지면 주식 거래인은 신속히 거래해 이익을 성취하면 그만이다. 그 이면의 인과관계를 분석하기 위해 시간을 보내다가 거래 타이밍을 놓쳐 수익 실현 기회를 놓치는 것은주식 거래 목적에 부합하지 않는 일이다. 인과관계 규명 없이 상관관계로 비즈니스를 성공으로 이끈 사례로는 아비바(Aviva)라는 회사를 들 수 있다. 이 보험회사는 보험 가입자들의 신용 평가보고서와 소비자 마케팅 데이터를 활용해 혈액 및 소변검사

 

출처 : 데이터분석전문가가이드