금요일 모닝커피 2017-2019

빅 데이터- 2017. 7. 21.

jaykim1953 2017. 7. 21. 05:37

산업계 전반의 발전 속도는 시간이 흐를수록 더 빨라집니다. 19세기 말 처음으로 등장한 내연기관이 본격적으로 상용화되기 시작한 것은 자동차의 발달과 맥을 같이 합니다. 20세기 초반 포드 자동차 회사에서 T 모델을 생산하기 시작하면서 내연기관은 곧 개솔린 엔진으로 인식되었습니다 그리고 자동차의 발달과 함께 발전을 거듭하였습니다. 최근에 이르러서는 하이브리드, 전기 등 연료의 다변화와 함께 자동차 엔진도 단순한 개솔린 내연기관에 그치지 않고 다양해 지고 있는 추세입니다. 그와 함께 자동차 산업 자체의 발전속도도 매우 빨라졌습니다.


자동차가 19세기 말, 20세기 초부터 시작하여 발전을 거듭해 온 분야라면, 컴퓨터는 20세기 중반부터 시작하여 60여년 동안 발전을 거듭하였습니다 초기에는 단순히 많은 분량의 계산을 사람보다 빠른 시간 안에 정확히 마칠 수 있는 것으로 만족하였으나, 이제는 인공지능 (AI, artificial intelligence)에 까지 이르렀습니다.


현재의 빠른 변화와 발전을 우리는 흔히 4차 산업혁명이라고 부르기도 합니다. 차세대의 변화를 예측하는 것은 쉬운 일이 아니나 앞으로 다가 올 미래는 여태까지의 산업 형태와 다를 것임은 분명합니다. 현재 우리가 추측하는 4차 산업 혁명의 화두(話頭)는 대체로 인공지능, 사물 인터넷 (IoT, Internet on Things), 빅 데이터 (big data) 등입니다.

 

우리에게 인공지능의 위력을 가장 절실하게 실감하게 만들어 준 것은 지난 해 (2016년) 3월 이세돌 9단과 대국을 벌여 4승 1패로 압승을 거둔 알파 고 (Alpha Go)의 바둑실력이었습니다. 그 뿐 아니라 자동차 분야에서 요즈음 바짝 연구에 열을 올리고 있는 자율주행 (automatic driving) 도 인공지능이 현실로 다가오는 것을 느끼게 만들어 주고 있습니다.

 

사물 인터넷 분야는 아직 실생활에서 인공지능 분야만큼 크게 부각되지는 못하고 있습니다. 각종 전자제품을 인터넷을 통하여 통제한다거나, 외국의 경우 교통 관제를 인터넷을 통하여 하는 정도의 수준으로 보입니다.

 

인공지능이라던가 사물 인터넷 분야는 제가 잘 아는 분야는 아닙니다. 이 분야의 일들은 우리가 흔히 이해하고 있는 제조업(2차 산업), 서비스업(3차 산업) 등과 연계되어 있습니다. 전문적인 용어로 기존 산업체계를 근간(back bone)으로 합니다. 기존에 있던 산업에 새로운 것을 얹어서 발전을 도모하는 것입니다.

 

인공지능이나 사물 인테넷과 견주어 보면 빅 데이터는 조금 다릅니다. 빅 데이터를 이용하는 것은 기존의 산업에 새로운 변화를 주는 것도 가능하지만 전혀 새로운 산업을 창출하기도 합니다. 빅 데이터가 우리의 실생활에 새로운 변화를 느끼게 만든 것은 지난 해 11월에 있었던 미국의 대통령 선거에서였습니다. 기존의 전통적인 통계방식에 의존한 여론조사는 힐러히 후보의 당선 가능성을 높게 평가하였으나 빅 데이터에 따른 분석은 오히려 트럼프 후보의 당선 가능성을 높게 예측하였고, 결과는 트럼프 후보의 당선이었습니다. (관련기사: hankyung.com_2016/11/9_빗나간여론조사)

 

이후 우리나라의 대통령 선거에서도 여론조사의 신뢰에 의문을 표시하며, 빅 데이터에 의한 분석을 통하여 후보자들이 각자 자신이 더 우세하다고 주장하는 일도 발생하였습니다. (관련기사: hani.co.kr_2017/4/23_빅데이터 2배 앞서) 그러나 우리나라의 대통령 선거 결과는 후보자들이 주장하는 빅 데이터 분석의 결과와는 달리 여론조사의 결과와 같았습니다.

 

그렇다면 미래의 4차 산업혁명의 주도적 분야 가운데 하나라는 빅 데이터라는 것이 믿을 만한 것이 못 되는 것일까요?

 

결론부터 이야기하면 결코 그렇지 않습니다.

 

우리나라의 대통령 선거에서 새로운 개념의 빅 데이터에 의한 분석이 빗나가고 기존의 여론조사의 방법에 의한 예측이 맞았다는 것이 기존의 여론조사 방법이 옳고 빅 데이터는 틀렸다는 것을 의미하지는 않습니다. 우리나라에서 빅 데이터에 의한 분석이 빗나간 원인은 여러 가지가 있을 수 있습니다. 제일 먼저 빅데이터를 분석하는 방법(논리, logic)이 잘못되었을 가능성입니다. 선거에 이용하기 위하여 자신에게 유리한 방향으로 논리를 이끌어 갔을 수도 있습니다. 여러 가지 경우가 있을 수 있겠으나 알기 쉽게 예를 들어; 상대방 후보의 데이터는 상대방 후보의 이름 석자와 끝에 후보라는 단어가 포함되어야만 의미 있는 데이터로 봅니다. 후보 시절 이전에 있었던 과거의 데이터를 걸러내기 위한 것이라고 설명할 수 있습니다. 그리고 자신의 데이터는 자신의 이름 또는 과거 직함을 포함합니다. 전(前) XX 도지사, 전 OOO당대표 등의 단어들도 포함합니다. 그렇게 하면 데이터의 분포가 왜곡될 수가 있습니다.

 

또 다른 이유로는 빅 데이터가 충분히 빅(big)하지 않았을 수 있습니다. 통계학에서 흔히 이야기하는 대수의 법칙(大數의 法則: law of large numbers)에 해당하는 것입니다. (금요일 모닝커피 2011. 11. 11. 참조) 데이터가 충분히 커야만 빅 데이터로서의 가치가 있습니다. 여론조사의 신뢰성에 의문을 표시하는 사람들이 이야기하는 것 가운데 하나도 바로 표본의 크기 (모집단의 크기, size of population)입니다. 빅 데이터라는 용어 자체가 일반적인 통계의 방법 또는 기존의 분석 시스템으로 처리가 불가능할 만큼 많은 데이터를 의미합니다. 즉, 사람이 인위적인 분별이나 해석이 개입하는 것이 불가능한 분량의 데이터라야 빅 데이터로서 의미가 있습니다. 과연 그런 분량의 빅 데이터를 수집하여 분석하였는지는 알 수 없습니다.

모든 통계, 빅 데이터 분석에서 항상 문제가 되는 것이 표본의 크기입니다. 통계학에서 표본의 크기로 인한 오류 발생 가능성을 이야기할 때에 흔히 등장하는 이야기가 있습니다. 소위 '몬테 카를로의 오류' (Monte Carlo fallacy) 또는 '기회 숙성의 오류' (maturity of chances fallacy)라고 부르는 것입니다.

 

일반적으로 동전을 던지면 앞면이 나올 확률과 뒷면이 나올 확률은 50:50 으로 같습니다. 그리고 연속적으로 앞면이 나왔다면 그 다음에는 뒷면이 나올 확률이 높아집니다. 그러나 현실은 반드시 확률 대로만 사건이 발생하지는 않는다는 것입니다.

 

20세기 초, 그 당시에는 세계적으로 몇 되지 않는 초호화 카지노를 운영하는 몬테 카를로에서 일어났던 실화입니다. 룰렛 게임에서 연속하여 26번 검은 슬롯에 공이 들어 갔습니다. 이는 확률적으로 67,108,863 번 가운데 한 번 일어날 수 있는 사건입니다. (검정에 들어갈 확률 0.5 26 제곱하면 발생 가능한 확률이 나오고 이를역수로 나누면 67,108,863이 됩니다.)

 

도박사들은 처음 몇 번 연이어 검정 슬롯에 볼이 들어가는 것을 보고 다음 번에는 검정이 아닌 붉은 슬롯에 볼이 들어갈 가능성이 크다고 보았습니다이러한 예측은 통계적으로 맞는 예측입니다그리고 검정 슬롯에 볼이 들어가는 횟수가 많아지면 많아질수록 다음번에 검정이 아닌 붉은 슬롯에 볼이 들어갈 가능성은 더욱 더 커집니다이러한 통계적인 분석에 의지하여 도박사들은 붉은 슬롯에 점점 더 큰 금액을 베팅하였고26번 검은 슬롯에 볼이 들어가면서 수백만 프랑의 돈을 잃게 되었습니다그 당시 화폐 가치로 1백만 프랑은 현재의 가치로 보면 약 1 6천만 프랑 (104년간 평균 연 5% 복리 계산한 원리금은 1 59백만 프랑), 이를 유로화로 환산하면 약 2 5백만 유로 정도의 금액입니다. (2001년 프랑스 프랑을 유로로 전환할 당시의 환율은 /FFr 6.55957) 도박사들이 잃은 돈의 액수는 정확히 밝혀지지 않았으나 수백만 프랑이라고 알려졌으니 적어도 지금의 화폐 가치로 거의 1억 유로를 잃었을 것으로 추측할 수 있습니다.


이 당시 27번째에 볼이 붉은 슬롯에 들어갔으나 그 때에는 이미 도박사들이 더 이상 큰 금액의 베팅을 할 여력이 없어서 그리 큰 돈을 따지 못하였다고 합니다. 이 사건만을 본다면 26번의 사건이 일어나는 동안 한 가지 결과가 발생한- 검은 슬롯에 볼이 들어간- 확률은 100%였습니다. 그 반면 붉은 슬롯에 볼이 들어간 확률은 0%였습니다. 중요한 것은 이러한 통계는 사건의 숫자가 26번에 불과하다는 것입니다. 룰렛 게임을 수천 번, 수 만 번 한다면 검은 슬롯에 볼이 들어가는 사건의 수와 붉은 슬롯에 볼이 들어가는 사건의 수는 거의 같아지고 확률적으로 50:50이 될 것입니다. 표본의 숫자가 커지면 커질수록 확률은 정확히 50:50이 됩니다.


빅 데이터의 이론적인 근저는 바로 대수의 법칙입니다. 데이터의 숫자가 아주 커지면 오류의 가능성이 줄어듭니다. 빅 데이터의 가장 큰 강점은 오류의 발생 가능성이 현저히 줄어든다는 것입니다. 그러나 가장 큰 단점은 기존의 데이터 처리 용량과 시스템으로는 간단히 처리할 수가 없다는 것입니다.
빅 데이터의 이용은 다양합니다. 아직까지는 기존의 여론조사가 일으킬 수 있는 오류를 줄여주는 것으로 가장 먼저 우리에게 다가왔습니다. 그러나 앞으로의 빅 데이터의 이용 방법은 무궁무진합니다. 어떤 형태로 발전할 것인지를 미리 가늠하기조차 어려운 정도로 무한한 가능성을 가지고 있습니다.


특히나 금융 분야에서는 빅 데이터에 의한 사업 모델, 서비스 모델 등의 개발이 기대됩니다. 예를 들어 신용카드 사용자들의 소비 패턴, 거래 금액 등을 분석한다거나,날짜별, 요일별 소비 형태, 현금 사용 등을 분석하는 것도 금융 사업의 모델과 인적자원의 배분, 경비 절감 등에 매우 효율적으로 이용될 것입니다. 앞으로 빅 데이터의 이용이 어떤 분야에서 얼마나 빠르고 효율적으로 발달할 것인지 기대가 큽니다

.

'금요일 모닝커피 2017-2019' 카테고리의 다른 글

직언극간 (直言極諫) - 2017. 8. 4.  (0) 2017.08.04
헬 조선- 2017. 7. 28.  (0) 2017.07.27
한류스타- 2017. 7. 14.  (0) 2017.07.14
아버지의 편지- 2017. 7. 7.  (0) 2017.07.07
중국의 성장- 2017. 6. 30.  (0) 2017.06.30