상대를 합리적으로 설득하는 막강 데이터력
윤태성 지음 | 매일경제신문사
상대를 합리적으로 설득하는 막강 데이터력
윤태성 지음
매일경제신문사 / 2009년 11월 / 324쪽 / 12,000원
Part 1 데이터는 창조의 근원
데이터 중심의 사고방식현대인은 누구나 데이터를 가지고 있다. 그런데 똑같은 데이터라도 이것을 어떻게 분석하고 판단하는지에 따라서 결과가 바뀌고, 경우에 따라서는 데이터를 어떻게 사용하는지에 의해 데이터에 대한 이해와 판단이 극단적으로 바뀔 수도 있다. 왜냐하면 대부분의 업무에서 데이터는 가장 기초적인 자료이면서 동시에 가장 중요한 근거가 되기 때문이다. 그럼에도 불구하고 현실적으로는 데이터를 중심으로 하는 사고방식이 그다지 중요시되고 있지 않는 것도 사실이다. 그러나 일을 보다 더 잘하고 싶다면 데이터를 중심으로 하는 사고방식을 익힐 필요가 있다. 데이터를 중심으로 하는 사고방식을 이해하기 위해서 우선 데이터를 둘러싼 상황에 대해서 파악해 보자.
우선 생각하지 않으면 안 되는 것이 데이터의 수명이다. 데이터는 일부러 소거하지 않는 한 변하지 않고 계속해서 존재한다. 그런데 데이터는 시간이 지나도 사용할 수 있지만, 그때의 업무 프로세스는 지금은 사용하지 않는다. 따라서 아무리 많은 비용을 들여 최첨단 정보 시스템을 도입해도, 아무리 업무 개혁을 하고 우수한 담당자를 채용해도, 근본이 되는 데이터의 이해와 판단이 잘못되면 그 이후의 작업은 모두 엉터리가 되어버린다.
다음으로 생각할 것은 데이터의 양이다. 현대에는 누구나 방대한 양의 데이터를 가지고 있지만, 데이터의 대부분은 활용되지 않고 단지 보존되어 있을 뿐이다. 그런데 보존하고 있는 데이터량이 너무 많아 자신의 처리 범위를 훨씬 넘어서 버리면, 내가 가지고 있는 데이터를 보다 효율적으로 활용하고 싶다는 생각도 조금씩 희미해진다. 어떻게든 데이터를 활용하고 싶기는 하지만, 현실적으로 데이터량이 이미 나 스스로 처리할 수 없을 만큼 많아져서 간단히 활용할 수가 없게 되기 때문이다.
따라서 데이터를 보고 그 데이터의 본질을 이해한 후(이러한 사람은 "데이터를 보는 안목이 있다"든가 "직관이 있다"는 말을 듣곤 한다), 더 나아가 새로운 스토리까지 창조할 필요가 있는데, 이것은 누구나 간단히 할 수 있는 것은 아니다. 하지만 데이터의 본질을 이해하기 위한 포인트를 알면 스스로 연습하는 것이 가능하다. 우선 데이터의 본질을 이해하기 위해서 중요한 세 가지의 능력에 관해서 생각해보자. 그것은 찾아주는 능력, 보여주는 능력, 대화하는 능력이다.
찾아주는 능력은 새로운 비즈니스의 소재가 된다찾아주는 능력이란 아무리 방대한 양의 데이터가 있어도 내가 원하는 데이터만을 필요한 때에 사용하기 쉬운 형식으로 찾아주는 능력을 말한다. 데이터를 찾아주는 방법 중에서 가장 널리 사용되는 것은 키워드 검색이다. 이것은 데이터 중에 특정한 키워드가 포함되어 있으면 그 데이터를 검색 결과로서 제시하는 방법이다. 그런데 이 방법으로는 어느 정도까지 데이터를 찾을 수가 있지만, 근본적인 한계(예를 들면 같은 의미를 가지는 내용을 다른 키워드로 표현하고 있을 경우, 각각은 다른 내용으로 인식된다)가 있다.
보여주는 능력으로 은유적인 표현을 하자보여주는 능력이란 데이터를 직설적으로 또는 은유적으로 표현할 수 있는 능력을 말한다. 정보 시스템에서 데이터를 처리할 때는 직설적으로 표현하는 게 일반적인데, 이는 정보 시스템에서는 데이터를 은유적으로 표현하기가 매우 어렵기 때문이다. 그러나 보여주는 능력을 활용하면, 경우에 따라서는 데이터를 직설적으로도, 은유적으로도 표현할 수 있는데, 은유적인 표현이 가능해지면 데이터를 이용하는 사람은 그 데이터의 본질을 보다 쉽게 이해할 수 있게 된다. 데이터를 은유적으로 표현하기 위해서는 표현하는 방법을 연구할 필요가 있는데, 예를 들면 데이터가 증가하는 과정을 꽃이 피는 과정으로 표현하거나 포도가 영글어가는 과정으로 표현하는 방법을 사용할 수 있다.
대화하는 능력으로 언제라도 데이터를 보자대화하는 능력이란 사람과 컴퓨터가 대화하는 능력을 말한다. 사람은 키보드를 쳐서 단어나 숫자를 입력하든가 혹은 마우스를 사용해서 포인팅하는 방법으로 컴퓨터와 대화할 수 있지만, 실제로는 컴퓨터와 대화하는 것에 익숙하지 않다. 하지만 컴퓨터가 없으면 사회를 지탱하는 시스템이 돌아가지 않고 일상생활은 완전히 뒤죽박죽이 될 것이기 때문에, 사람과 컴퓨터가 언제라도 대화할 수 있도록 앞으로 점점 새로운 방법이 개발될 것이다.
데이터를 느끼고 본질을 이해한다데이터의 본질을 알기 위해서는 사람의 직관이 중요하다. 하지만 이것은 타고난 능력이 아니다. 오히려 훈련과 경험을 통해서 익힐 수 있는 기술이다. 훈련을 위해 우선 내가 아주 잘 이해하고 있는 데이터를 준비하고, 이 데이터에 대해 생각할 수 있는 모든 속성을 고려해서 정리해야 한다. 그 후에는 각각의 속성을 가장 잘 나타내기 위해서 어떤 그림으로 표현하면 좋을지를 생각한다. 예로 우선 지금까지 많이 사용해 보았던 꺾은선 그래프와 같은 방법으로 표현해보고, 그 다음에는 지금까지 한번도 그려본 적이 없었던 새로운 형태의 그림을 사용해서 표현해 보자. 만약 데이터를 여러 가지 형태로 표현할 수 있으면 데이터의 본질을 이해하기가 쉬워진다.
그렇다면 일반인과 전문가는 어디가 다른 것일까? 바로 데이터를 분석하는 순서가 다르다. 전문가는 우선 데이터의 전체상을 보면서 이상치는 없는지, 입력 미스는 없는지, 데이터는 전체적으로 조화되어 있는지 등을 체크한다. 그러면서 데이터의 전체상을 느낀 후에 데이터를 분석한다. 그런데 데이터를 분석하는 과정은 대부분의 작업을 통계 소프트웨어로 처리할 수 있으므로 사람이 연필을 가지고 계산하거나 할 일은 거의 없다. 또 통계 처리 과정은 자동화되어 결과로서의 숫자도 간단히 나온다. 전문가는 이 숫자와 자신이 처음 느낀 것을 비교해 보고, 만약 자신이 느낀 내용과 통계 처리된 결과로서의 숫자가 의미가 다르다면, 원래의 데이터에 이상치가 없는지 등을 다시 체크한 후에 새롭게 분석한다.
Part 2 데이터의 현실
데이터량이 너무 많다최근 컴퓨터는 개인용이라 하더라도 보존할 수 있는 데이터량이 매우 크다. 그러나 내가 가지고 있는 데이터량이 몇 십 기가바이트라고 하더라도 그 데이터는 단지 내 컴퓨터에 보존되어 있을 뿐이며 실제로는 일체 사용하지 않는 데이터가 대부분이다. 누구나 대량의 데이터를 가지게 된 배경에는 크게 두 가지 원인이 있는데, 최근에 메모리 가격이 매우 싸졌다는 것이 첫 번째이고, 두 번째는 누구나 인터넷에 접속하면 전 세계의 자료를 다운로드할 수 있고, 간단히 재생할 수 있다는 점 때문이다.
정말 필요한 데이터가 없다 / 데이터를 분석하는 게 어렵다누구나 많은 데이터를 손쉽게 입수할 수 있게 되었지만, 과연 데이터 입수에 관해서 만족할 수 있는 시대가 된 것일까? 대답은 '아니오'다. 왜냐하면 누구라도 방대한 양의 데이터를 가지게 됨으로써 지금까지는 없었던 새로운 문제가 발생하게 되었기 때문인데, 그 문제는 '정말로 필요한 데이터를 찾을 수 없다'라고 하는 근본적인 문제다. 인터넷에서 데이터를 수집할 경우에는 검색으로부터 시작하는데, 검색에는 단어를 이용하는 키워드 검색이 주류이다. 그리고 검색 결과는 리스트 형식으로 제시되는 것이 일반적이지만, 보통은 이 리스트의 상위에 있는 몇 개의 사이트만을 확인한다. 그러나 검색 서비스 회사가 제시하는 순서가 사용자가 보고 싶어 하는 사이트의 순서와 반드시 일치한다고는 말할 수 없다. 그래서 데이터는 열심히 수집하고 있지만, 실제로는 효율적으로 이용하지 않는 경우나 아니면 효율적으로 이용하는 것이 어려운 경우가 많아지게 된다.
경험을 살려서 데이터를 보고 싶다주식 투자를 하는 사람에게는 주가가 올라갈지 내려갈지가 최대 관심사다. 만약 내일의 주가를 오늘 예측할 수 있다면 주식 투자로 거금을 벌 수 있을 것이다. 그러나 미래의 주가를 예측하기는 어렵기 때문에 투자가는 열심히 데이터를 분석한다. 그러나 아무리 데이터를 상세하게 분석해도 미래의 실제 주가를 정확하게 예측할 수는 없다. 이럴 때에 도움이 되는 것이 투자가의 경험이나 지혜와 같이 명확하게 표현할 수 없는 이른바 암묵적인 지식이다. 주식 투자 이외에도 원인과 결과가 복잡하게 관련되어 있는 문제일수록 사람의 경험과 지혜를 살려서 분석하는 것이 데이터의 본질을 이해하기 쉽다. 경험과 지혜를 빌리는 것은 그것을 재이용하는 것과는 달라서 재현성은 없으나, 처음 보는 데이터의 본질을 이해하는 데는 대단히 효과가 있는 방법이다.
Part 3 데이터를 느끼는 예
운동 데이터를 보고 성적을 느낀다스포츠 선수가 좋은 기록을 남기기 위해서는 훈련에 의해서 운동 능력을 향상시켜야 하는데, 과학적이고 효율성이 좋은 훈련을 위해서는 우선 항목을 정해서 운동 능력을 측정할 필요가 있다. 선수에게서 여러 가지 항목을 측정하면 그 데이터는 인간 공학이나 스포츠별 특징을 고려해 분석되고, 그 결과는 그 선수의 운동 자세의 보정이나 연습 프로그램 구성 등에 반영된다. 실제로 경험이 많고 지혜가 있는 코치는 선수의 동작을 촬영한 사진이나 비디오를 관찰하면서 선수의 운동 능력을 느낀다. 그러고 나서 운동 능력 측정 데이터를 분석하여 그 선수가 앞으로 얼마만큼 능력을 향상시킬 수 있을지 예측하고, 그 선수에게 가장 적합한 프로그램을 만들어서 연습하게 한다.
재무 데이터를 보고 경영 상황을 느낀다모든 회사에는 재무 데이터가 있다. 재무 데이터를 구성하는 다양한 항목은 하나하나가 독립적으로 보이지만 실제로는 모든 데이터가 서로 관련되어 있다. 우수한 회계사는 대단히 복잡한 재무 데이터를 보고 재무 건전성을 파악하며 회사의 전체적인 경영 상황을 느낄 수 있다. 그런데 회계사가 재무 데이터를 보고 경영 상황을 판단하기 위해서는 지금까지의 경험과 지혜를 총동원할 필요가 있다. 예를 들면 매출이 매년 증가하고 있다 하더라도 그 원인이 무엇인가에 따라 경영 상황이 좋다고도 말할 수 있고 나쁘다고도 말할 수 있다. 물론 증감의 원인은 재무 데이터만으로는 잘 알 수 없다. 그래서 우수한 회계사는 매출 증감의 의미를 단독으로 판단하는 것이 아니라, 다른 데이터와의 관련을 보면서 전체적인 의미를 판단한다.
Part 4 데이터를 느끼기 위한 데이터 테크
데이터 테크란데이터를 효율적으로 활용하기 위해서 우선 데이터의 전체상을 느끼는 것이 중요하다고 하는 것은 이해한다고 하더라도, 누구라도 금방 데이터를 느낄 수 있는 것은 아니다. 왜냐하면 데이터를 느낀다는 것은 명확한 목적과 관점을 가지고 그 데이터의 배경과 의도를 이해하며 그 데이터의 본질과 전체상을 이해하는 것인데, 이러한 능력은 타고난 특별한 재능이 아니기 때문이다. 그것은 오랫동안 방대한 양의 데이터를 분석해온 경험과 그 결과로부터 얻은 지혜의 산물이다.
데이터를 느끼는 사람들을 관찰해보면 가장 특징적인 것이 데이터를 생물로서 다루고 있다는 것인데, 데이터를 생물과 같이 생각하고 대화를 하면 데이터를 느끼기 위한 요령이 보인다. 그것은 데이터를 느끼기 위한 기술이라고도 할 수 있는데, 시간(Time), 반복(Echo), 관련(Connection), 조화(Harmony)라고 하는 네 가지 요소를 중심으로 하는 사고방식이다. 이들 네 가지 요소의 영어 머리글자를 따라서 본서에서는 '데이터 테크(Data Tech)'라고 부른다.
T : 데이터는 시간에 따라서 변한다'T'는 'Time'의 머리글자이다. 대부분의 데이터는 시간의 경과에 따라서 변화하는데, 생물이 시간의 경과와 함께 진화 혹은 퇴화의 특징을 보여주는 것과 많이 닮아 있다. 따라서 데이터의 본질을 이해하기 위해서는 시간의 경과에 따른 데이터 변화의 특징을 이해하는 것이 중요하다. 데이터가 시간의 경과에 따라 진화하는가 퇴화하는가를 판단하기 위해서는 대상으로 하는 기간을 설정할 필요가 있다. 그러면 일정한 기간 동안에 지속적으로 조금씩 변하는 경우, 일정하게 나누어서 계단과 같이 변하는 경우, 단숨에 급변하는 경우 등 다양한 특징을 알 수 있다.
E : 데이터는 반복적으로 변한다'E'는 'Echo'의 머리글자로 메아리나 소리가 반향하는 것을 의미한다. 이것은 데이터가 반복한다는 것을 의미하는데, 데이터의 반복은 특히 화학실험이나 물리실험과 같이 실험을 통해 많이 나타난다. 이런 실험에서는 일반적으로 방대한 양의 데이터를 얻을 수 있지만, 그 데이터 중에는 과학적으로 의미가 있는 데이터도 있으며 의미가 없고 노이즈라고 불리는 데이터도 있다. 때로는 전혀 의미를 모르는 데이터도 있다. 만약 실험을 통해 의미가 있을 것 같은 데이터를 생성했을 경우에 연구자는 그 데이터가 무엇을 의미하는지 과학적으로 해석하려고 노력하고, 해석 결과 대단히 의미 있는 결론을 얻은 경우에는 논문의 형식으로 내용을 정리해서 학술지에 발표한다.
실험 연구에서는 한 번의 실험에서 얻은 데이터가 그 후에 몇 십 번에 걸쳐 같은 실험을 되풀이 했을 경우에도 같은 데이터가 나오면 재현성이 있는 데이터라고 말하는데, 재현성이 없는 데이터는 논문에 인용할 수 없다. 그래서 실험 연구에서는 데이터의 재현성이 가장 중요한 요인 중의 하나다. 그리고 데이터의 반복은 데이터의 형태뿐 아니라 데이터의 의도나 배경 혹은 본질도 반복한다. 따라서 데이터의 유전자라고 할 수 있는 이러한 요인들이 어떻게 반복하는지를 주의해서 살펴볼 필요가 있다.
C : 데이터는 상호 관련되어 있다'C'는 'Connection'의 머리글자로 여러 가지 데이터가 상호 관련되어 있는 것을 의미한다. 그런데 데이터 간의 관계를 알면 데이터의 본질을 이해하기 쉽지만, 데이터 간의 관계를 잘못 이해하면 그 데이터를 틀리게 해석할 가능성이 높다. 데이터 간의 관계는 과학적 혹은 경제적인 이유에 의해서 설명할 수 있는데, 때에 따라서는 그 이유를 명확하게 설명할 수 없는 경우도 많이 있다. 이런 경우는 데이터가 불완전하게 갖춰졌든가 혹은 데이터를 보는 사람의 지식이 불충분하든가 하는 이유 때문이다.
그렇다면 데이터 간에 어떤 관계가 있는지를 빨리 이해하기 위해서는 어떻게 하는 게 좋을까? 필자가 추천하는 방법은 데이터를 각양각색의 형태로 가시화해 보는 것이다. 왜냐하면 사람은 문자나 숫자보다 그림을 보면서 더욱 많은 것을 이해할 수 있기 때문이다. 우선 내가 잘 알고 있는 데이터를 네트워크로 가시화해 보자. 만약 한 개의 데이터를 한 개의 노드로 표현한다면 두 개의 노드 간을 이어주는 하나의 능선은 두 개의 데이터 간의 한 가지 관계를 나타내게 된다. 그리고 모든 데이터를 네트워크로 가시화하면 상호간에 관계가 있는 데이터는 네트워크상에서 서로 연결되는데, 이 네트워크의 형태를 살펴보면 내가 가지고 있는 데이터 간의 관계를 이해할 수 있게 된다.
데이터를 매트릭스로 표현하는 방법도 데이터 간의 관계를 이해하기 위해서 유효하게 사용된다. 일반적으로는 매트릭스의 가로축과 세로축에 데이터를 기록한 후에 각축이 교차하는 칼럼에는 데이터 간의 관계를 나타내는데, 관계를 나타내기 위해서는 숫자나 색깔을 사용할 수도 있다. 그리고 모든 칼럼에 데이터 간의 관계를 나타내는 숫자의 기입이나 색깔의 배치가 끝나고 나면, 한 장의 매트릭스만 가지고 모든 데이터 간의 관계를 조감할 수 있게 된다.
H : 데이터는 전체적으로 조화를 이룬다'H'는 'Harmony'의 머리글자로 데이터가 조화되어 있는지를 의미한다. 형태를 가지는 물체에는 반드시 무게의 중심이 되는 포인트가 있는데, 이 포인트를 알면 아무리 무거운 물체나 긴 물체라도 운반하거나 설치하거나 할 수 있다. 그런데 이러한 무게 중심은 데이터에도 있다고 말할 수 있다. 예로 방대한 양의 데이터를 산포도로 가시화해서 보니 데이터가 특정의 포인트를 중심으로 모여 있다면, 그 포인트를 모든 데이터의 무게 중심이라고 생각할 수 있다. 그리고 무게 중심을 알면 데이터의 본질도 이해하기 쉬워진다. 방대한 양의 데이터가 분산되어 존재하고 있을 경우에는 분산되어 있는 범위나 무게 중심이 어디인지를 생각하고 전체상을 파악하는 것이 좋다.