빅데이터가 만드는 제4차 산업혁명

김진호 지음 | 북카라반

빅데이터가 만드는 제4차 산업혁명

김진호 지음

북카라반 / 2016년 12월 / 323쪽 / 15,000원

나는 왜 알파고의 완승을 예견했는가?

이세돌 9단이 패배할 수밖에 없는 이유: 인공지능 바둑 프로그램인 알파고가 중국의 판후이 2단을 5대 0으로 제압하고, 이세돌 9단에게 도전장을 내밀었을 때 나는 경악했다. 기껏해야 아마 5~6단 수준에 불과하던 알파고가 갑자기 프로 9단 수준으로 급성장했다는 것을 믿을 수 없었다. 알파고가 이세돌을 이기기는 힘들 것이라는 세간의 평가에 대해 알파고를 개발한 구글 딥마인드의 데미스 하사비스 대표는 이렇게 대답했다. “(그렇게 말하는) 그들은 프로그래머가 아니다!” 이 말은 곧 자신들은 프로그래머라는 말이다. 다시 말하면 프로그래머가 모든 것을 확인하고 검증한 다음에 프로그램을 돌리듯이, 자신들은 이번 대결에서 승리한다는 것을 이미 확인하고서 도전한다는 말이다.

그들의 확신이 도대체 어디서 나온 것인지 추적하기 위해 나는 그들이 《네이처》에 발표한 알파고에 관한 논문, 제목에 ‘바둑 정복’이라는 말을 넣은 논문을 꼼꼼히 정독했다. 또한 그 논문에 참여한 공저자 20명의 지난 10여 년의 연구도 추적했다. 그러고 나서 나는 결론을 내렸다. 이번 대결에서 알파고가 완승할 것이고, 이세돌 9단이 1승이라도 한다면, 그것은 그가 천재이기 때문이라고. 하지만 이렇게 예상한 전문가는 오직 나뿐이었다. 그렇다면 나는 왜 알파고가 압승할 것이라고 결론을 내렸을까?

알파고의 구조: 알파고가 프로 선수를 이길 수 있는 성능을 발휘하게 된 데는 딥러닝(심화학습)의 대표적인 기법인 심층 인공신경망(인간의 뇌의 복잡한 뉴런 연결망을 흉내 내는 기법)을 이용했기 때문인데, 알파고는 3개의 심층 인공신경망과 몬테카를로 트리 탐색 시뮬레이션으로 이루어져 있다.

참고로 정책망은 두 단계의 심층 인공신경망으로 이루어져 있는데, 지도학습을 하는 첫 단계에서는 우선 유럽의 아마 고수들이 인터넷 바둑에서 두었던 16만 대국의 기보에서 2,940만 개의 바둑판 상황을 추출한 뒤 그런 장면에서 다음 수는 어느 위치에 착수할 것인지를 배운다. 실제로 고수들이 다음에 어느 위치에 착수했는지를 알고 있으니까(그래서 지도학습이라고 한다) 그것에서 일관적인 패턴을 분석해서 흉내 내고 익히는 것이다. 이미 이 단계에서 개발된 모델은 특정 바둑판 상황에서 그때까지 흑백 착수 순서만을 입력해도 그다음 수를 예측하는 데 55.7퍼센트의 정확도를 보였다.

첫 번째 단계에서부터 엄청난 양의 기보를 바탕으로 배워서 아마 고수들의 착수를 잘 흉내 낸다고 해서 대국에서 이기는 것이 보장된 것은 아니다. 그래서 알파고는 두 번째 단계에서 다음 착수 선정의 정확도를(대국 승리와 직접적으로 연관지어) 더욱 높이기 위해서 ‘강화학습’을 한다. 자기 자신과의 대국, 즉 현재의 모델과 그 이전 버전의 모델에서 임의로 추출한 모델과 수백만 번의 대국을 벌이게 하고 시행착오를 통해 스스로 학습하여 모델을 점차 개선하는 것이다. 예를 들어 자신이 이긴 경기에 대해서는 해당 착수들이 승리에 기여했음을 고려해 해당 착수의 선택 확률을 높이는 것이다. 특히 이 부분에서 알파고는 지능의 중요한 요소인 ‘경험’을 통해서 스스로 강화학습하는 능력을 구현하고 있는데, 강화학습을 한 모델은 첫 단계의 모델과의 경기에서 80퍼센트 이상의 승률을 기록했다. 세 번째 단계에서는 여러 착수 후보 중에서 다음 착수를 최종적으로 선택하기 위해 각각의 착수 후보 위치가 어떤 승률을 갖는지를 계산한다. 구체적으로는 각각의 착수 후보에 대해 착수 이후에 나타나는 결과가 자신에게 얼마나 유리한지(승률이 얼마인지)를 2가지 기법으로 평가한다. 하나는 심층 인공신경망을 이용한 평가망이고, 또 하나는 기존의 몬테카를로 트리 탐색 시뮬레이션을 이용하는 것이다. 평가망은 자신과의 3,000만 대국에서 한 장면씩을 뽑아 이 3,000만 장면과 최종 결과(승패)를 바탕으로 끝까지 두어 보지도 않은 상태에서도 누가 이길지를 심층 인공신경망으로 학습해 각 착수 후보 위치의 승률을 예측한다. 평가망은 계산은 느리지만 상대적으로 정확하고, 몬테카를로 트리 탐색 시뮬레이션은 빠르지만 상대적으로 정확도가 낮은 단점이 있는데, 알파고는 이 두 기법의 장단점을 보완하기 위해 두 기법의 결과를 50퍼센트씩 반영해 최종 착수 위치를 결정한다.

알파고를 업그레이드하다: 데미스 하사비스 대표는 “이세돌 선수와의 대결을 위해서 알파고를 업그레이드하기 위한 모든 준비를 다 했다. 우리가 검증할 수 있는 모든 방법은 다 썼다”고 자신 있게 말했다. 그렇다면 그들은 구체적으로 어떤 준비를 했을까? 아마도 3가지 방향으로 준비했을 것이다. 첫 번째는 세계 최고 수준의 기보를 추가적으로 입력하지 않고, 단지 자기 자신과의 수천만 번의 대국을 통해서 계속 학습하여 알파고의 정확도를 개선했을 것이다. 하지만 이 방법만으로는 이세돌과 대결하기 위한 준비가 충분하지는 않다고 나는 생각한다.

그래서 두 번째는 알파고를 그야말로 세계 최고수로 만들기 위해 아시아 최정상 프로의 기보도 입력해서 학습했을 것이다. 모든 기계 학습 알고리즘이 그러하듯이, 알파고의 능력은 학습에 사용한 데이터(기보)의 양뿐만 아니라 질에도 좌우되는데, 아시아 최정상 프로들의 기보를 바탕으로 학습한다면, 그 수준이 훨씬 높아지는 것은 자명하다. 참고로 알파고는 사람이면 1,000년 이상 걸리는 100만 번의 대국을 몇 주 만에 지도학습할 수 있으니, 2015년 10월 이후에 지금까지 아시아 최고 수준의 기보를 바탕으로 지도학습과 강화학습을 했을 것이다.

세 번째는 스파링이다. 이세돌과 대결에 앞서서 최종적으로 이세돌과 동등한 수준의 중국 기사들과 실전연습 대결을 했음이 틀림없다(그중 한 명이 저우루이양 9단으로 알려져 있다). 딥마인드가 이세돌과의 대결에서 ‘자신 있다’고 당당해했던 확신은 바로 이 스파링에서도 압승했음을 입증한다. 알파고는 이 모든 준비를 끝내고 확신에 차서 이세돌에게 도전장을 내민 것이다. 이세돌과 겨루어 보려고 도전한 것이 아니라 그들이 이긴다는 것을 세계에 확인시키려고 한 것이다.

인공지능의 미래: 현재의 인공지능은 아주 잘 정의된 작은 영역에서 문제를 푸는 약한 인공지능으로 이미 우리 주위에 깊이 침투해 있고, 이제 약한 인공지능은 우리의 삶을 윤택하게 하는 보조적인 도구로 없어서는 안 될 중요한 역할을 한다. 우리가 매일 하는 검색엔진에서부터 스팸메일 구분, 온ㆍ오프라인에서 책과 영화와 음악 등 각종 제품과 서비스의 추천 등이 바로 인공지능이 하는 일이다. 그리고 산업 전반에서도 복잡한 전자회로의 설계에서부터 시설의 배치, 운송 최적화, 예방 정비 등 운영의 효율과 생산성 증대 부문에서 뛰어난 성과를 올리고 있다.

미래학자 케빈 켈리는 “앞으로 로봇과 얼마나 잘 협력하느냐에 따라 연봉이 달라질 것”이라고 말했다. 따라서 이제 우리는 약한 인공지능이라는 도구를 유용하고 현명하게 사용하려는 시각과 태도를 가져야 한다. 하지만 영화에서 많이 등장하는 인간 수준의 강한 인공지능이 탄생하려면, 아직 넘어야 할 산이 많고 가야 할 길도 멀다. 나는 영화에서 자주 등장하는 인간 수준의 인공지능이 현실적으로 실현될 가능성을 거의 ‘제로’로 보고 있다. 의학이나 과학 등이 매우 발달한 현재에도 아직 우리가 인간 자체에 대해 알고 있는 것은 극히 제한적이다. 그렇기 때문에 인간이 지닌 섬세한 감정, 열정, 반사 신경 등 수많은 요소를 흉내 내는 것은 불가능하다. 알파고를 보라! 세계 최고수의 바둑을 두지만 자신은 바둑이 뭔지도 모른다. 아니, 자기 자신이란 것도 아예 없다. 바둑돌을 집어서 바둑판 위에 놓을 줄도 몰라서 아자황이 대신 손 역할을 해서 돌을 집어서 놔주지 않았던가? 한편 인공지능의 비즈니스 활용법은 거의 무한에 가깝다. 수많은 비즈니스 기회를 제공하고 우리의 생활과 업무를 바꿀 것이다. 인공지능이 ‘바둑 하나’에 매몰되는 게 아니라 이 ‘바둑 정복’이라는 목적을 달성하기 위해 개발된 수많은 메커니즘이 곧바로 다른 영역에 활용될 수 있도록 확산될 것이기 때문이다. 이를 ‘범용(general purpose) 프로그램’이라 한다. 인공지능에서 범용 프로그램이란 해당 문제뿐만 아니라, 다른 문제를 해결하는 목적으로도 사용할 수 있는 프로그램을 말한다.

구글, 페이스북, 마이크로소프트, IBM 등의 글로벌 기업들이 인공 지능에 적극적으로 투자하고 있는 이유는 명확하다. 빅데이터 시대의 화두는 기계학습을 통해 데이터 속에서 인사이트를 캐내는 것이라는 비전을 갖고 있기 때문이다. 우리나라 대기업들이 이 분야에 적극적으로 뛰어들지 않은 이유는 바로 이런 전략적 비전을 갖고 있지 않아서다. 더욱이 인공지능은 어떤 하나의 발견이나 기술로 해결할 수 있는 분야가 아니라, 컴퓨터공학을 넘어 생명과학과 뇌과학 등 여러 분야의 연구가 동시에 이루어져야 한다. 따라서 인력 양성과 투자가 장기적인 관점에서 지속적으로 수행되어야 하지만, 단기적인 투자수익률(ROI)에 매몰되어 있는 우리나라 대기업의 현실적인 상황에서는 ‘제4차 산업혁명’의 핵심 화두인 인공지능 분야가 조연에 그치게 될 공산이 크다. 따라서 우리나라 대기업들은 빅데이터와 기계학습이 새로운 전장이라고 명확하게 인식하고 분발해야 한다. 또한 인공지능의 발달에 필요한 생태계를 조성하려는 정부의 정책적인 노력과 지원도 시급하다.

숫자의 편견

문맹보다 무서운 ‘수맹’: 엄청난 데이터가 홍수처럼 퍼부어지는 빅데이터 시대에도 많은 사람이 숫자나 통계만 나오면 움츠러든다. 하지만 숫자나 통계를 무조건 피하고 멀리하기보다는, 분석 역량을 키우고 좀 더 효율적으로 문제를 해결하는 수단으로 활용해야 한다. 이를 위해서는 문제 인식, 관련 연구 조사, 모형화, 자료 수집, 자료 분석, 결과 제시로 이어지는 분석의 각 단계에서 숫자와 통계가 제시하는 논리와 근거를 꼼꼼히 파악하고, 문제 해결 과정의 핵심으로 적극 활용하는 자세가 필요하다.

빅데이터 분석 전략: 여기에서는 영역과 무관하게 적용할 수 있는 분석 방법으로 다음과 같은 6단계를 제시한다. 첫째는 문제 인식이다. 분석은 자신이 하고 있는 업무나 관심을 갖고 있는 현상에서 문제를 인식하고 그것을 해결하려는 것에서부터 시작된다. 이 단계에서는 문제가 무엇인지 파악하고 왜 이 문제를 해결해야 하는지, 문제 해결을 통해 무엇을 달성할 것인지 등을 아는 것이 중요하다.

둘째는 관련 연구 조사다. 문제와 직접적ㆍ간접적으로 관련된 지식을 각종 문헌(잡지, 책, 논문 등)을 통해 조사하면 문제를 더욱 명확히 알 수 있고, 문제와 관련된 주요 변수들을 파악할 수 있다. 여기서 변수는 사람, 상황, 행위 등의 속성을 나타낼 수 있는 지능 지수, 나이, 시험 성적 등이다. 셋째는 모형화(변수 선정)다. 모형은 문제(연구 대상)를 의도적으로 단순화한 것을 말한다. 모형화는 신문의 삽화나 캐리커처를 그리는 것과 같은데, 캐리커처가 의도적으로 인물이 가진 중요한 특징(코, 눈, 머리 등)을 강조하고 나머지는 무시하는 것과 같이, 모형화에서도 문제와 관련된 주요 변수만 선택하고 불필요한 것들은 버린다. 넷째는 자료 수집(변수 측정)이다. 변수가 선정되면 그 변수들을 측정해야 한다. 인식된 문제는 모형화를 통해 주요 변수로 재구성되고 측정 과정을 거치면서 자료가 된다. 다섯째는 자료 분석이다. 자료 분석은 나열된 숫자에서 변수 간에 규칙적인 패턴, 즉 변수 간의 관련성을 파악하는 것이다. 여섯째는 결과 제시다. 자료 분석을 통해 변수 간의 관련성이 파악되면, 그 결과가 의미하는 바를 해석해서 의사결정자에게 구체적인 조언을 한다. 사례를 살펴보자.

정규직이 된 설렁탕집 아르바이트생: 서울의 어느 한 설렁탕집의 주인은 손님들이 먹다가 남기는 김치 때문에 늘 고민이었다. 한꺼번에 많은 양을 주면 남기기 일쑤고, 적게 주면 다시 달라는 요청이 여러 번 들어와, 안 그래도 일손이 부족한 식사 시간에 효율적인 서비스가 어려웠다. 마침 그때 그 설렁탕집에 아르바이트생으로 한 여학생이 들어왔다. 그 학생은 들어온 지 한 달 만에 사장의 고민을 해결했고, 감격한 사장은 그 학생을 정식 직원으로 채용했는데, 그 진행 과정은 다음과 같다.

[문제 인식] 어떻게 하면 손님들에게 한 번에 적정량의 김치를 제공해 남기는 양을 최소화할 수 있을까? [관련 연구 조사] 사람들이 한 끼 식사 때 먹는 김치 양과 관련된 자료는 많지 않다. 이는 기존 자료에 의존하기보다는 새로 자료를 수집해야 할 필요성이 크다는 점을 의미한다. [모형화(변수 선정)] 아르바이트생은 우선 한 테이블의 손님들이 먹는 김치 양과 관련된 변수들을 열거해보았는데, 손님 수, 손님 구성(남ㆍ여, 노인ㆍ성인ㆍ아동 등), 김치 맛, 김치 염도, 계절, 시장 배추 가격 등을 변수로 꼽을 수 있었다. 그런데 이 중 김치 맛과 염도는 식당 이미지를 위해 함부로 바꿀 수 없고, 계절이나 시장 배추 가격은 매장 안 김치 소비에 미치는 영향이 크지 않을 것으로 판단해 제외했다.

[자료 수집(변수 측정)] 아르바이트생은 관찰을 통해 자료를 수집하기로 했다. 처음 제공되는 김치 양은 테이블당 손님 수에 따라 미리 정해진 양을 제공하고, 남겨지거나 추가된 양을 표로 작성해 기록했다. 아르바이트생은 2주 동안 총 300테이블의 자료를 수집했다. [자료 분석] 손님 수와 손님 구성이 총 김치 소비량에 미치는 영향을 회귀분석을 통해 분석했다. 여기서 변수는 손님 수와 손님 구성, 그로 인한 결과는 김치 소비량이 된다. [결과 제시] 아르바이트생은 사장에게 분석 결과를 표와 그래프로 만들어 상세하게 설명했고 사장은 크게 만족했다. 그 후 분석 결과를 토대로 테이블에 손님이 앉으면 손님 수와 손님 구성에 맞게 미리 정해진 적정량의 김치를 제공해서 남는 양을 최소로 줄이고, 직원들의 일처리(김치를 추가로 제공, 남긴 김치 폐기 등) 부담도 낮출 수 있었다.

원인과 결과를 어떻게 해석할까?

담뱃값이 오르면 흡연율이 낮아질까?: 담뱃값이 2,500원에서 4,500원으로 인상된 지 2년이 지났다. 정부는 높은 흡연율을 낮추고 국민건강을 증진시키기 위해 부득이 담뱃값을 올릴 수밖에 없다고 주장했는데, 이 말 속에는 담뱃값과 흡연율 사이에 상관관계는 물론 인과 관계까지 존재한다는 판단이 들어 있다. 과연 그럴까? 실제 사례를 보면 담뱃값과 흡연율 사이에는 어느 정도 상관이 있는 것으로 나타난다. 하지만 담뱃값이 오르면 흡연율이 낮아지는지에 대한 인과적 결론은 나지 않은 상태다. 흡연율은 담뱃값 인상율의 폭과 경제 상황, 개인소득 등 다른 요인에 의해서도 영향을 받기 때문이다.

오래전부터 사람들은 상관관계의 개념을 이해하고 생활에 적용해왔던 것 같다. 그중에서도 주로 여러 현상을 설명하기 위한 하나의 방법으로 그것을 그전에 일어났던 다른 사건과 관련시켜왔다. 그렇게 해서 좋은 일이나 나쁜 일에 대한 징조를 미리 알고 대처하려는 목적이었을 것이다. 예로 소크라테스는 재채기를 그의 악처가 발작하는 조짐으로 믿어서 재채기가 나기 무섭게 집을 빠져나갔다고 한다. 유사한 경험이 다른 사람에게도 반복되면 특정 개인에게서 시작된 조짐이 모든 사람에게 해당되는 징조로 발전한다. 거울이 깨지면 나쁜 일이 일어난다든지, 상여가 지나가는 것을 보면 좋은 일이 일어난다든지 하는 믿음이 그 예다. 한편 상관관계에 대한 추측이 더 많이 축적된 경험을 바탕으로 세련된 체계를 갖추게 될 때도 있다. 별들의 움직임과 세상의 일을 관련짓는 점성술을 비롯해 골상(骨相), 수상(手相), 관상(觀相), 족상(足相) 등이 그 예다. 상관관계가 활용되는 사례는 많다. 예를 들어 자동차보험에 가입하려면 먼저 운전자에 대한 여러 가지 정보를 제공해야 한다. 그중에서도 나이, 성별, 결혼 여부 등은 보험료를 산정하는 데 중요한 기준이 된다. 나이가 25세 미만이면 보험료가 올라가고 운전자가 여자라면 보험료가 낮아진다. 왜일까? 나이와 성별이 사고율과 상관관계를 갖기 때문이다.

전문 열람 제한

미가입 상태이므로 요약본의 일부만 제공됩니다.
더 깊이 있는 내일의 통찰력과 지식 에너지를
프리미엄 무제한 이용권으로 충전해 보세요!