슈퍼크런처(Super Crunchers)

슈퍼크런처 - 8점 이언 에어즈 지음, 안진환 옮김/북하우스

무어의 법칙(Moore's Law)이라는 것이 있습니다. 집적 회로의 성능이 2년마다 두 배씩 증가한다는 내용이지요. 오늘날의 IT산업을 끌고 온 원동력입니다. 마찬가지로 하드드라이브의 저장 용량 역시 2년마다 배로 늘어난다는 크라이더의 법칙(Kryder’s Law)도 있습니다. 저장 용량의 증가는 방대한 데이터를 동시에 다룰 수 있는 기반을 제공합니다. 지금 이 글을 쓰고 있는 PC의 하드디스크는 2 테라 바이트(Terabytes) 의 용량을 갖고 있습니다. 엄청난 속도로 싸지고 있다는 뜻입니다. 전에는 버리거나 백업미디어에 얌전히 모셔두던 데이터들을 갖고 놀 수 있는 장소가 마련되었습니다. 예전부터 컴퓨터로 수치해석(Numerical Analysis)하는 사람들을 가리켜 넘버크런처(Number Crunchers) 라고 불러왔습니다. 이들이 방대한 저장용량을 얻었을 때 엄청난 규모의 데이터를 다룰 수 있는 길이 열렸습니다. 게임의 법칙이 바뀌는 순간입니다. 이 책에서는 테라(Tera)를 넘어 페타 바이트(Petabytes) 규모의 데이터로부터 예측을 뽑아내는 사람들을 수퍼크런처(Super Cruncher)라고 부릅니다. 수퍼크런칭은 이제 막 시작되는 비즈니스가 아닙니다. 이미 웹 분석(Web Analytics)이라는 산업 군을 형성하고 있고, (구글도 개입하는) 기업 인수전이 벌어지고 있는 치열한 전투현장입니다. BI(Business Intelligence)업계 에도 큰 손들이 달려들고 있습니다. 이 책에서 소개되는 다양한 사례들은 비전문가들을 위해 준비되었습니다. 산업 현장뿐만 아니라 공공 영역을 비롯해 의료, 교육 등 다양한 분야를 소개하고 있습니다. 어떤 결과들이 얻어지고 있고, 앞으로 어떤 영역에서 전투가 벌어질 것인지 가늠해볼 수 있습니다. 수퍼크런칭에 의해 전문가들의 입지가 어떤 변화를 겪을지, 또 사실상 프라이버시가 어떻게 소멸하게 될 지, 소비자들의 권익을 보호하기 위해 어떤 수단이 필요하게 될지에 대한 저자 나름의 진단도 보입니다. 책이 목표로 하는 주 독자층은 비즈니스 의사결정자들과 미래의 수퍼크런처들 입니다. 책에 등장하는 기술 용어들은 거의 고등학교 수준의 용어들로 제한되고 있고, 난이도가 있고 복잡한 이론들은 소개되지 않습니다. 기술이 사회에 미치는 영향에 대해 진지한 입장을 갖고 계신 분들께는 일독을 권해드립니다. 이 책에 한가지 빠진 부분이 있어서 지적하고자 합니다. 대규모의 과거 데이터로부터 미래를 예측하는데 가장 쉬운 방법은 선형 회귀분석입니다. 이 책에서도 이 기술에 많은 페이지를 할애하고 있습니다. 저자는 특히 이 방법이 “미래에 대한 예측뿐만 아니라 그 예측이 맞을 확률 까지도 제시한다” 는 점을 강조합니다. 우리가 고등학교시절 통계에서 배운 ‘신뢰도(Confidence)’ 이야기 입니다. 하지만 회귀분석이 제시하는 신뢰도는 저자가 말하는 것만큼 신뢰할 수 없습니다. 고전 통계학이 가정하는 정규분포를 완전하게 따르는 시스템에 대해서만 이 신뢰도가 들어맞게 되는데, 실제 시스템의 경우 곡선의 주변으로 갈수록 이 분포는 많은 편차를 보입니다. 즉 너무 회귀분석의 결과를 과신하시는 것도 곤란하다는 뜻입니다. 관련 포스트: