자라.jpeg
빅데이터에서 빅(big)이라는 수식어는 그 개념을 간명하게 보여준다는 장점이 있는 동시에 규모에 대한 강박관념을 유발하는 최대의 약점으로도 작용해왔다. 무조건 많이, 그리고 모두를 확보하면 데이터는 충분하다는 잘못된 생각이 지금도 만연해 있다. 하지만, 조금만 깊이 있게 생각해보면 결국 빅데이터에서 관건은 데이터 규모가 아니라 분석의 깊이라는 점을 쉽게 깨닫게 된다. 문제는 이 잠시의 생각을 하는 이가 많지 않아 보인다는 사실이다.

막연히 대량이라고는 하지만 어느 정도가 되면 대량인지에 대해서 조차 아무런 기준이 없다. 물론 기준이 없는 것이 당연하고 정상이다. 단순히 상대적인 개념일 뿐이라는 점을 이해하지 못하면 궁극적인 성과와는 관계가 없는 소모적인 노력만 늘어나게 된다.

데이터 건수가 아주 많은 경우에도 전수를 고집한다거나 무조건 실시간을 주장하는 것도 같은 맥락에서 벌어지는 문제이다. 아무리 기술이 좋아졌다고 해도 여전히 데이터의 수집과 전송, 가공과 저장에는 비용과 시간이 소요된다. 불필요한 자원낭비는 바람직한 것이 아니다. 내부에 그리 많은 데이터가 없다는 갈증을 해결해줄 것만 같았던 소셜미디어 데이터에 대한 환상 역시 같은 것이다.

통상 우리는 아주 일반적인 문제를 일반적인 수준에서 풀기보다는 수많은 구체적이고 특정한 문제를 해결하는 것을 당면 과제로 가지고 있다. 이 때 그 문제가 무엇이든 그 특정한 문제를 해결하는데 모든 일반적인 데이터가 대량 사용되어야 할 필요가 없다. 또 그런 시도를 해봐야 오히려 시간과 노력을 낭비하기만 하게 될 것이다. 실제 데이터를 분석하는 과정에서는 그 문제에 맞는 관련성이 높고 유용한 데이터를 찾아내는 것이 중요하다.

프로야구 경기의 승패나 팀 순위 등은 수년전부터 데이터 분석의 흥미로운 연습문제로 여겨져 왔다. 야구라는 종목은 공이 멈춰졌다가 다시 진행되는 특성상 기록이 발달되어 있고, 우리나라의 프로야구도 KBO의 공식 웹사이트를 통해 많은 데이터를 공개해주기에 데이터 분석을 실제로 적용해 볼만한 주제가 되고 있다. 경기결과를 예측하는데 가장 중요한 데이터는 경기기록이지만 그것을 어떤 방식으로 가공하여 사용하는가에 따라 성과는 큰 차이가 난다. 또 단순히 전체 경기기록을 활용한다는 것만으로 정확한 예측이 가능한 것은 아니다.

정형화된 공식 기록 자체로는 보여지지 않는 부분이 있기에 경기기록 자체가 아닌 다른 데이터가 유용할 수 있다. 감독의 성향은 한 예가 될 수 있을 것이다. 최근 관심을 모으고 있는 한화이글스 김성근감독의 주무기인 ‘특타’는 그의 성향을 단적으로 보여준다. 하지만 경기기록 어디에도 특타라는 기록은 남아있지 않다. 막연하게는 여러 가지로들 이야기하지만 경기기록과 특타와의 영향 관계를 데이터 차원에서 분석해본 사람은 없는 듯 하다. 특타가 정말 중요한 요소라면 데이터로 그 관계가 확인될 수 있을 것이고, 분석하는 이는 이를 고려해야 한다.

매쉬업(Mash up)은 여러 데이터를 연결시키는 것이다. 투수의 성적을 분석하면서 상대했던 타자의 기록을 변수로 활용하는 것이 간단한 예가 된다. 경기기록 자체내에서만 매쉬업이 가능한 것도 아니다. 정확한 기록 자체도 존재하지 않는 특타의 경우만 하더라도 해설가들의 언급이나 뉴스기사로부터 데이터 획득이 가능하다.

여러 지방자치단체들이 관내에서 진행되는 각종 문화행사나 축제 등에 대한 빅데이터 분석을 검토하거나 실시하고 있다. 지역경제를 활성화하고 일자리를 만드는데 도움이 되기 때문이다. 대개의 경우 미디어에 공개된 정도만으로도 충분히 그 내용을 짐작해볼 수 있는 정도이지만 안타깝게도 완성도 내지는 분석의 깊이가 크게 부족한 경우가 태반이다. 단순히 대량의 신용카드, 이동통신, 소셜미디어 데이터를 결합하고 집계해, 행사에 손님이 얼마나 왔는지 확인하는데 머무는 분석들이고 그 결과가 행사 주최측이나 지자체에게 별 도움이 되지 않을만한 수준이기에 대체 왜 하는 것인지 의문이 들 정도이다.

데이터베이스진흥원의 빅데이터 아카데미는 교육생들이 팀을 구성하여 실전적인 문제를 분석으로 해결하는 워크샵을 진행하고 있다. 그 일환으로 작년에 진행된 분석 중 하나는 개방된 공공데이터와 기타 인터넷에 공개된 데이터들을 결합해서 매년 가평에서 열리는 자라섬 재즈페스티벌의 흥행을 예측하고 주된 영향요인을 찾는 것이었다.

기상청의 날씨 데이터, GDP나 와인수입량과 같은 경제상황 관련 지표, 경기도교통정보센터 등 개방된 공공데이터가 중요한 자료원으로 사용되었고, 유튜브, 구글, 네이버, 위키피디아 등에서 수집가능한 행사와 출연진에 대한 데이터들이 결합되었다.

비록, 행사 주최측이 의뢰해 진행한 본격적인 분석 프로젝트는 아니었으나, 행사 주최측이라면 충분히 참고가 될만한 마케팅 및 행사운영 방향에 대한 시사점들도 드러났고 어떤 아티스트가 흥행에 더 크게 도움이 될 것인지를 데이터 중심으로 판단하는 것을 가능하게 하는 분석결과도 도출되었다. 단순히 데이터 건수가 아니라 주어진 문제에 대한 답을 찾으려면 어떤 데이터가 필요하며 어떻게 분석해야 하는가를 깊이 고민한 결과였다.

심지어는 완전무결하게 정확한 데이터만 유용한 것도 아니다. 때로는 일부 왜곡이나 오차 등 부족함이 존재하더라도 문제 상황에 대한 대략의 윤곽을 보여줄 수 있는 데이터가 있다면 매우 중요한 역할을 할 수도 있다. 그 데이터가 있을 경우에 분석한 결과와 그 데이터를 제외하고 수행한 분석 결과간의 유용성의 차이만이 중요할 뿐이다.

빅데이터이든 스몰데이터이든간에, 데이터 분석은 결국 누군가의 의사결정을 통해 어떤 조치를 실시하기 위한 용도로 사용된다. 그 때문에 분석의 과정과 방식을 알지 못하는 사람, 즉 그 결과를 해석하거나 설명하거나 활용할 방안을 설계하는 것이 불가능한 사람에게 데이터와 분석결과가 주어지는 것은 매우 위험하다. 공공분야에서든 민간기업에서든 빅데이터를 자랑거리 삼아 내세우기 이전에 경영진 스스로가 분석이 어떤 데이터를 사용해서 이루어져야 하는지와 분석과정이 어떻게 이루어지는지 그 내용과 과정과 의미를 이해하려는 노력을 잊지 말아야 할 이유이다.

전용준. 리비젼컨설팅 대표


저작권자 © 중부일보 - 경기·인천의 든든한 친구 무단전재 및 재배포 금지