분석을 위한 분석이 아닌 이슈에 대한 정의를 명확히 해야

그래프1.jpg
빅데이터, 사물인터넷 혹은 ‘빅데이터’라는 용어의 홍수 속에서 의사결정자들은 고민을 하고 있다. 빅데이터를 활용하여 성공했다는 사례들이 발표될수록 그 고민은 더욱 깊어진다. “가만히 있다가 우리는 도태되는 것이 아닌가? 우리도 빅데이터를 의사결정에 활용해야 되는 것이 아닌가?” 하는 강박 관념이 엄습해 온다.

그런데 발표되는 성공사례를 냉정히 쳐다보면 아직은 부족함이 보인다. 즉 페이스북, 트위터, 댓글 등의 SNS정보를 어렵게 수집,처리하여 시각화 분석에 치중하고 있는 수준이다. 시각화가 도움이 되는 것은 사실이지만 의사결정의 본질적인 질문인 “Why So?(왜 그렇지), So What(그래서 무엇을 해야 하는가)?”에 대한 답(答)을 제시하기에는 부족함이 있다. 일면 시각화가 빅데이터 분석의 최종 목적이라는 오해도 있다.

▶빅데이터 분석은 ‘목적 명확화’ 부터

고객 불만족, 고객 이탈, 부정적 입소문, 매출 감소, 제품 및 서비스 품질 수준 저하 등의 비즈니스 이슈는 항상 우리 곁에 존재해 왔다. 기존에는 기업 내부의 데이터를 활용하여 대시보드(dashboard), 정형보고서, 다차원분석, 시나리오 분석 등 다양한 방법으로 이슈 해결을 위해 노력해 왔다. 하지만 속 시원한 해결방안을 찾기가 쉽지 않았고 또 지나간 정보였다.

그런데 빅데이터라는 물결이 밀려오고 있다. 이제는 기업 내부정보 뿐만 아니라 비정형 외부정보도 고려해야 하는 상황이 되었다. 답답하니 뭐라도 해보자는 심정으로 분석을 시도한다. “데이터를 분석해서 뭐라도 건지자”라는 절박함으로.

이해 및 접근 방법의 변화가 필요하다. 분석을 위한 분석이 아니라 '왜(why)'에 대한 깊고 폭넓은 고민부터 시작해야 한다. 즉 이슈에 대한 정의, 그리고 분석 목적을 명확히 하는 것이 다른 무엇보다 우선이다. 어떤 이슈는 데이터 분석으로 해결될 수 없는 것일 수도 있다. 그래서 명확한 목적 하에

가용한 데이터를 파악하고 시범과제를 도출하여 타당성을 사전에 검토하는 접근 방법은 실패를 줄이기 위한 의미있는 접근방법이라 생각한다.

▶질문을 찾기 위한 시각화!!!

위의 그래프는 빅데이터 솔루션 업체에서 제공하는 툴을 이용하여 '메르스'에 대해 검색한 결과이다. 일반적으로 접할 수 있는 시각화 정보인 것이다.

내용을 보면, 대부분은 블로그(트위터 대비)를 통해 언급되고 있으며 지속적으로 감소하고 있는 추세이나 아직은 부정적인 연관어가 다수임을 알 수 있다.

그런데 일별로 많게는 30만개 넘는 검색어를 수집해서 추세와 연관어 정도 파악할 수 있다면 뭔가 부족하다는 느낌을 들지 않는가? 또 특정한 날(별표)에 부정적 검색어가 급증한 이유는 궁금하지 않는가?

기존의 추세가 지속적으로 유지된다면 가까운 미래를 예측하는 것은 가능할 것이다. 하지만 대부분의 이슈는 비즈니스의 불연속성 또는 변곡점에서 발생하게 된다. 이런 이슈에 대한 답, 즉 변곡점과 이유를 찾는 것이 중요하다.

물론 다양한 차원(날짜,지역,연령대 등)에 대한 깊이있는 분석이 제공될 것이다. 또한 대부분의 시각화 솔루션에서 원인을 찾기 위한 상관관계나 인과관계 분석 기능을 제공하고 있다. 이런 기능들을 복합적으로 활용하면 이슈에 대한 답은 아닐 지라도 개략적인 통찰은 얻을 수 있을 것이라 믿는다.

그런데 시각화가 분석의 목적 혹은 보고서 생성이 아니라 또 다른 질문을 찾기 위한 도구로 활용한다면 어떨까?

그래프2.jpg
▶심도있는 분석을 통한 Insight 찾기

그래프는 키와 몸무게의 인과 여부를 회귀로 표현한 것으로, 성별에 따른 영향도(기울기) 차이는 있지만 뚜렷한 선형관계를 보여주고 있다.

하지만 우리가 해결해야 하는 비즈니스 이슈는 결코 선형적인 관계로 설명되지 않을 가능성이 훨씬 높다. 사례를 보면 선형적인 인과관계 보다 훨씬 복잡한 관계가 있는 경우가 일반적이다.

우리는 유사한 속성을 가진 몇 개의 집단으로 고객을 나누고 집단별 특성에 맞는 마케팅 정책을 실행하는 것을 적정한 고객 분류 및 관리라고 믿고 있다.

“2번 집단(좌측 그림의 녹색 집단)에 속한 고객은 모두 유사한 고객이라는데 과연 개인의 차이는 무시해도 되는가?” 라는 질문에 명쾌히 답을 할 수 있는가? 무조건 세분화하는 것이 정답은 아니지만 이제는 적절한 상세 수준으로 분석하고 분류할 수 있는 상황은 되었다. 즉 빅데이터를 통해 다양한 고객정보를 추가적으로 얻게 됨으로써 고객에 대한 이해의 깊이와 넓이가 확장된 것이다. 그리고 사물인터넷 등의 인프라를 활용하여 보다 개인적으로, 실시간으로 고객 대응이 가능하게 된 것이다. 데이터 마이닝, 딥러닝(deep learning) 등 이미 검증된 다양한 분석을 활용한다면 시각화를 통해 발견한 질문에 대한 답 또는 비즈니스에서 발생한 변곡점에 대한 원인을 찾을 수 있는 것이다.

그리고 빅데이터 분석에 있어서 간과하지 말아야 될 점이 있다. 발생이 빈번한, 즉 빈도가 많다고 해서 반드시 분석에 중요하고 할 수 없다는 사실이다.

옆의 그래프를 어느 회사의 연봉 분포라고 해 보자. 대부분은 낮은 영역에 밀집되어 있지만 특이하게 높은 자료도 있다. 잘못된 데이터, 즉 분석결과에 영향을 주는 이상값(outlier)일까?

사장 혹은 특별 전문가의 연봉은 보통의 경우와는 달리 훨씬 높을 수도 있다. 빈도가 적다는 혹은 평균에서 멀리 떨어져 있다는 이유로 분석에서 제외한다면 엉뚱한 결과가 나올 수 있다는 사실이다. 즉 비즈니스 이슈에 이해를 바탕으로 데이터 처리 및 적절한 분석이 적용되어야만 제대로 된 결과를 얻을 수 있는 것이다. 이 점은 특히 SNS 등 외부의 비정형 자료와 내부의 정형 데이터를 통합하여 분석할 때 특히 간과하지 말아야 할 점이다.

▶발하늘에서 별자리 찾기!!!

빅데이터 분석은 그냥 따라야 할 유행이 아니다. 남들이 하니까 나도 해야 하는 액세서리가 아니라 비즈니스 영속성을 유지할 수 있는 새로운 플랫폼에 대한 고민에서 시작되어야 한다. 물론 분석이 궁극적인 목적이 될 수는 없지만.

그러면 어디서부터 시작해야 하는가?

‘왜(Why)?’에 대한 질문부터 시작하자!!. 그래야 어떤 데이터를 수집하여 시각화 및 심도있는 분석을 해야 할 것인지에 대한 방향이 나온다. 그래야 분석의 실패를 줄일 수 있다.

빅데이터 분석이란 어쩌면 밤하늘에서 별자리 찾기인지도 모른다. 무수한 별들 속에서 이슈를 해결할 수 있는 맥락, 즉 패턴을 찾아야 하는 쉽지 않은 여정인 것이다.

황.jpg
황달준 그린 인사이트(Green Insight) 대표

저작권자 © 중부일보 - 경기·인천의 든든한 친구 무단전재 및 재배포 금지