‘가짜 뉴스’…빅데이터로 잡아낼 수 있을까

실시간
뉴스

e비즈*솔루션

‘가짜 뉴스’…빅데이터로 잡아낼 수 있을까

디지털데일리 발행일 2017-03-03 13:33:42

박기록

URL복사

[디지털데일리 박기록기자] 은행의 딜링룸, 여러대의 모니터에 실시간으로 전세계 뉴스가 쏟아진다. 뉴스에 따라 환율시장, 국제원자재가격, 전세계 주요 금융시장 지표가 어지럽게 출렁인다. 뉴스중엔 물론 오보도 있다.

역설적으로 정보(뉴스)의 비대칭성과 부정확성, 관점과 해석의 차이가 시장을 더 역동적으로 움직이게 한다. 오보중에는 정치적, 경제적 이유에서 의도적으로 조작된 ‘가짜뉴스’도 있을 수 있다.

딜링룸처럼 불과 수 초내에 정보의 가치를 감각적으로 판단하고, 투자 포트폴리오를 수정해야하는 상황이라면 이러한 '가짜 뉴스'는 그 자체로 매우 심각한 리스크 요소다. 짧은 시간내에 뉴스의 진위를 판단하기가 쉽지 않기때문이다.

현재까지는 크게 우려할만한 수준이라고 하더라도 '가짜뉴스'는 앞으로 심각한 사회, 경제적인 문제를 야기시킬 수 있다. 특히 최근 탄핵정국에서 정치적 색채가 농후한 가짜 뉴스들이 범람하고 있다. 여론의 흐름에 치명적인 오류와 왜곡을 끼칠 수 있다. SNS처럼 새로운 미디어 채널의 확장으로 그 위험성은 더 커지고 있다.

지난달 28일, 황교안 대통령 권한대행은 국무회의에서 “가짜 뉴스에 대한 선제적이고 강력한 대응이 필요하다”며 “미래창조과학부와 경찰청 등 관계 기관에서 가짜 뉴스가 확산되지 않도록 모니터링과 단속을 강화해 달라”고 주문했다.

범정부 차원의 대응이 나왔다는 점에서 관련 부처가 조만간 어떤 해법을 내놓을지 주목된다. 예전 논란이 됐던 '미네르바' 사건에서보듯 전기통신사업법(제47조 1항)상에 규정된 허위사실 유포혐의로 단속할 수 있겠지만 그 보다 강도가 높은 제재수단이 마련될 수도 있다.

'가짜 뉴스'는 해외에서도 심각한 문제다. 글로벌 IT 업계의 권위자들이 가짜 뉴스를 막기위한 기술적 대응방법을 제시하기도 한다.

혹시 빅데이터와 머신러닝, 인공지능(AI)와 같은 최신 IT 기술을 이용한다면 가짜 뉴스를 박멸할 수 있을 않을까.

언뜻 생각하면 빅데이터 기술로 어떻게든 할 수 있을 것 같다. 하지만 곰곰히 생각해보면 IT로 가짜 뉴스를 잡아내는 것은 결코 만만치 않다. 시장에 나와있는 빅데이터 엔진의 성능을 따져봐야겠지만 현재까지는 빅데이터 전문가들도 대체로 "쉽지 않을 것"이라는 데 동의하고 있다.

◆ '가짜 뉴스' 잡아내는 IT 기술은 아직 없어 = 가짜 뉴스로 인한 사회적 비용이 점차 커지고 있다. 물론 트럼프 처럼 자기한테 안좋은 기사는 모두 '가짜 뉴스'라고 우기는 사람들도 있다.

하지만 국내 뿐만 아니라 세계적으로도 가짜뉴스를 잡아내는 기술은 공식적으로 아직 없다. 관련하여 빅데이터 기술이 얘기되고는 있지만 아직은 이와 관련된 데이터 분석 알고리즘 등 구체적으로 가짜 뉴스 잡는 방법론이 제시된 사례는 없다. 다만 전문가들은 “지금까지 누가 진지하게 시도하지 않았을 뿐 기술적으로만 본다면 가능할 수는 있다”는 견해다. 빅데이터 분석 엔진의 성능에 따라 좌우되겠지만 이론적으론 불가능하지 않다는 것.

조금 상상력을 보태자면, 현재 핀테크에서 적용하고 있는 '데이터 스크래핑(Scraping) 기술'을 이용하면 SNS에 노출된 다양한 정형, 비정형 데이터를 실시간 분석할 수 있다. 본래 개인의 대출 금리를 정하기위해 SNS상의 노출된 개인의 평판을 취합하고 분석하는 기술인데, SNS상에서 떠도는 정체 불명의 뉴스들도 이런식으로 평판 분석이 가능하다면 진위를 어느정도 구별할 수 있다.

또 현재 국내 금융권에서 채택하고 있는 자금세탁방지시스템(AML)의 경우, 일부 기능은 CNN 등 전세계 주요 뉴스를 필터링한 결과를 바탕으로 의심거래 데이터를 분석하는데 이 모델링을 변형시키면 어떻게든 될 것 같기도 하다. 뉴스를 구성하는 팩트, 단어의 나열과 구성, 독자들의 반응(호감도)을 분석해보면 1차적으로 뉴스의 진위 판정이 가능해 보인다.

하지만 실제로 현실에서 부딪히는 '가짜 뉴스'는 훨씬 더 난해하다. 사실과 거짖, 진실의 경계상에서 교묘하게 존재하기때문이다. 이것을 IT 기술로 추출하고 분석해낸다는 것은 어쩌면 순진한 발상이다.

◆'가짜 뉴스' 기준 자체가 모호...빅데이터의 한계 = 가짜 뉴스는 상당히 포괄적이다. 빅데이터 분석을 하려면 일단 분석 대상이 되는 '가짜 뉴스'의 기준을 먼저 정의해야하는 데 사실 이것부터 만만치가 않다.

일반인의 기준에서 본다면, 아마도 가짜 뉴스는 1차적으로 거짓(false)과 속임수(fake) 뉴스를 의미할 것이다. 완전한 허위이거나 개연성은 있지만 사실과 부합하지 않는 뉴스다.

물론 가짜 뉴스가 무조건 사악한 것만은 아니다. 중요한 것은 뉴스 작성자의 의도다. 만우절 뉴스처럼 1년에 한번쯤 나오는 가짜 뉴스는 팍팍한 삶에 웃음을 주기도 한다. '힘센 사람 3명이 설악산 흔들바위를 너무 세게 흔드는 바람에 바위가 산밑으로 굴러떨어졌다' 는 식의 뉴스가 이 범주에 속한다. 이 경우라면 번거롭게 빅데이터를 동원할 실익은 없을 것이다.

그러나 의도적으로 작성된 '속임수 뉴스'는 결이 다르다. 완전히 허위지만 개연성이 매우 높아 일반 대중이 쉽게 속거나, 사실과 허위가 교묘하게 뒤섞여 있는 경우다. 완전히 가짜라고도 할 수 없다. '증권가 찌라시'가 그런식이다. 팩트는 분명히 개연성을 가지고 있지만 진위 여부를 단기간에 파악할 수 없는 경우다.

이럴 경우, 빅데이터를 이용한다고 가정해 보자. 대략 기사의 논리적 구성, 팩트 체크, 기사의 호감도 등 여러측면에서 분석이 될 수 있다. 진위여부를 판정하는 데 걸리는 시간은 별개의 문제다.

그러나 국내 SW업체의 한 빅데이터 전문가는 이같은 방식에 대해 회의적인 반응을 보였다.

그는 “만약 이런 경우라면 결국 판단의 최종 책임을 독자에게 넘기는 방식이 될 수 밖에 없다”고 말했다. 그는 “물론 완전한 허위일 경우에는 가짜 뉴스일 확율이 90%이상으로 판정되겠지만 사실과 허위가 뒤섞여있는 경우라면 '가짜 뉴스일 확률 25%' 이런식의 판정밖에 내릴 수 없다”고 설명했다.

기상 캐스터가 '내일 비가 올 확률이 50%'라고 방송했다면, 그것을 비가 온다는 의미로 받아들일 것인지 여부는 어디까지나 개인의 판단이다. 기상청이나 방송국이 책임지지 않는다. 내일 비올 확률 70% 상황임에도 불구하고 야구 티켓을 예매하는 것은 30%의 비가 안 올 확률에 베팅한 개인의 책임이다.

그러나 뉴스의 진위 여부를 이처럼 팩트가 아닌 '확률'로 판정하기 시작하면 오히려 사회가 더 혼란해 질 수 있다는 지적이다.

◆정말 경계해야할 것은 '가짜 뉴스'아니라 '나쁜 뉴스' = 뉴스(기사)는 팩트와 관점이 결합된 제3의 창작물이다. 물론 뉴스에는 허위가 아닌 사실(fact)만을 나열했더라도 진실에는 도달하지 못하는 경우가 종종 있다. 팩트는 맞는데 해석은 엉뚱하게 내려버리는 식이다.

사실 일반 대중의 스트레스 지수를 높이는 것은 진위가 언젠가는 진위가 판명이되는 '가짜 뉴스' 보다는 팩트로 위장된 '나쁜 뉴스'다. 본질은 애써 외면하고 정치적인 편향성을 노골화하는 뉴스가 그렇다. 정치적 목적이 교묘하게 숨겨져 있다. 정치적 타격을 입힐 목적으로 의도적으로 앞뒤 맥락을 잘라버리고 오해살만한 부분만을 강조하는 경우도 부지기수다. 그러면서 "판단는 독자의 몫"이라며 뻔뻔하게 빠져나간다.

전문가들은 이처럼 의도된 '나쁜 뉴스'는 당연히 ‘빅데이터의 영역밖’이라고 말한다. 실제로 아무리 빅데이터를 포함한 IT 기술이 발전했다하더라도 뉴스가 가진 속뜻, 행간의 의미를 해석할 정도의 기술을 갖지 못했을 뿐만 아니라 그것은 IT의 역할도 아니라고 보고 있다. 그것은 인간의 몫이다. 가짜 뉴스를 IT 기술로 판정하는 것보다 법과 사회적 규범으로 강제하는 것이 훨씬 현실적이고 바람직하다고 말하는 이유다.

한편 일각에선 정부가 '가짜 뉴스' 대응에 강경하게 나서는 것과 관련, 자칫 본질과는 다르게 언론 통제 수단이 될 가능성을 경계하는 목소리도 나온다. 가짜 뉴스를 잡아내기위해 모든 기사를 분석하는 것이 일종의 '검열' 행위로 흐를 수 있기때문이다. 만약 그렇게된다면 이는 가짜 뉴스 논쟁과는 전혀 다른 '표현의 자유'의 문제로 비화될 수 있다.

<박기록 기자>rock@ddaiy.co.kr