혹시 빅데이터와 머신러닝, 인공지능(AI)와 같은 최신 IT 기술을 이용한다면 가짜 뉴스를 박멸할 수 있을 않을까.
언뜻 생각하면 빅데이터 기술로 어떻게든 할 수 있을 것 같다. 하지만 곰곰히 생각해보면 IT로 가짜 뉴스를 잡아내는 것은 결코 만만치 않다. 시장에 나와있는 빅데이터 엔진의 성능을 따져봐야겠지만 현재까지는 빅데이터 전문가들도 대체로 "쉽지 않을 것"이라는 데 동의하고 있다.
◆ '가짜 뉴스' 잡아내는 IT 기술은 아직 없어 = 가짜 뉴스로 인한 사회적 비용이 점차 커지고 있다. 물론 트럼프 처럼 자기한테 안좋은 기사는 모두 '가짜 뉴스'라고 우기는 사람들도 있다.
하지만 국내 뿐만 아니라 세계적으로도 가짜뉴스를 잡아내는 기술은 공식적으로 아직 없다. 관련하여 빅데이터 기술이 얘기되고는 있지만 아직은 이와 관련된 데이터 분석 알고리즘 등 구체적으로 가짜 뉴스 잡는 방법론이 제시된 사례는 없다. 다만 전문가들은 “지금까지 누가 진지하게 시도하지 않았을 뿐 기술적으로만 본다면 가능할 수는 있다”는 견해다. 빅데이터 분석 엔진의 성능에 따라 좌우되겠지만 이론적으론 불가능하지 않다는 것.
조금 상상력을 보태자면, 현재 핀테크에서 적용하고 있는 '데이터 스크래핑(Scraping) 기술'을 이용하면 SNS에 노출된 다양한 정형, 비정형 데이터를 실시간 분석할 수 있다. 본래 개인의 대출 금리를 정하기위해 SNS상의 노출된 개인의 평판을 취합하고 분석하는 기술인데, SNS상에서 떠도는 정체 불명의 뉴스들도 이런식으로 평판 분석이 가능하다면 진위를 어느정도 구별할 수 있다.
또 현재 국내 금융권에서 채택하고 있는 자금세탁방지시스템(AML)의 경우, 일부 기능은 CNN 등 전세계 주요 뉴스를 필터링한 결과를 바탕으로 의심거래 데이터를 분석하는데 이 모델링을 변형시키면 어떻게든 될 것 같기도 하다. 뉴스를 구성하는 팩트, 단어의 나열과 구성, 독자들의 반응(호감도)을 분석해보면 1차적으로 뉴스의 진위 판정이 가능해 보인다.
하지만 실제로 현실에서 부딪히는 '가짜 뉴스'는 훨씬 더 난해하다. 사실과 거짖, 진실의 경계상에서 교묘하게 존재하기때문이다. 이것을 IT 기술로 추출하고 분석해낸다는 것은 어쩌면 순진한 발상이다.
◆'가짜 뉴스' 기준 자체가 모호...빅데이터의 한계 = 가짜 뉴스는 상당히 포괄적이다. 빅데이터 분석을 하려면 일단 분석 대상이 되는 '가짜 뉴스'의 기준을 먼저 정의해야하는 데 사실 이것부터 만만치가 않다.
일반인의 기준에서 본다면, 아마도 가짜 뉴스는 1차적으로 거짓(false)과 속임수(fake) 뉴스를 의미할 것이다. 완전한 허위이거나 개연성은 있지만 사실과 부합하지 않는 뉴스다.
물론 가짜 뉴스가 무조건 사악한 것만은 아니다. 중요한 것은 뉴스 작성자의 의도다. 만우절 뉴스처럼 1년에 한번쯤 나오는 가짜 뉴스는 팍팍한 삶에 웃음을 주기도 한다. '힘센 사람 3명이 설악산 흔들바위를 너무 세게 흔드는 바람에 바위가 산밑으로 굴러떨어졌다' 는 식의 뉴스가 이 범주에 속한다. 이 경우라면 번거롭게 빅데이터를 동원할 실익은 없을 것이다.
그러나 의도적으로 작성된 '속임수 뉴스'는 결이 다르다. 완전히 허위지만 개연성이 매우 높아 일반 대중이 쉽게 속거나, 사실과 허위가 교묘하게 뒤섞여 있는 경우다. 완전히 가짜라고도 할 수 없다. '증권가 찌라시'가 그런식이다. 팩트는 분명히 개연성을 가지고 있지만 진위 여부를 단기간에 파악할 수 없는 경우다.
이럴 경우, 빅데이터를 이용한다고 가정해 보자. 대략 기사의 논리적 구성, 팩트 체크, 기사의 호감도 등 여러측면에서 분석이 될 수 있다. 진위여부를 판정하는 데 걸리는 시간은 별개의 문제다.
그러나 국내 SW업체의 한 빅데이터 전문가는 이같은 방식에 대해 회의적인 반응을 보였다.
그는 “만약 이런 경우라면 결국 판단의 최종 책임을 독자에게 넘기는 방식이 될 수 밖에 없다”고 말했다. 그는 “물론 완전한 허위일 경우에는 가짜 뉴스일 확율이 90%이상으로 판정되겠지만 사실과 허위가 뒤섞여있는 경우라면 '가짜 뉴스일 확률 25%' 이런식의 판정밖에 내릴 수 없다”고 설명했다.
기상 캐스터가 '내일 비가 올 확률이 50%'라고 방송했다면, 그것을 비가 온다는 의미로 받아들일 것인지 여부는 어디까지나 개인의 판단이다. 기상청이나 방송국이 책임지지 않는다. 내일 비올 확률 70% 상황임에도 불구하고 야구 티켓을 예매하는 것은 30%의 비가 안 올 확률에 베팅한 개인의 책임이다.
그러나 뉴스의 진위 여부를 이처럼 팩트가 아닌 '확률'로 판정하기 시작하면 오히려 사회가 더 혼란해 질 수 있다는 지적이다.
◆정말 경계해야할 것은 '가짜 뉴스'아니라 '나쁜 뉴스' = 뉴스(기사)는 팩트와 관점이 결합된 제3의 창작물이다. 물론 뉴스에는 허위가 아닌 사실(fact)만을 나열했더라도 진실에는 도달하지 못하는 경우가 종종 있다. 팩트는 맞는데 해석은 엉뚱하게 내려버리는 식이다.
사실 일반 대중의 스트레스 지수를 높이는 것은 진위가 언젠가는 진위가 판명이되는 '가짜 뉴스' 보다는 팩트로 위장된 '나쁜 뉴스'다. 본질은 애써 외면하고 정치적인 편향성을 노골화하는 뉴스가 그렇다. 정치적 목적이 교묘하게 숨겨져 있다. 정치적 타격을 입힐 목적으로 의도적으로 앞뒤 맥락을 잘라버리고 오해살만한 부분만을 강조하는 경우도 부지기수다. 그러면서 "판단는 독자의 몫"이라며 뻔뻔하게 빠져나간다.
전문가들은 이처럼 의도된 '나쁜 뉴스'는 당연히 ‘빅데이터의 영역밖’이라고 말한다. 실제로 아무리 빅데이터를 포함한 IT 기술이 발전했다하더라도 뉴스가 가진 속뜻, 행간의 의미를 해석할 정도의 기술을 갖지 못했을 뿐만 아니라 그것은 IT의 역할도 아니라고 보고 있다. 그것은 인간의 몫이다. 가짜 뉴스를 IT 기술로 판정하는 것보다 법과 사회적 규범으로 강제하는 것이 훨씬 현실적이고 바람직하다고 말하는 이유다.
한편 일각에선 정부가 '가짜 뉴스' 대응에 강경하게 나서는 것과 관련, 자칫 본질과는 다르게 언론 통제 수단이 될 가능성을 경계하는 목소리도 나온다. 가짜 뉴스를 잡아내기위해 모든 기사를 분석하는 것이 일종의 '검열' 행위로 흐를 수 있기때문이다. 만약 그렇게된다면 이는 가짜 뉴스 논쟁과는 전혀 다른 '표현의 자유'의 문제로 비화될 수 있다.
<박기록 기자>rock@ddaiy.co.kr
.