성원용 서울대 공과대 전기·정보공학부 명예교수가 29일 자신의 페이스북에 글을 올려, “엉터리 자막은 음성 편집 변조와 비슷한 역할”이라는 주장을 했다.
그러면서 “언론의 입장은 존중되어야 하지만 데이터 변조는 사소한 것이라도 용인되어서는 안 된다”는 것이다.
물론 MBC가 별도의 영상 조작을 했다는 의미가 아니라 윤 대통령의 비속어 관련 영상에 ‘자막’을 넣은 것을 놓고, 성 교수는 '음성 편집 변조' 또는 '데이터 변조'라는 취지의 주장을 한 것으로 이해된다.
성 교수는 “왜 어떤 사람에게는 ‘바이든’이라고 들리는데, 다른 사람에게는 그렇지 않게 들릴까?”라며 “윤석열 대통령이 측근들과 한 발언을 MBC는 ‘국회에서 이 XX들이 승인 안 해주면 바이든은 쪽팔려서 어떡하나?’로 자막을 달아서 방송했다. 나의 경우 그 소리를 직접 여러 번 들었는데, 절대 저렇게 들리지 않는다”고 말했다.
그러면서 “당연 ‘바이든’이라고 듣는 사람들의 귀가 더 예민하다 믿을 근거는 없다”라며 “나는 오랫동안 음성인식을 연구하였는데, 음성인식은 단지 귀에 들리는 소리에만 의존하지 않는다”라고 설명했다.
성 교수는 “사람들의 발음이 너무 엉터리이기 때문에, 음성인식 과정에서는 인식률을 올리기 위해 소리를 들어서 얻는 음향정보(acoustic information)와 내용을 따라가며 얻는 사전정보(prior information)를 결합한다. 특히 잡음이 많은 음성의 경우 사전정보에 더 의지한다”라고 설명했다.
이어 그는 “‘자라보고 놀란 가슴, 솥뚜껑 보고 놀란다’는 속담은 시각적 판단에서 사전정보가 미치는 영향을 설명한다”며 “사전정보는 사람들을 편견으로 유도하기도 한다. 어떤 사람은 특정 국가, 지역, 또는 인종만 나오면 혐오심이 막 분출된다. 이 사람이 그 국가나 지역, 인종을 잘 알기 때문이 아니라, 대개 그런 적개심을 가지도록 사전정보를 받았기 때문”이라는 것이다.
그는 “윤 대통령의 뉴욕 발언은 매우 잡음이 많고 불분명한데, 여기에 MBC는 자의적으로 자막을 달아서 송출하였다”며 “당연 대부분의 사람들은 이 자막대로 듣는다. ‘소리’를 따라 듣지 않고, ‘자막’을 따라 듣는다. 자막이 매우 선명한 사전정보 역할을 한다”고 강조했다.
그러면서 성 교수는 “‘바이든’이라고 들린다는 사람이 많은데, 이미 자막을 보았기 때문”이라며 “자신이 시험한 어떤 음성인식기에서도 ‘바이든’이라는 단어를 찾을 수 없었고, 가장 정확한 네이버 클로버 음성인식기의 경우 나오는 답은 ‘신인 안 해주고 만들면 쪽팔려서’이다”라고 적었다.
성 교수는 마지막으로 “무엇보다도 야당이나 일부 언론도 이 사항을 가지고 MBC를 옹호할 일이 아니다. 데이터 변조가 언론의 자유와 혼동이 된다면 정직과 투명, 논리적 설득이 아니라 거짓말과 술수, 선동이 난무하는 세상이 될 것”이라고 주장했다.