3월 17일 LA타임스에 진도 4.4의 지진이 로스앤젤레스에서 발생했다는 기사가 실렸다. 지진이 발생한 것은 아침 6시 25분. 기사는 8분 뒤에 웹사이트에 올라왔다. 흥미로운 것은 기사 말미에 실린 글이다.
"이 정보는 USGS (미국 지질 조사국) 지진 경보 서비스를 통해서 왔으며 이 포스트는 저자가 만든 알고리듬에 의해 작성되었다."
무슨 얘기일까? 이 기사는 사람이 아닌 소프트웨어에 의해 자동으로 작성된 것이라는 의미이다. 그 결과는 데스크가 손 볼 필요도 없을 정도 수준이었다. 이 이야기를 접한 국내의 여러 저널리스트들은 소셜미디어에서 많은 얘기를 논의했고, 아이뉴스24의 김익현 기자는 이에 대한 칼럼을 썼다.
LA 타임스가 소프트웨어 로봇을 이용해 기사를 작성한 것이 이번이 처음은 아니다. 이미 2013년 2월 1일에 진도 3.2의 지진이 산 시먼에서 발생한 기사가 나왔었다. 그 당시에도 바이라인에 나타난 이름은 켄 쉬웬키(Ken Schwencke)였다. 켄은 LA 타임스의 디지털 편집자이고 알고리듬을 작성한 사람이다.
나에게는 올해 1월에 갑자기 국내 유명 경제 신문사에서 급히 연락이 왔다. 저널리즘의 미래 기술에 대해 편집국 기자들 대상으로 발표와 토의를 하자는 것이다. 가장 중요한 주제는 로봇이 뉴스 기사를 작성하는 기술의 유용성과 국내 도입 가능성에 대한 것이었다. 매우 진지한 토론이 이어졌고, 향후 저널리즘의 급격한 변화를 가져올 몇 가지 트렌드와 함께 소위 말하는 로봇 리포팅 또는 알고리듬 리포팅(또는 계산 저널리즘, 계산 스토리텔링 등 다양한 이름으로 부른다)이 가장 민감한 주제였다.
사실 이미 소프트웨어 로봇이 신문 기사를 쓰기 시작한 지는 몇 년 된다. 2012년 4월에 미국 와이어드 잡지에는 ‘알고리듬이 인간 기자보다 뉴스 스토리를 더 잘 작성할 수 있는가?’라는 기사가 실렸었다. 이러한 기술의 중심에 있는 회사가 내레티브 사이언스이다.
내레티브 사이언스는 노스웨스턴 대학의 저널리즘, 미디어, 통합 마케팅 커뮤니케이션 전공의 메딜(Medill) 스쿨에서 인큐베이션된 기업이다. 향후 저널리스트 직업을 없애 버릴 수 있는 기술이 저널리즘 전공 대학에서 나왔다는 것이 아이러니다.
내러티브 사이언스의 핵심 인물은 창업자이며 기술 총괄인 크리스티안 해먼드이다. 해먼드는 1980년대 예일 대학에서 자연어 처리의 거장 로저 생크 (Roger Schank) 교수에게 인공지능을 배웠다. 박사 학위를 받은 후 시카고 대학의 인공지능 랩을 이끌었으며 사람들이 읽고 쓰는 것을 추적해서 관련이 높은 문서를 추천하는 시스템을 만들었다.
이후 노스웨스턴 대학으로 옮겨 메딜 스쿨에서 프로그래머이면서 촉망받는 저널리스트가 될 학생들을 가르쳤다. 2009년에 학생들에게 데이터를 산문체의 기사로 바꾸는 시스템을 만들게 했는데, 이때 만든 시스템이 스태츠 몽키 (Stats Monkey)로 대학 야구 경기 데이터를 기반으로 기사를 만들어 내는 소프트웨어였다.
그해 학기 말에 데모 데이를 열어서 ESPN, 허스트, 트리뷴 같은 언론사 임원들 앞에서 학생들이 프로젝트 결과를 선보였는데, 스태츠 몽키가 가장 눈을 끌었다고 한다. 이 데모에 참석했던 사람 중 하나가 구글에 인수된 더블 클릭의 임원이었던 스튜어트 프랭클(Stuart Frankel)이었고, 프랭클은 이런 소프트웨어가 가진 무궁무진한 가능성을 보고 해먼드와 함께 2010년 내러티브 사이언스를 설립하고 자신이 CEO가 되었다.
초기 고객은 대학 스포츠를 중계하는 TV 네트워크였는데, 프로그램이 너무 승자만 보도하는 것을 문제 삼자, 패자에 대해서도 그 역량을 높이 사는 방식으로 얘기 구성을 수정하게 만들었다. 아이들이 하는 리틀 야구단 게임들에 대해서는 아이들이 실수한 내용을 보도하면 부모들이 싫어하는 것을 알아내고 주로 멋진 플레이를 펼친 얘기 위주로 기사를 만들어 냈다.
이와 같이 다양한 지역이나 연령별, 성별에 따른 스포츠 경기 기사는 관심을 갖는 계층이 주로 지역 주민이나 가족, 관계가 있는 사람들에게 전달되는 것이기 때문에 메인 언론에서 일일이 취재하기가 어려운 점을 착안해, 많은 지역 신문들에게 자신들의 기술을 기반으로 하는 기사 제공을 하기 시작했다.
내러티브 사이언스의 기사가 제대로 구성되려면 일단 매우 고품질의 데이터가 필요하다. 그래서 주로 스포츠 경기와 증권 시장 뉴스가 일차적으로 다루기 좋은 영역이 되었다. 두 분야 모두 숫자가 중시이고 변화가 자주 일어나기 때문이다. 또한 통계 모델을 통해서 변화를 예측하고 그 예측을 변경해야 하는 중요한 데이터가 등장하는 것을 주목하도록 알고리듬을 구성했다.
데이터를 통해 산문 방식의 기사를 만들어 내기 위해서는 ‘메타 작가' 팀을 고용했는데, 이들은 훈련된 저널리스트로서 기사에 사용할 수 있는 다양한 템플릿을 만들어 냈고, 컴퓨터 프로그래머가 데이터를 다양한 각도로 볼 수 있게 코칭했다. 마지막으로 문장 구조를 만들어 내기 위해 기사의 프레임워크를 구성하는데 사용할 어휘를, 과거 유명 저널리스트이 표현하던 특성을 분석해서 도입했다. 그 결과로 만들어 낸 소프트웨어를 퀼 (Quill)이라고 부른다.
내러티브 사이언스는 유명 경제지 포브스에 기업의 실적 보고서 프리뷰를 제공하고 있다. 퀼이 제공하는 기업 보고서나 증권 소식은 언론사 뿐만 아니라 뮤추얼 펀드 회사에도 제공되며 이는 자신들의 리포트나 마케팅 문서를 만들어 내는데도 사용한다.
내러티브 사이언스는 2011년에 600만불의 1차 투자 받은 후, 2013년에는 1천150만달러의 3차 투자를 받았다. 현재 인력은 50명이며 투자회사, 미디어, 스포츠 관련사, 야후 등의 많은 고객을 갖고 있다.
해먼드는 향후 15년 안에 기사의 90% 이상이 컴퓨터 프로그램으로 작성될 것이라고 예측하는데, 이는 그만큼 많은 기사들이 단지 팩트 중심의 내용을 보도하고 있으며, 수 많은 지역에서 일어나는 사건이나 스포츠, 투자 관련 소식들은 사람이 개입할 필요가 없을 것이라고 생각하기 때문이다. 심지어 그는 2011년에 이미 향후 5년 안에 이런 인공지능 기반의 기사가 풀리처 상을 받을 것이라고 장담했다.
LA 타임스가 사용하는 또 다른 데이터는 경찰에서 보내는 각종 체포 소식이다. 이를 통해 리얼리티 TV 쇼의 스타가 체포된 내용을 보도하는 특종을 만들어 내기도 했다. 시카고 트리뷴지는 판다(PANDA)라는 시스템을 이용하는데, 뉴스룸이 이를 이용해 데이터 라이브러리를 구축하고, 다양한 웹사이트에서 얻어지는 내용을 스크린스크래퍼를 통해 데이터로 수집해 판다에 저장한다. 예를 들어 경찰에서 체포 영장 발급 내용을 올리면 이를 분석해 기자들에게 알림을 보내기도 한다.
LA 타임스가 이용하는 리포트 중 하나는 살인 사건에 대한 보고인데, LA 카운티의 검시관 사무실에서 공식적으로 발행하는 사망 사건 중에 살인으로 판정되는 데이터를 이용해 살인 사건 기사를 우선 작성하고 이를 기반으로 실제 기자가 후속 정보를 덧붙이기도 한다. 이런 방식을 과거 ‘컴퓨터 지원 기사화’라고 부르던 것에서 이제는 ‘인간 지원 기사 작성’이라고 부른다. 즉 실제 기자가 프로그램이 작성한 기사를 지원하는 방식으로 바뀐 것이다.
인공지능 기술은 우리가 인지하지 못하는 사이에 이미 우리 사회 요소 요소에서 활용되고 있다. 지난 번에 썼던 컴퓨터 비전 기술이나 IBM의 왓슨, 딥러닝 기술을 통한 음성 인식이나 패턴 인식, 컴퓨터 게임에 등장하는 많은 캐릭터의 움직임이나 대화 역시 인공지능 기술이 아니면 이루어 낼 수 없다.
기자 대신 기사를 작성하는 로봇이 기자를 몰아낼 것인가? 오히려 기자에게는 더 깊이있는 탐색 보도나 진정한 저널리스트의 시각을 보이는 기사에 전념하고 단지 사건, 경기 내용, 주식 시장 상황 같은 숫자에 기반한 팩트는 이제 인간이 작성하지 않아도 되는 세상이 된 것이다. 국내 수 많은 온라인 미디어에서 재생산하고, 베끼고, 실시간 검색어 바라보면서 찍어내는 기사는 이제 컴퓨터에 좀 맡기고 기자는 기사다운 기사를 쓰는 세상이 되어야 할 것이다.
--comment--
첫 번째 댓글을 작성해 보세요.
댓글 바로가기