월간참여사회 2021년 03월 2021-03-01 1507

[특집] ‘이루다’는 왜 카톡 대화를 수집했나

‘이루다’는 왜 카톡 대화를 수집했나

글. 장여경 사단법인 정보인권연구소 상임이사

연초부터 챗봇 <이루다>가 사회적 파문을 낳았다. 챗봇은 대화형 기술을 이용하는 인공지능 알고리즘이다. 20대 여성을 닮은 대화체를 선보인 이 신묘한 채팅 프로그램에 많은 사람들이 빠져들었고, 출시 3주 만에 80만 명이 다운받아서 사용했다. 그런데 <이루다>에 여성, 장애인, 성소수자, 유색인종에 대한 생각을 물어보면 “혐오스럽다”, “줘패고 싶다”, “싫다”, “징그럽게 생겼다” 등 혐오하는 답변을 내놓는다는 사실이 알려지면서 논란이 일었다. 또 일부 남성들은 ‘이루다’를 성적인 노리개로 삼아 충격을 주었다.

이를 두고 옹호하는 사람들은 우리 사회에 이미 소수자 혐오와 성착취가 만연하기 때문에 ‘학습’하는 인공지능인 <이루다>로서는 어린아이처럼 그것을 배웠을 뿐이라고 변명했다. 그러나 유럽연합 《인공지능 백서》에 따르면 “인간의 의사결정에도 편견이 작용하지만 인공지능 의사결정에서 작용하는 편견은 훨씬 더 많은 사람들에게 장기간 영향을 줄 수 있다. 통제 메커니즘이 없다면” 말이다.

‘이루다’ 논란이 우리에게 남긴 것

또 다른 논란은 <이루다>가 개발 과정에서 민감한 개인정보를 이용한 방식에서 나왔다. 개발사인 스캐터랩은 몇 년 전 <연애의 과학> 서비스에서 이용자가 연인과 나눈 카톡 대화 내용 100억 건을 수집하였는데, 이 대화 내용이 <이루다> 개발에 사용된 것이다.

그런데 스캐터랩은 대화 내용 중 1,700건을 개발자 오픈소스 플랫폼인 깃허브^GitHub에 공개했는가 하면, 심지어 직원들이 연인 간 성적인 대화 내용을 돌려 보았다는 폭로도 있었다. <연애의 과학> 이용자들은 자신도 모르는 새 민감한 비밀 대화 내용이 다른 목적으로 이용되고 유출된 것에 분개했다. 현재 이 사건은 개인정보 보호위원회가 조사 중이고, 피해자들은 집단적으로 민사소송을 제기하였다.

개발사는 <연애의 과학> 대화 내용을 ‘비식별조치’ 즉 가명처리 하였으므로 <이루다>를 이용하는 데에도 문제가 없다는 입장이었다. 실명이나 숫자와 같은 중요 개인정보는 삭제했다는 것이다. 그러나 이후 <이루다>와 깃허브에서 주소, 은행 계좌, 이름 등이 우연히 노출되는 일이 발생하면서 이 비식별조치의 적정성과 안전성이 의심받고 있다.

또 <연애의 과학>은 서비스 특성상 정보주체의 내밀한 사상, 신념, 정치적 견해, 건강 상태, 성생활 등 민감 정보를 수집하여 처리하였을 가능성이 높다. 개발사는 이용자가 <연애의 과학>에 가입할 때, 개인정보를 ‘신규서비스 개발’에 이용한다는 것에 동의했기 때문에 민감정보와 같은 개인정보들을 <이루다> 개발에 이용해도 된다고 보았다. 그러나 피해자들은 가입 시 “로그인함으로써 동의한다”고만 고지받았을 뿐이었다. 이용자들은 개인정보 처리방침에 명확한 동의를 표할 기회가 없었고 민감정보에 대한 별도 동의 절차나 사후 안전조치도 없었다.

그래서 이용자들은 <연애의 과학> 서비스를 위해 제공한 자신의 민감하고 내밀한 대화 내용이 <이루다> 같은 다른 서비스 개발에 이용된다는 사실을 인지할 수도, 통제할 수도 없었다. 민감한 비공개 대화 내용조차 형식적인 가명 처리를 거쳐 무단으로 이용하는 실태를 보니 기업들이 인공지능 개발과 운용 과정에서 우리의 개인정보를 잘 보호해줄 것이라고 신뢰하기 어렵다. 소위 ‘데이터3법’ 통과 당시 가명정보라는 이유로 기업들이 이용자 개인정보를 동의 없이 마구 이용하게 될 것이라는 시민단체의 우려가 불행히도 맞아떨어진 듯하다.

이미 우리 생활에 들어온 인공지능

‘인공지능’에 대하여 말하면 많은 사람들이 영화의 장면부터 떠올린다. 인격을 지닌 인공지능 로봇이 등장하는 고전 <블레이드 러너>(1982)부터 여성의 정체성을 가진 인공지능에게 사랑을 느끼는 <그녀^her>(2013)까지. 그래서일까. ‘인공지능’에 대해 사회적 통제를 논하는 것은 어쩐지 먼 미래의 일처럼 느껴진다.

그러나 인공지능은 사실 우리 실생활의 제품과 서비스에 이미 널리 사용되고 있다. 영화에서 보았던 형태는 아니다. 인터넷 검색과 번역 서비스, 지도나 내비게이션 서비스, 쇼핑과 같은 여러 인터넷 서비스가 갈수록 ‘맞춤’ 맞아지는 것은 인공지능 알고리즘 때문이다. 스마트폰 사진 필터나 생체인식, 인공지능 스피커, 차선이나 위험신호를 보다 스마트하게 인식하기 시작한 자동차 등 주변 제품들에도 인공지능이 내장되어 있다.

이처럼 지금의 인공지능은 과거보다 훨씬 스마트하긴 하지만 컴퓨터 알고리즘을 이용한 제품이나 서비스의 한 유형이다. <이루다>조차도 스스로 생각하는 인공지능은 아니다. 20대 여성과 유사한 방식으로 말하는 법을 ‘학습’했지만 그 실체는 여러 말뭉치를 모아 놓고 상대방의 대화에 가장 관련성이 높은 말뭉치를 찾아내거나 조합하는 컴퓨터 알고리즘이다. 문제는 이 컴퓨터 제품과 서비스가 개인정보 침해 등 사회적 문제를 일으키기 시작했다는 것이다.〈이루다>는 어쩌면 우리에게 법적인 영향을 끼치지 않는 대화 서비스에 불과할지도 모른다. 그러나 <이루다>가 노출시킨 문제점은 작지 않다. 무책임한 컴퓨터 제품과 서비스가 대화 서비스를 넘어 자동차에, 재판에 사용되기 시작했다.

유럽연합은 2020년 2월 발표한 《인공지능 백서》에서 공공과 민간의 모든 인공지능 제품과 서비스는 개인정보 보호법을 비롯해 평등과 차별 금지에 관한 법률들, 소비자 안전과 제조물 책임에 대한 현행 법률들을 준수해야 한다고 지적했다. <이루다>가 아무리 신통한 서비스여도 이용자의 개인정보를 불법적으로 이용해서는 안 되며, 이런 일이 만연한다면 어느 소비자도 인공지능 제품과 서비스를 믿고 이용할 수 없을 것이다.

유럽연합은 여기서 더 나아가 ‘고위험’ 인공지능에 특별한 법적 규율을 예고하였다. 어떤 인공지능은 사회적 통제가 필요하다는 것이다. 채용면접, 신용평가 등 인공지능의 판단에 따라 사람의 법적, 재산적, 신분적 이해관계에 영향을 미치는 경우가 그렇다. 의료, 운송, 에너지, 공공부문에 도입되는 인공지능은 사회적으로 큰 영향을 끼칠 것이다. 또 인공지능이 노동자의 권리, 소비자의 권리 행사에 제약을 가져올 수도 있다. 인공지능이 인권침해적인 감시를 수행할 지도 모른다. 이런 분야에서 인공지능이 통제되지 않는다면 개인들에게 중대한 인권침해를 낳고 사회적으로는 심각한 재난이 이어질 수 있다.

채용 등 고위험 인공지능은 즉각 통제해야

유럽연합뿐이 아니다. 캐나다 정부는 이미 2019년에 정부 훈령으로 공공부문 인공지능에 대한 「자동화된 의사결정 지침」을 제정시행하고 있다. 이 훈령은 공공기관이 의사결정에 사용하는 인공지능 알고리즘에 대하여 영향평가를 실시하고 평가된 위험성 수준별로 ▲전문가 검토 ▲공지 ▲인적 개입 ▲설명 요건 ▲검사 ▲모니터링 ▲교육훈련 ▲비상 계획 ▲시스템 구동 승인 등에 대한 의무를 적용하고 있다. 뉴질랜드, 영국, 독일에서도 위험성별로 인공지능에 대한 법적 규범을 마련하고 있다.

우리나라는 어떤가? 과학기술정보통신부는 지난해 12월 23일, 「인공지능(AI) 윤리기준」을 발표하고 12월 24일 인공지능 법·제도·규제 정비 로드맵을 발표하였다. 그런데 이 발표들은 ‘기업 자율적으로’ 알고리즘 편향성·오류를 평가관리하는 체계를 우선적으로 유도할 계획을 밝히고 있다. 과기부는 인공지능이 신묘하고도 첨단 중의 첨단인 신기술 산업이라서 낡은 법으로 규제하면 4차 산업혁명을 가로막게 된다고 생각하는 듯 하다. 그러나 이것은 국가의 책임 방기이다. 국민이 사용하는 제품과 서비스가 위험성과 문제점을 노출시키고 있는데 그 해결책을 기업의 자율적이고 선한 의지에만 맡겨둘 수 있겠는가.

특히 시급히 개입이 필요한 문제는 인공지능이 채용을 결정하는 분야이다. 최근 몇 년간 공공기관이 경쟁적으로 도입하고 있는 AI 채용은 ‘고위험’ 인공지능에 해당한다. 공공기관 채용비리 사건이 끊이지 않으면서 차라리 인공지능이 더욱 공정할 것이라고 기대하는 이도 있는 듯하다. 그런데 그렇지 않았다. 한국공항공사는 AI 면접을 이행하지 않는 지원자를 탈락시켰지만 AI 면접의 측정방법과 알고리즘에 대하여 전혀 검증하지 않았다.^➊ 한국방송통신전파진흥원은 AI 면접을 참고자료가 아니라 채용 여부의 당락을 결정하는 직접수단으로 사용하였는데, 어떤 알고리즘으로 불합격됐는지 파악하고 있지 못했다.^➋

더욱 큰 문제는 인공지능이 어쩌면 사람보다도 불공정할 수 있다는 것이다. 인공지능은 현재의 사회와 그 문제점까지도 학습하는 방식으로 개발되기 때문이다. 아마존^Amazon의 채용 인공지능은 아마존에 재직 중인 기술 인력이 남성 위주라는 사실을 학습해서 “여성” 또는 “여성 체스 클럽 장” 등의 단어를 포함한 이력서에 ‘자동으로’ 불이익을 주었다. 영국의 국가 대입성적평가 인공지능은 부유한 지역 학생이 높은 점수를 받는 경향이 있다는 사실을 학습하여 가난한 지역 학생들에게 더 낮은 점수를 주었다가 시험감독청장이 사퇴하는 소동을 겪었다.

물론 우리 인간도 고질적인 편향에서 벗어나지 못하고 있다. 그러나 인류는 적어도 인권을 발견하고 이를 시정하려고 부단히 노력해 온 역사를 가지고 있다. 그런데 편향이 내재된 인공지능은 그럴 계획이 없다. 인공지능이 구축하는 질서는 이 불평등을 항구화할 것이다. 인공지능이 혐오를 배우고 그 혐오를 다시 인간이 배우는 악순환이 끊이지 않을 수도 있다. 그런데도 인공지능 알고리즘을 공개할 수도, 검증할 수도 없다면 사후적인 문제제기나 권리구제조차 원천 봉쇄될 것이다. 인공지능에 대한 사회적 통제가 시작돼야 하는 이유다.

➊ “인천공항·한국공항공사, 인공지능의 차별 학습 및 편향성 대비 없이 무책임 AI면접 도입”. 심상정 의원 보도자료(2020. 10. 22).

➋ “과기정통부 예산심사 질의서”. 정필모 의원(2020. 11. 5).

특집 마이 데이터 유어 비지니스

1. 빅데이터 시대의 ‘개인정보 자기결정권’ 김보라미

2. 마이데이터, ‘남의 데이터’ 안 되게 하려면 김동환

3. ‘이루다’는 왜 카톡 대화를 수집했나 장여경

4. 데이터의 사회적 가치 제고 방안 박지환

>> 2021년 3월호 목차보기