무자비한 알고리즘, 카타리나 츠바이크, 비윤리적투입, 내비게이션, 유해 소프트웨어, 패스워드 피싱, 개인정보, 행동지침, 휴리스틱, Big Data, 컴퓨터지능, 검색어 자동완성

3 years ago

책은 세 부분으로 구성된다. 1부는 자연과학적인 인식 방법들을 제시하고, 인공지능 시스템을 만들기 위한 도구상자를 안내한다. 2부에서는 ‘정보학의 ABC’, 즉 알고리즘Algorithm, 빅데이터Big Data, 컴퓨터지능Computer intelligence 그리고 이것들이 서로 어떻게 연관되는지를 살핀다. 이어 3부에서는 어떤 부분에 인간이 개입해 윤리를 고려해야 할지, 그리고 이 과정을 어떻게 바람직하게 진행할 수 있을지를 다룬다.

뉴스 추천, 상품 추천 광고, 내비게이션, 검색어 자동완성, 번역기, 암 진단 시스템, 자율주행자동차…… 인공지능은 이제 우리 일상에 깊숙이 들어와 우리 인간들에 대해, 인간들과 더불어, 인간들을 위해 결정을 내리고 있다. 이쯤에서 책은 우리에게 질문을 던진다. 과연 기계가 인간에 대해 인간보다 더 나은 선택과 판단을 할 수 있을까? 또 우리는 그것을 원할까? 거대 소셜미디어 기업에 나를 ‘데이터 덩어리’로 바치고 싶지 않다면, 특정 이념단체나 권력기관에 선동되어 꼭두각시 인형처럼 움직이고 싶지 않다면, 그리고 기계에 나에 대한 판단을 온전히 맡기지 싶지 않다면 이 책의 일독을 권한다. 인간이 더 인간다워질 때, 인공지능과의 공존도 가능해질 수 있는 법이다.

우리 삶과 사회 깊숙이 침투한 알고리즘의 빛과 그림자
데이터에서 결정을 도출하는 원리를 파헤치다

학부에서 자연과학을 전공한 저자는 생물학 실험실에서의 개인적 경험을 예로 들며 알고리즘의 맹점을 지적한다. 자연과학에서는 ‘가설’을 세운 후 여러 번의 검증을 거쳐 실험에서 반박할 수 없는 결과가 나와야만 ‘이론’이 정립되고, 이 이론의 예측이 통제된 반복실험이나 자연에서 옳은 것으로 입증되어야만 ‘팩트’로 받아들여진다. 하지만 머신러닝에서는 원인을 탐구해 인과관계를 밝히는 대신 중요한 사건과 상관관계가 있는 행동양식이나 특성 등을 확인하는 데 주력하며, 데이터에서 얻은 결과를 곧장 미래 행동을 예측하는 데 활용한다. 가령 자동차보험요율 평가 시스템은 운전자의 나이와 무사고 경력을 살펴 사고위험을 예측함으로써 등급을 산정하고, 미국의 재범 가능성 예측 알고리즘은 범죄자의 신상정보와 인격적 특성을 토대로 재범 위험을 수치화한다.

그 결과는 종종 오류로 이어질 수 있으므로, 예측이 훌륭한지 아닌지를 측정하기 위해서는 품질 평가를 위한 척도가 필요하다. 방대한 빅데이터에서 패턴을 찾아내는 머신러닝 알고리즘은 이 품질 척도를 도구로 스스로 최적화한다. 그런데 이 품질 척도의 선택에는 언제나 도덕적 숙고가 들어간다. 즉 어떤 오류를 더 중대하게 보는지가 관건이다. 이 책은 우선 알고리즘, 최적화와 운영화, 수학적 모델링 같은 생소한 개념들을 설명하면서 기계학습 과정의 많은 단계에서 인간이 개입해 결정해야 하는 조절변수가 있음을 상기시킨다.

목적지로 가는 최단 경로 찾기, 넷플릭스의 영화 추천, 입사지원자 심사, 이미지 인식…
일상적인 예시들로 쉽게 설명하는 알고리즘

간단히 말하자면 알고리즘은 그저 수학 문제를 풀기 위해 정해진 ‘행동지침’이다. 그런데 실제로 많은 머신러닝 방법은 해답이 맞는지를 점검할 수 있는 고전적 알고리즘이 아니라, 시행착오를 통해 답을 찾아가는 ‘휴리스틱heuristic’으로서 답이 맞는지를 점검할 수 없다. 문제는 결과로 나온 해답이 맞는지 확인할 실측자료가 없고 어느 알고리즘의 결과가 어느 정도 이성적으로 보이는 한, 우리 인간들은 그 결과를 설명하는 이야기를 지어낼 수 있다는 것이다. 저자는 넷플릭스 영화 추천 시스템을 예로 들어 실제 사용자들이 매긴 별점 평가와 비교해 알고리즘이 엉뚱한 예측을 하더라도 우리가 그럴듯한 설명을 할 수 있음을 보여준다.

물론 영화 추천 시스템의 오류는 사용자에게 별다른 피해를 유발하지 않는다. 그러나 이런 시스템이 입사지원자 선발 과정의 서류심사에서 면접을 진행할 사람을 가려낼 때 쓰인다면? 만약 알고리즘이 IT 기업에서 성공한 직원들의 데이터 특성을 ‘남성’이라고 판단한다면, 그런 특성에 착안해 계속 여성 지원자들을 배제함으로써 차별을 공고히 할 수 있다. 더 큰 문제는 성공잠재력이 낮다고 평가되어 기회를 박탈당한 지원자들은 일을 잘 감당할 수 있었음을 증명할 길이 없고 따라서 품질 척도에 피드백을 제공할 수 없다는 것이다. 재범 예측 시스템이나 신용도 평가에서 위험도가 높다고 평가된 이들도 마찬가지다.

이처럼 피드백이 일방적이라는 문제 말고도 데이터 자체에 우연한 특성이 개입되어 노이즈가 생기는 경우도 있고, 데이터가 너무 적거나, 데이터 자체에 차별이 내재하는 경우도 있다. 데이터 수집과정 자체는 윤리적인가 하는 질문도 뒤따른다. 저자는 틴더와 페이스북이 이미지를 수집하는 방식, 정확도와 양성예측도에 숨겨진 함정, 위험값과 문턱값이라는 수치의 자의성, 사회?문화에 따라 상이한 윤리적 기준 등 우리가 알고리즘을 활용하기 전에 생각해볼 주제들에 대해 짚어나간다.

기술은 그 자체로 선하지도, 악하지도……
기술을 사용하는 인간이 곧 문제이자 해결방안
“윤리가 컴퓨터에 들어오는 것은 오직 당신과 나, 우리를 통해서만 가능하다”

알고리즘에 윤리적 고려가 필요한 경우는 무엇보다 인간들의 과거 행동에 대한 데이터를 토대로 학습하여 다른 인간의 미래 행동을 추론하고 사회적 자원에의 접근을 결정하는 시스템들이다. 물론 이러한 유형의 시스템이라도 위험도는 천차만별이다. 저자는 시스템을 효율적으로 감시하기 위한 등급을 고안한다. 그 기준은 시스템의 결정으로 인한 ‘손해잠재력’과 그 결정에 의문의 제기하고 변화시킬 수 있는 ‘항의 가능성’이다.

예를 들어 상품 추천 시스템의 개별적 오류는 무시할 수 있는 수준이다. 오류가 있는 입사지원자 평가 시스템을 쓰면 채용 기회를 잃는 개인뿐 아니라 그런 개인을 경제적으로 도와야 하는 국가와 부적합한 지원자를 채용하게 되는 회사도 손해를 입지만, 국가나 고용주 측의 손해는 개인들이 당하는 손해를 합친 것보다 크지 않다. 한편 콘텐츠를 제안하는 뉴스피드나 유튜브에서 음모론이나 가짜 뉴스를 배포한다면 사회 전체가 상당한 손해를 입을 수 있다. 하지만 적어도 다른 공급자와 경쟁하면서 시스템이 개선될 여지가 있다. 그에 비해 국가가 운영하는 감시소프트웨어는 무고한 개인에게 잘못된 낙인을 찍거나 반대로 범죄자들을 인식하지 못해 사회에 손해를 끼칠 수 있을 뿐 아니라, 중요한 민주주의적 기본권을 침해함으로써 사회 전반에 막대한 손해를 입힐 수 있고, 독점적으로 운영되므로 항의 가능성도 낮다. 이런 식으로 등급을 나누면, 완벽하지 못한 얼굴인식 기술에 의존하는 자율살상무기, 데이터가 너무 적은 테러리스트 확인 알고리즘, 국가가 국민을 광범위하게 감시 통제하는 중국 시민점수 등은 리스크가 가장 높은 시스템으로 분류된다.

일련의 논의를 통해 저자는 등급에 따라 투명성과 이해가능성을 높여 시스템을 감시하는 방안을 제안하며, 성공적으로 머신러닝을 할 수 있는 조건이 결여되어 있을 때, 또는 시스템을 투입함으로 인해 전 사회가 입을 수 있는 손해잠재력이 너무 클 때는 활용을 금지해야 한다고까지 단언한다. 끝으로 저자는 “자신이 영향을 미칠 수 있는 범주 내에서 무엇이 좋은 결정일지 고민해보아야 어느 정도로 기계의 뒷받침을 받을지도 결정할 수 있는 것이다. 윤리가 컴퓨터에 들어오는 것은 오직 당신과 나, 우리를 통해서만 가능하기 때문이다”라고 강조한다.
접어보기
추천평
그 어떤 수식이 필요 없는 책이다. 카타리나 츠바이크의 강연을 들은 사람이면 충분히 공감할 터. 알고리즘이라는 기술적 토대를 매력적이고 이해하기 쉽게 설명하고 있다.
- [디 차이트Die Zeit]

알고리즘을 이해하는 데 그리 대단한 지식이 필요한 것이 아님을 이 책만큼 잘 보여주는 책이 있을까. 누구나 이해할 수 있는 언어로 인공지능의 기초부터 응용까지 설명했다. 친절한 교사처럼 조곤조곤했다가 예리한 학자처럼 정곡을 찌르기도 하고 능숙한 연사처럼 흡인력 있게 이야기해준다.
- [쥐트도이체 차이퉁Suddeutsche Zeitung]

카타리나 츠바이크에 따르면 우리 모두가 인공지능 배후의 메커니즘을 이해하는 것이 굉장히 중요하다. 그리하여 필요한 경우 모두가 참여하고 목소리를 낼 수 있어야 한다. 이를 위한 기본 작업을 이 책이 매우 탁월하게 해냈다.
- [도이칠란트풍크 쿨투어Deutschlandfunk Kultur]

많은 이들이 알고리즘은 기술의 영역일 뿐 우리와 무관하다고 여긴다. 하지만 알고리즘은 우리 삶의 거의 모든 영역에 깊숙이 관여되어 있는 매우 중요한 주제다. 카타리나 츠바이크는 이들을 위해 꼭 읽어 보면 좋은 책을 썼다. 그것도 아주 탁월하게!
- [프랑크푸르터 알게마이네 차이퉁Frankfurter Allgemeine Zeitung]

Loading comments...

Comments