인공지능-로봇의사의 이상과 현실

인공지능-의사는 4차 산업혁명의 핵심 요소인 인공지능과 빅데이터를 의료분야에 적용한 사례입니다. 미국의 컴퓨터 제조회사인 IBM(International Business Machines)은 인공지능 소프트웨어 ‘왓슨’을 개발하여, 의료, 금융, 방송, 교육 등의 분야에 접목하는 시도를 하고 있습니다. 닥터 왓슨(Watson for Oncology)은 의료분야에 활용된 인공지능으로 암환자를 진단하고 치료방법을 고려하는 데 이용하고 있습니다. 실제로 국내 병원에서는 17년부터 왓슨을 도입하였고, 이제는 암환자를 진단하는 것을 넘어 사전에 암에 걸릴지 예측하고 예방책을 제시할 수 있는 왓슨 포 지노믹스(Watson for Genomics)도 실제 의료현장에 이용되고 있습니다.

국내에서도 한국형 인공지능 정밀의료를 구축하기 위해 국내 빅5병원을 비롯하여 25개의 의료기관, 기업, 대학이 공동연구를 진행하고 있습니다. 그 결과로 만들어진 한국형 인공지능-의사인 닥터 앤서(Dr. Answer)를 개발하였고, 앤서는 현재 의료 실무에서 그 성능을 시험해보는 단계에 접어들었습니다. 앤서는 암, 뇌질환, 심장질환 뿐만 아니라, 치매에 대한 진단도 가능하고, 왓슨보다는 한국인에 특화된 프로그램이기 때문에 앤서의 임상 적용 결과에 대해 많은 사람들의 기대가 집중되고 있습니다. 그러나 앤서보다 먼저 임상 현장에서 사용되고 있는 왓슨의 사례를 통해, 우리는 우리가 고대하는 인공지능-의사의 실현 여부에 대해 의문을 제기해야 할 필요가 있습니다.

IBM에서는 왓슨의 진단 정확도를 증명하고자 2014년 미국종양학회(ASCO)에서 발표된 연구결과를 제시했습니다. 연구는 저명한 암 병원인 MSKCC(Memorial Sloan Kettering Cancer Center)에서 진행되었고, 전문의와 왓슨 사이에 진단 일치율을 분석하였습니다. 해당 연구에서 왓슨은 대장암 98%, 직장암 96%, 방광암 91%, 췌장암 94%, 신장암 91%, 난소암 95%, 자궁경부암 100%로, 최소 90%를 넘는 결과를 보여줬습니다. 그러나 실제로 왓슨을 도입한 길병원은 도입 1년차(17년) 기자간담회에서 “대장암(결장암) 환자 118명을 대상으로 분석한 의료진과 왓슨의 ‘강력 추천’ 분야 의견일치율은 55.9%로 과거 후향적 연구 48.9%에 비해 7%포인트 높아졌다.”고 발표했습니다. 물론 이전에 비해 나은 결과지만, 왓슨이 제시한 90%보다는 현저히 낮은 일치율을 보여줍니다. 이미 16년 유럽종양학회 아시아 총회에서도 왓슨의 진단 일치율이 암의 종류에 따라 매우 큰 차이가 난다는 점을 지적한 바 있습니다.

인공지능-의사는 활용분야가 사람의 생명과 건강에 관계되어 있으므로, 그 활용가치에 있어 결과의 유효성과 안정성이 큰 영향을 미치게 됩니다. 우리는 보통 인공지능-의사의 역할에 대해서 생각해볼 때, 주로 SF 영화에서 보는 로봇 의사를 떠올립니다. 이 의사는 인간 의사를 완벽하게 대체하고, 질병의 진단과 치료 그리고 예측에 있어 거의 신에 가까운 무오류적 능력을 보여줍니다. 길병원에서 진료를 받은 100명의 환자들은 인간 의사와 인공지능 의사의 판단이 다를 경우, 인간보다 왓슨의 판단을 더 신뢰한다고 응답하기도 했습니다. 우리는 이러한 설문결과가 우리의 현실에 근거하고 있는지 아니면 우리가 꿈꾸는 이상에 근거하고 있는지 눈여겨봐야 합니다.

물론 닥터 왓슨의 개발의 재료가 된 데이터가 서양인들의 의료기록을 기반으로 했기 때문에, 국내 의료정보를 학습한 닥터-앤서는 보다 더 높은 정확도와 완성도를 보여줄 것이라고 기대할 수 있습니다. 실제로 길병원에서 발표한 내용에 따르면 왓슨과 길병원 의료진과의 진단 일치율의 차이는 국내 진료지침과 의료보험환경 그리고 약물에 대한 환자의 반응이 왓슨이 학습한 미국에서 기반한 데이터와 차이가 있기 때문이라고 제시하고 있습니다. 한국인의 의료기록을 학습한 앤서는 왓슨보다 더 뛰어난 능력을 보여줄지도 모릅니다. 현재의 인공지능이 매우 방대한 데이터를 학습하여, 많은 분야에서 인간이 수행하기 힘든 일을 처리할 수 있는 것 또한 사실입니다. 하지만 인공지능-의사의 결과 정확도를 보장하는 것은 무조건 많은 양의 데이터가 아니라, 일정 범주의 가공된 데이터의 지속적인 학습입니다. 이 또한 데이터의 오류가 없다는 것을 전제해야 가능할 수 있습니다.

많은 전문가들이 의료현장에서 인공지능-의사의 실효성에 대해 의문을 제기합니다. 현재 기술 단계에서 그러한 의문이 드는 것은 당연합니다. 물론 인류는 지난 몇 십년 만에 상상 속에만 존재하던 것들을 실제로 구현하는 데 많은 성취를 거두었습니다. 우리가 상상하는 수준의 인공지능이 탑재된 로봇의사도 언젠가는 실현가능한 인류의 미래가 될 것입니다. 그러나 현재 인공지능-정밀의료서비스에 대해, 인공지능-의사가 내리는 진단은 현실적으로 신뢰할 수 있는 지?, 정확한지?, 그 능력에 있어 과장된 부분은 없는지? 잘 살펴봐야 합니다. 현재의 인공지능은 인간을 지배하기 보다는 아직은 인간의 한계나 오류를 극복하는 데 사용되는 도구의 역할을 하고 있습니다. 현재의 인공지능-의사에게 어떤 역할과 신뢰를 맡길지, 궁극적으로는 인공지능-로봇과 어떤 관계를 맺을지 생각해보는 것이 미래 세대를 위한 우리의 과제일 것입니다.

<참고문헌>

답글 남기기

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Google photo

Google의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Twitter 사진

Twitter의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

%s에 연결하는 중