[해외 DS] “AI 시대의 의료, 스몰 데이터에 주목해야”, 인간 경험 중심의 의료 AI 개발 시급

소수인종 이해 부족으로 오진 가능성 높아 그들의 삶을 반영하는 스몰 데이터 필요해 인재 다양성 강화가 핵심

160X600_GIAI_AIDSNote

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (MDSA R&D)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다.


사진=Scientific American

몇 년 전, 필자는 국제 의료 콘퍼런스에 참석하여 미국의 사회경제적 수준이 낮은 사람들을 대상으로 한 당뇨병 중재연구 기조연설을 간절히 기다렸다. 연설자는 연구자와 의사가 패턴 인식을 사용하여 당뇨병 환자를 위한 치료 프로그램을 더 잘 설계할 수 있게 해준 AI 도구에 대해 언급했다.

발표 연구의 대상자는 전형적인 55세의 흑인 여성으로, 7~8학년 수준의 읽기 수준과 비만을 나타내는 체질량 지수를 가진 여성이었다. 이 여성은 일반적인 당뇨병 치료 프로그램을 거의 따르지 않았고, 치료 계획을 잘 지켰는지 여부가 ‘예’ 또는 ‘아니요’라는 이분법적인 문답으로 축소되어 있다는 점이 필자를 괴롭혔다. 또한, 일상생활에서 건강 문제를 일으키고 치료 약속을 잘 지키지 못하게 만드는 요인 등 그녀의 실제 경험(lived experience)을 고려한 흔적이 없었다.

이 알고리즘은 무엇보다도 약물, 실험실 검사, 진단 코드 등의 데이터에 의존했으며, 의사들은 편향된 연구 결과에 근거하여 중년의 저소득 흑인 여성에게 맞지 않은 의료 서비스를 제공하고 치료 계획을 세우게 된다. 이러한 관행은 의심할 여지 없이 건강 격차와 건강 불평등을 가중할 것이다.

스몰 데이터가 필요한 이유

의료 분야에서 AI 시스템을 구축하고 알고리즘을 사용하면서 진정한 형평성을 원한다면 의료 프로세스 및 생태계 전반에 걸쳐 보다 전체론적 접근 방식이 필요하다. 이를 위해서는 AI 개발자가 다양한 배경을 가지고 있어야 하며, ‘스몰 데이터'(인간의 경험, 선택, 지식, 더 넓게는 사회적 결정 요인에 대한 정보)로 학습해야 한다. 이를 통해 임상적 오류를 방지하면 비용을 절감하고 진단에 따른 낙인을 줄이며 더 나은 삶으로 이어질 것이다.

의료 AI의 근본적인 결점 중 하나는 의료 기록, 영상 및 바이오마커와 같은 빅 데이터에 지나치게 의존하면서 스몰 데이터는 등한시한다는 점이다. 스몰 데이터는 사람들이 의료 서비스를 이용할 수 있는지와 의료 서비스 제공 방식, 그리고 사람들이 치료 계획을 준수할 수 있는지를 이해하는 데 매우 중요하다. 스몰 데이터가 없으면 AI는 편향성을 계속 유지할 뿐만 아니라 편견을 조장할 수 있다.

당뇨병에 관한 AI 모델을 스몰 데이터로 학습시켰다면, 병원과 멀리 떨어져서 생활하는 환자의 사정과 업무 시간 중에 병원에 가기 어려운 직장에 근무한다는 사실 그리고 ‘음식 사막(food desert)’환경에 처한 어려움을 고려한 예측을 보여줬을 것이다. 음식 사막 지역에서 생활하는지가 중요한 이유는 당뇨병이 있는 사람(16%)이 그렇지 않은 사람(9%)보다 ‘식량 불안(food insecurity)’이 더 흔하기 때문에 영양가 있는 음식과 신체 활동 기회에 대한 접근이 제한된 환자의 환경을 파악해야 한다.

이러한 요인은 사회경제적 지위의 일부로, 소득뿐만 아니라 사회 계층, 교육 수준, 사회에서 주어진 기회와 특권에 관해 얘기한다. 더 나은 알고리즘 사용을 위해선 건강 형평성과 함께 건강에 대한 사회적 결정 요인 고려하는 데이터를 포함하는 것이다. 요컨대 경제적 안정성, 이웃 또는 환경 속성, 사회 및 지역 사회 문화, 교육과 의료의 접근성 및 품질이 포함될 수 있다. 해당 정보들을 담은 AI는 중년의 흑인 여성이 왜 권장 사항(병원 방문, 의약품 복용 횟수, 신체 활동, 지역 지원 활동 등)을 잘 따르지 못하는지 더 많은 맥락을 제공할 수 있다. 이런 배경지식을 고려했으면 치료 프로토콜에는 약효가 더 오래 지속되는 약물, 이동이 필요 없는 중재 프로그램 등이 포함될 수 있다.

빅 데이터가 낳은 편향

안타깝게도 콘퍼런스에서 발표한 이 연구에서 얻은 결론은 연구에 참여한 전형적인 흑인 여성이 자신의 건강 상태와 건강에 미치는 만성적 영향에 대해 신경 쓰지 않는다는 것이었다. 이러한 연구 결과는 종종 편협하게 해석되며 환자의 전반적인 삶의 경험과 조건을 고려하지 않는다. 이 결과를 바탕으로 만들어진 임상적 권장 사항은 사회적 결정 요인을 배제하고, 흑인 여성 환자가 어떻게 생활하고, 일하고, 여행하고, 예배를 드리고, 나이를 먹는지 등 ‘어떻게’에 대한 이해 없이 제공된다. 이는 의학적으로 매우 해로운 결과를 초래한다.

예측 모델링과 생성형 AI 및 기타 많은 기술 발전이 공중 보건 및 생명 과학 분야에서 폭발적으로 이루어지고 있지만, 프로젝트 생애주기의 각 단계에서 소규모 데이터는 적극적으로 사용하지 않고 있다. 코로나19 팬데믹의 경우, 피부가 어두운 사람은 피부가 밝은 사람보다 산소 보충 및 구명 치료를 받을 가능성이 작았는데, 이는 피부가 어두울수록 산소포화도 측정기가 환자의 혈액 내 산소량을 과대평가하고 코로나19의 중증도를 과소평가하게 된다는 점을 고려하지 않았기 때문이다.

기술 도입에 있어서 성급한 판단이나 결과를 내리기보다는 기술이 보건 의사 결정의 형평성에 미치는 영향을 예측하고 그에 대해 비판적인 질문을 던져야 한다. 알고리즘은 심장학, 영상의학, 신장학 등에서 인종적 편견을 초래하는 것으로 나타났다.

고용 다양성

의료 AI의 인종 편향은 인사 문제와 맞닿아 있다. 2018년 현직 의사 중 흑인은 5%, 히스패닉 또는 라틴계는 약 6%에 불과했다. 환자와 비슷하고 자신이 진료하는 지역 사회에 대해 어느 정도 이해하고 있는 의사가 스몰 데이터가 되는 것들에 대해 질문할 가능성이 더 높다. AI 플랫폼을 구축하는 사람들도 마찬가지다. 아메리칸 인디언이나 알래스카 원주민뿐만 아니라 같은 그룹(흑인과 히스패닉 또는 라틴계)에서 과학 및 공학 교육이 감소했다. AI 개발, 사용 및 결과 해석에 다양한 그룹의 사람들을 참여시켜야 한다.

의료 차별과 격차 문제 해결은 다각도에서 접근해야 한다. 필자의 책 Leveraging Intersectionality: Seeing and Not Seeing에서도 강조하지만  어떤 조직이든 포용적인 인재와 리더십을 육성해야 하고 유색인종을 채용하고 유지하며 유색인종의 조직 경험을 이해하려는 의지가 있어야 한다.

AI의 스몰 데이터 패러다임은 생생한 경험을 풀어내는 데 도움이 될 수 있다. 스몰 데이터를 포함해서 학습 데이터에 진실을 드러내고, 인간의 상황을 고려한 코딩과 계산이 포함되어 궁극적으로 지나치게 일반화된 대상에 대한 편견을 줄여나가야 한다. 그러기 위해서 의료와 기술 분야 모두에서 인재 다양성을 장려하고 스몰 데이터를 포함하여 당뇨병 연구에 사용된 인공지능처럼 이분법적으로 판단하지 말아야 한다.


Without Small Data, AI in Health Care Contributes to Disparities
Credit: Tek Image/Science Photo Library/Getty Images
Several years ago, I attended an international health care conference, eagerly awaiting the keynote speaker’s talk about a diabetes intervention that targeted people in lower socioeconomic groups of the U.S. He noted how an AI tool enabled researchers and physicians to use pattern recognition to better plan treatments for people with diabetes.

The speaker described the study, the ideas behind it and the methods and results. He also described the typical person who was part of the project: a 55-year-old Black female with a 7th to 8th grade reading level and a body mass index suggesting obesity. This woman, the speaker said, rarely adhered to her normal diabetes treatment plan. This troubled me: whether or not a person adhered to her treatment was reduced to a binary yes or no. And that did not take into consideration her lived experience—the things in her day-to-day life that led to her health problems and her inability to stick to her treatment.

The algorithm rested on data from medications, laboratory tests and diagnosis codes, among other things, and, based on this study, doctors would be delivering health care and designing treatment plans for middle-aged, lower-income Black women without any notion of how feasible those plans would be. Such practices would undoubtedly add to health disparities and health inequity.

As we continue to build and use AI in health care, if we want true equity in access, delivery and outcomes, we need a more holistic approach throughout the health care process and ecosystem. AI developers must come from diverse backgrounds to achieve this, and they will need to train their systems on “small data”—information about human experience, choices, knowledge and, more broadly, the social determinants of health. The clinical errors that we will avoid in doing so will save money, shrink stigma and lead to better lives.

To me, one of the fundamental flaws of artificial intelligence in health care is its overreliance on big data, such as medical records, imaging and biomarker values, while ignoring the small data. Yet these small data are crucial to understanding whether people can access health care, as well as how it is delivered, and whether people can adhere to treatment plans. It’s the missing component in the push to bring AI into every facet of medicine, and without it, AI will not only continue to be biased, it will promote bias.

Holistic approaches to AI development in health care can happen at any point; lived-experience data can inform early stages like problem definition, data acquisition, curation and preparation stages, intermediate work like model development and training, and the final step of results interpretation.

For example, if the AI diabetes model, based on a platform called R, had been trained on small data, it would have known that some participants needed to travel by bus or train for more than an hour to get to a medical center, while others worked jobs that made it difficult to get to the doctor during business hours. The model could have accounted for food deserts, which limit access to nutritious foods and physical activity opportunities, as food insecurity is more common in people with diabetes (16 percent) than in those without (9 percent).

These factors are part of socioeconomic status; this is more than income, and includes social class, educational attainment as well as opportunities and privileges afforded to people in our society. A better approach would have meant including data that captures or considers the social determinants of health along with health equity. These data points could include economic stability, neighborhood or environment attributes, social and community context, education access and quality, and health care access and quality.

All this could have given providers and health systems more nuance into why any one woman in the study might not be able to adhere to a regimen that includes many office visits, multiple medications per day, physical activity or community support groups. The treatment protocols could have included longer-acting medications, interventions that don’t require travel and more.

Instead, what we were left with in that talk was that the typical Black woman in the study does not care about her condition and its chronic health implications. Such research results are often interpreted narrowly and are absent of the “whole” life experiences and conditions. Clinical recommendations, then, exclude the social determinants of health for the “typical” patient and are given, reported and recorded without understanding the “how,” as in how does the Black female patient live, work, travel, worship and age. This is profoundly harmful medicine.

Predictive modeling, generative AI and many other technological advances are blasting through public health and life science modeling without small data being baked into the project life cycle. In the case of COVID-19 and pandemic preparedness, people with darker skin were less likely to receive supplemental oxygen and lifesaving treatment than people with lighter skin, because the rapid speed of algorithmic development of pulse oximeters did not take into account that darker skin causes the oximeter to overestimate how much oxygenated blood patients have—and to underestimate how severe a case of COVID-19 is.

Human-machine pairing requires that we all reflect rather than make a rush to judgment or results, and that we ask the critical questions that can inform equity in health decision-making, such as about health care resource allocation, resource utilization and disease management. Algorithmic predictions have been found to account for 4.7 times more health disparities in pain relative to the standard deviation, and has been shown to result in racial biases in cardiology, radiology and nephrology, just to name a few. Model results are not the end of the data work but should be embedded in the algorithmic life cycle.

The need for lived experience data is also a talent problem: Who is doing the data gathering and algorithmic development? Only 5 percent of active physicians in 2018 identified as Black, and about 6 percent identified as Hispanic or Latine. Doctors who look like their patients, and have some understanding of the communities where they practice, are more likely to ask about the things that become small data.

The same goes for the people who build AI platforms; science and engineering education has dropped among the same groups, as well as American Indians or Alaska Natives. We must bring more people from diverse groups into AI development, use and results interpretation.

How to address this is layered. In employment, people of color can be invisible but present, absent or unheard in data work; I talk about this in my book Leveraging Intersectionality: Seeing and Not Seeing. Organizations must be held accountable for the systems that they use or create; they must foster inclusive talent as well as leadership. They must be intentional in recruitment and retention of people of color and in understanding the organizational experiences that people of color have.

The small data paradigm in AI can serve to unpack lived experience. Otherwise, bias is coded in the data sets that do not represent truth, coding that embeds erasure of human context and counting that informs our interpretation—ultimately amplifying bias in “typical” patients’ lives. The data problem points to a talent problem, both at the clinical and technological levels. The development of such systems can’t be binary, like the AI in the diabetes study. Neither can the “typical” patient being deemed adherent or nonadherent be accepted as the final version of truth; the inequities in care must be accounted for.

This is an opinion and analysis article, and the views expressed by the author or authors are not necessarily those of Scientific American.