[해외 DS] CNN의 대체 주자 KAN, 설명가능한 신경망 모델 등장하나 ②
KAN, 정확한 함수 정의하여 재현 가능한 결과 도출해
수학·물리 전반에 걸쳐 뛰어난 성능 보여
최적화를 통해 점차 느린 학습 속도 개선해나갈 것
[해외 DS] CNN의 대체 주자 KAN, 설명가능한 신경망 모델 등장하나 ①에서 이어집니다.
기존 신경망 모델은 복잡한 데이터인 경우 함수를 정의하기 어려워 근사치를 찾았다. 함수를 정의하지 않고 근사치를 찾을 경우 목표하는 값에 도달할 수 있으나, 다른 데이터를 넣었을 때 어떤 결괏값이 나올지 예상할 수 없다는 단점이 있다. 새롭게 등장한 KAN(Komogolov-Anold Network)은 함수를 정의해 결괏값을 추적할 수 있어 많은 기대를 받고 있다.
KAN을 뒷받침하는 이론 ‘콜모고로프-아놀드 표현 정리’
KAN은 콜모고로프-아놀드 표현 정리를 기반으로 한 모델이다. 이 정리는 1960년대에 수학자 블라디미르 아놀드와 안드레이 콜모고로프가 만들었으며 복잡한 함수를 근사치가 아닌 정확한 ‘함수’로 표현할 수 있다는 것이다. 이 정리에 따르면, 복잡한 함수를 일변수 함수의 합으로 표현할 수 있다. 예를 들어 y = g1(x1) + g2(x2) + g3(x3) 으로 나타낼 수 있다. 정확한 함수를 정의할 수 있다는 점이 기존 신경망 모델과 다르며 이로 인해 새로운 신경망 모델은 결과를 재현할 수 있다.
최근 MIT 물리학자 지밍 류가 이끄는 팀은 콜모고로프-아놀드 표현 정리를 이용해 KAN을 개발했다. 이 정리는 신경망 커뮤니티에서 낯선 개념이 아닌데, 1980년대와 1990년대에 전문가들이 이 접근법을 시도했으나 직접 구현하는 데 실패했기 때문이다. 그러나 최근 연구진은 성공적으로 구현하여 모델을 개발했다.
기존 신경망 모델과 달리 결과 추적할 수 있어
KAN은 기존 신경망 모델의 구조와 유사하다. 차이점은 가중치에 고정된 값이 아닌 w(x)처럼 함수로 표현된다는 점이다. 다시 말해 시냅스의 가중치는 뉴런에 따라 달라진다. 따라서 KAN은 가중치에 고정된 수가 아니라 시냅스에 어떤 함수를 적용하는 방식으로 학습한다. 이론적으로 이 방식은 복잡한 함수를 표현하는 것이 가능해, 인공지능을 사용하여 높은 정확도를 얻을 수 있다. 게다가 가중치를 함수로 표현하면 모델이 어떻게 작동하는지 이해할 수 있다는 장점이 있다. 예를 들어 함수의 그래프를 보며 입력에 따라 출력이 어떻게 달라지는지 추적할 수 있다. 하지만 KAN에도 중요한 단점이 있다. KAN은 학습 과정에서 한 변수마다 함수를 찾아야 하므로 학습 단계가 훨씬 복잡하며 학습 시간이 오래 걸린다.
KAN, 수학·물리학 등 여러 분야에서 MLP보다 나은 성능 보여
연구진은 KAN과 기존 모델인 다층 퍼셉트론(Multi Layer Perceptron, MLP)의 성능을 비교했다. 첫 번째 비교로 데이터를 주고 그에 맞는 함수를 찾는 작업을 수행했다. 그 결과 일반적으로 KAN이 MLP보다 훨씬 빠르게 함수를 찾아냈다. 두 번째로 물리학에서 중요한 역할을 하는 편미분 방정식을 푸는 작업을 비교했다. 이 편미분 방정식은 정확한 해가 알려져 있지 않아 컴퓨터 계산을 통해 해를 찾아야 하는 수식이다. 비교 결과, KAN이 MLP보다 더 정확한 결과를 얻었다.
마지막으로 연구진은 매듭 이론에서 KAN의 성능을 확인했다. 이 이론의 주요 질문 중 하나는 매듭의 서로 다른 2차원 표현이 실제로 동일한 매듭에 해당하는지 알아내는 것이다. 2021년 호주 시드니 대학교의 지오디 윌리엄슨 팀은 신경망 모델을 이용해 이 문제를 해결했으며 새로운 연관성도 찾아냈다. 그러나 KAN은 더 적은 노력으로 똑같은 결과를 만들어 냈다. 윌리엄슨 팀은 약 30만 개의 파라미터로 신경망을 학습시켰으나, 류 팀은 단 200개의 파라미터로 더 나은 결과를 보였다.
새롭게 등장한 신경망 모델 ‘인공지능 혁명’ 일으킬 수 있을까
류 팀은 새로운 신경망 모델을 수학과 물리학에서 LLM 개선까지 다양한 문제에 적용할 수 있다며 희망찬 미래를 예상했다. 또한 인공지능 커뮤니티에서는 머신러닝의 새로운 시대가 왔다며 기대감을 드러냈고, 소프트웨어 개발자인 로한 폴은 KAN이 인공지능에 큰 변화를 불러일으킬 것이라고 언급했다.
그러나 KAN은 실제로 사용될 때까지 성능을 확신할 수 없다. 커스팅은 KAN이 MLP가 잘 작동하는 영역에서도 좋은 성능이 나와야 KAN을 믿을 수 있다는 점을 강조했다. 적절한 비교 없이는 KAN이 유망한 대안인지 확신하기 어렵다는 입장이다.
KAN의 가장 큰 문제점은 느린 학습 속도다. 같은 매개변수에 대해 KAN은 MLP보다 약 10배 더 학습하는데 오래 걸린다. 따라서 매우 긴 학습 시간이 필요한 LLM에 이 접근법을 사용하면 문제가 될 수 있다. 하지만 류는 아직 효율성을 최적화하지 않아 학습 속도가 느릴 뿐, 최적화를 통해 점차 학습 속도를 늘려갈 수 있다는 입장이다. 현재 KAN은 엄청난 관심을 받고 있는 만큼 이 약점은 빠른 시일 내에 개선될 수 있을 것이라는 평가를 받고 있다.
*편집진: 영어 원문의 출처는 사이언티픽 아메리칸(Scientific American)으로 본지의 편집 방향과 일치하지 않을 수도 있습니다.