팩트와 추론

Chat GP 3.5 가 세상에 나온지 채 3년이 되지 않는데 이제 인공지능은 지구적 차원에서 광범위한 관심 대상이 되었다. 엔비디아가 최고의 자산가치를 지닌 기업으로 급성장하고 미중의 패권경쟁에도 빠지지 않는 항목이 AI다. 다양한 정보를 검색하고 정리하는 기능때문에 기업이나 언론, 학술활동에도 급격히 그 영향력이 확대되고 있다. 국가들마다 인공지능 발전전략을 내세우고 평범한 시민들도 인공지능이 장착된 스마트폰 덕택에 고급 비서를 두고 살게 되었다.

동서고금의 수많은 정보로부터 내가 필요로 하는 부분을 찾아 일목요연하게 문장과 이미지를 산출해주는 인공지능의 능력은 놀랍다. 웬만한 프로그램도 순식간에 만들어 힘들게 훈련한 초급 프로그래머들의 일자리가 흔들린다. 몇 달 전에는 지브리풍 그림으로 전세계의 이목을 집중시키기도 했다. 하지만 사실오류와 환각 현상은 여전히 해소되지 않았다. 최근 전거를 더 정확히 밝히고 자체 피드백을 통해 그 오류를 최소화했다고 하지만, 사실성 보다 그럴듯한 답변을 내놓도록 설계된 탓에 정확성을 확신할 수 없는 근원적 한계를 지닌다.

2025년에 들어 여러 회사들이 ‘추론'(reasoning) 기능을 내세운 진화된 버전들을 잇달아 내놓았다. 실제 최근 AI는 정확한 정보, 유려한 문장, 신속한 검색보다 ‘깊이 생각하는’ 능력을 강조한다. 일각에서는 이것이 인공일반지능 (AGI)으로 한발짝 진화한 것을 의미한다고 보기도 한다. 스스로의 내부모델 (world model)에 따라 정보를 판단하고 평가하며 해석하는 수준에까지 도달해 의료, 법률, 금융, 언론, 학술, 예술 전 영역에 그 활용도도 높아지고 있다. 인간지능과 유사한 생각과 추론의 기능을 획기적으로 높인 인공지능의 진화를 어떻게 활용하고 그 부작용을 통제할 것인지가 새로운 문제로 대두된다.

Chat GPT 3.5 버전이 현재의 4o 나 5.0 버전으로 진화하면서 보여주는 추론 능력은 놀라울 정도다. 인공지능이 ‘생각’을 할 수 있는가라는 질문에 ‘no’라 답하기가 어렵게 되었다. 수많은 정보 속에 담겨있는 패턴이나 유형, 숨겨진 인과고리를 찾아내는 기능이 고도화되어 인간의 뇌연구와 단백질의 구조분석에 이미 놀라운 성과를 가져다 주었다. 구글의 하사비스가 노벨화학상을 수여받는 상황에서 사실과 허구, 옳고 그름을 중시하는 팩트중심적 비판은 제한적일 수밖에 없다. 실제로 사람들이 인공지능에게 단순정보나 사실확인보다 고급한 지적 설계나 창조적 사고, 평가적 추론을 요구하는 경우가 많아지고 있다.

언젠가 바둑품계론과 조지훈의 주도유단론을 비교한 적이 있다. 둘 다 인간의 능력을 평가하는 방식이고 1단에서 9단까지의 서열화를 활용하지만 무엇을 중시하는가는 사뭇 다르다. 바둑에서의 평가는 수를 읽고 승리를 가져올 수 있는 확률에 따라 매우 정확하게 표준화되어 있다. 반면 조지훈의 분류는 단순히 술을 얼마나 잘 먹는가라는 실력평가가 아니라 술을 대하는 태도나 삶의 자세 같은 미학적 차원을 포함한다. 전자가 실력 중심이라면 후자는 풍류 차원의 분류라 할 수 있겠다. 실력주의가 강조되는 현대사회에서 바둑품계가 인간능력 평가방식으로 원용되는 이유이기도 하다. Chat GPT에게 이 두 분류체계를 비교해 보라 했더니 이렇게 시작했다.

“조지훈이 직접 쓴 <술의 9품>(혹은 <주구품酒九品>)은 다음과 같습니다. 표현과 해석은 약간씩 다른 전승이 있으나 대체로 이런 구조입니다.” 조지훈의 글과 관련된 여러 자료를 종합해서 설명한다는 친절한 부연이 다소 의아했다. 1품 –천상호(天上壺) -신선의 경지, 술과 내가 하나가 되어 자연과 합일되는 수준, 2품-지상호(地上壺) -속세에 살되 속세에 물들지 않는 자유인의 음주, 4품-풍류호(風流壺)- 멋과 여유를 즐기며 마시는 술, 5품-소요호(逍遙壺)-번뇌를 잠시 내려놓는 유유자적한 음주, 8품-해갈호(解渴壺) -단순히 목을 축이기 위한 술 등을 소개했다. 처음보는 내용이어서 아 조지훈이 이런 글을 썼었나 반신반의하면서 내 기억을 되돌아보았다.

하지만 이것은 완벽한 허구다. 이런 표현과 글을 조지훈이 썼다는 기억이 전혀 없다고 지적하고 전거를 밝히라 했더니 한중일의 여러 자료에서 종합한 것이란다. 결국 거짓말이구나 했더니 끝까지 여러 설명자료들을 종합해서 자기가 재구성한 것일 뿐이라고 변명을 늘어놓았다. 허구와 환각이 훨씬 정교해지고 있다는 증거다. 그런데 이런 팩트의 오류와는 별개로 논리와 설명은 꽤 참고할만 했다. 바둑의 급수평가 모델은 ‘성취도·숙련도’를 측정하기에 적합해서 교육, 직무 역량 평가 등에 유용한데 반해 조지훈의 모델은 ‘태도·가치관·품격’을 평가하기에 적합해서 리더십, 인생관, 예술적 감수성 등을 논하기에 알맞다고 했다.

내가 이 두 방식의 장점을 반영한 새로운 틀을 만들어보자 했더니 ‘기량’과 ‘품격’을 두 축으로 1품에서 9품에 이르는 새로운 분류체계를 제시했다. 각 단계에 성인(聖人), 대가(大家), 거장(巨匠),명수(名手), 준거(準據), 능수(能手), 학수(學手), 입문(入門),미숙(未熟)이란 그럴듯한 이름까지 붙였다. 1품 성인은 역대급 통찰, 압도적 전문성을 갖고 자신·타인·자연과의 완전한 조화를 이루는 자를 의미하고 4품 명수은 안정적 상위권에 속하며 혁신 능력과 타인의 기여를 존중하고 협력하는 태도를 지닌 자이고 7품학수는 기본기를 다지고 성장 중이며 열린 태도, 배움에 대한 열정이 있는자라는 설명도 덧붙였다.

이런 한자어 구사능력은 요즘 왠만한 사람들이 흉내내기도 어려운 수준이다. 최근 많아진 중국 데이터의 학습효과가 아닌가 싶다. 어쨋든 동아시아 한자문명권에 좀더 친숙한 추론이나 대답이 강화된 셈이다. 바둑의 실력평가나 술먹는 태도유형을 넘어서 종합적인 인간평가를 하려면 세가지 질문을 던지는 것이 좋으리라는 제안도 그럴 듯했다. “이 사람은 일을 얼마나 잘하는가?”와 “이 사람은 어떻게 타인과 관계 맺는가?” 만이 아니라 “이 사람은 무엇을 위해 사는가?”를 함께 물어야 한다는 것이다.

한나절의 주고받음을 통해 내 먹연했던 생각이 깊어지고 확장되었다. 이 과정에서 Chat GPT는 새로운 사실을 알려주거나 객관적 정보를 제공해준 것이 아니라 새로운 논리, 비교 분석, 색다른 아이디어와 이름짓기 같은 방식으로 나를 도왔다. 마치 유능한 후배교수나 대학원생과 함께 토론하면서 조금씩 생각을 발전시켜가는 공동작업 같은 느낌이었다. 팩트의 오류나 환각의 위험에도 불구하고 AI가 더 깊이 영향을 미치게 되는 것은 바로 이 추론과 상상의 기능 때문이 아닐까 싶다.