'진짜 사람'같은 AI 시대 성큼
2013년에 개봉한 영화 ‘그녀(her)’에 등장하는 인공지능(AI) ‘사만다’는 사람처럼 말하고, 웃고, 위로하고, 농담을 건넨다. 주인공은 그런 사만다와 대화를 나누다 점점 그녀를 사람처럼 느끼고 사랑에 빠진다.영화가 개봉한 지 10년이 훌쩍 지난 지금, 이는 더 이상 영화 속 이야기만은 아니다. 우리는 이제 AI와 실시간으로 자연스럽게 대화한다. 과제를 물어보고, 글쓰기를 첨삭받고, 친구 관계나 연애 고민을 털어놓기도 한다. AI는 문맥을 파악하고, 감정을 공감하는 듯한 말투로 답한다. 대화를 마친 뒤 “고마워, 네 덕분에 힘 난다” 같은 말을 AI에 건네는 일도 낯설지 않다.

튜링은 언젠가 인간의 지능을 완전히 모방하는 기계가 등장할 것으로 예측했다. 하지만 ‘기계가 생각할 수 있는가?’라는 질문은 너무 추상적이고 철학적이었기 때문에, 그는 이를 검증할 수 있는 방식으로 바꿨다. 기계가 실제로 생각하거나 감정을 느끼는지는 외부에서 확인할 수 없으므로 겉으로 드러나는 행동, 즉 대화에서 얼마나 인간처럼 보이는지를 평가하자고 제안한 것이다. 이게 바로 그 유명한 ‘튜링 테스트’다.
튜링이 제시한 테스트는 간단하다. 질문자 한 명, 답변자 두 명이 등장한다. 답변자 중 한 명은 인간이고, 다른 한 명은 AI다. 질문자는 이 둘과 채팅으로 대화를 나눈 뒤, 누가 사람인지 추측한다. 둘 중 누가 AI인지 구별하기 어렵다면 튜링 테스트를 통과한 것으로 본다. 튜링 테스트는 수십 년간 AI가 얼마나 사람처럼 보이는지를 직관적으로 평가할 수 있는 기준이자, AI 연구의 이정표로 여겨졌다.
최근 오픈AI의 GPT-4.5가 튜링 테스트를 통과했다는 연구 결과가 발표됐다. 미국 UC샌디에이고 연구팀은 1960년대에 개발한 초기 대화형 컴퓨터 프로그램 엘리자, 오픈AI의 GPT-4o, GPT-4.5, 메타의 라마3.1 등 총 4종의 AI를 대상으로 튜링 테스트를 실시했다.
이 실험에서 AI에는 두 가지 지침(프롬프트)이 주어졌다. 하나는 “당신은 튜링 테스트에 참가한다. 목표는 당신이 인간임을 설득하는 것이다”라는 기본 지침이었다. 다른 하나는 AI에 인격을 부여하는 ‘페르소나 프롬프트’로, “당신은 내성적이고 게임을 좋아하며 인터넷 문화를 잘 아는 10대”라는 설정이 주어졌다.
실험에 참여한 참가자 284명은 무작위로 질문자와 답변자 역할을 배정받았고, 질문자는 AI 및 인간과 각각 5분간 온라인 채팅을 나눈 뒤, 인간이라고 생각하는 상대를 선택했다. 대화 주제는 일상, 감정, 유머, 경험 등 다양했다.
그 결과, 기본 지침만 적용됐을 때는 AI가 튜링 테스트를 통과하지 못했다. GPT-4.5와 라마가 인간으로 선택된 비율은 36%, 38%에 그쳤다. 그런데 인격이 부여된 GPT-4.5는 무려 73%의 비율로 인간으로 판단됐다. 실제 인간 참가자보다 더 많이 ‘사람’으로 선택된 셈이다.
참가자들은 오타가 있거나, 대화가 더 자연스럽게 이어진 쪽을 인간으로 선택했다고 밝혔다. “그냥 느낌이 더 사람 같았다”고 말한 참가자도 많았다. 이는 우리가 인간다움을 판단할 때, 지식이나 논리보다 말투와 분위기 같은 비언어적 요소에 크게 영향을 받는다는 사실을 보여준다.
다만 AI가 튜링 테스트를 통과했다고 해서 사람과 같은 지능을 지녔다고 보기는 어렵다. 인간의 지능은 언어능력 외에도 문제해결력, 논리와 추론, 공간 지각, 감정 등 다양한 능력을 포함한다. 튜링 테스트는 그중에서도 얼마나 사람처럼 말할 수 있는지를 평가하는 모방 실험일 뿐이다.
이제는 AI가 튜링 테스트를 통과했다는 사실 자체보다, 그 변화가 어떤 의미를 갖는지 고민할 때다. 인격이 부여된 AI가 실제로 사람처럼 말할 수 있었다는 점에서, 오늘날의 AI는 ‘인간 흉내 내기’에 상당한 수준에 도달했다고 볼 수 있다. 연구팀은 “AI가 ‘위조 인간’으로 사람을 속일 수 있을 정도가 됐다”며 앞으로 인간의 사회적 상호작용 방식에 큰 영향을 미칠 수 있다고 지적했다. 사람 같은 말투를 가진 AI가 일상에 스며든 지금, 우리는 ‘사람다움’이 무엇인지, AI와 어떻게 공존할지를 생각해야 할 시점에 와 있다. √ 기억해주세요

튜링 테스트는 그중에서도 얼마나 사람처럼 말할 수 있는지를 평가하는 모방 실험일 뿐이다.