GEO Strategy

AI는 어떻게 웹을 읽는가 — ChatGPT, Claude, Perplexity 봇 파이프라인 완전 분석

2026년 5월 26일

ChatGPT, Claude, Perplexity. 환자들이 병원을 찾을 때 쓰는 AI 서비스들입니다. 그런데 이 세 서비스는 웹을 읽는 방식이 완전히 다릅니다. 인트릭스가 2026년 3월부터 5월까지 실제 서버 로그를 분석해 각 AI의 봇 파이프라인을 실증적으로 관찰한 결과를 공개합니다.

AI마다 웹을 읽는 방식이 다르다

많은 사람들이 AI 검색 최적화를 기존 SEO의 연장선으로 생각합니다. 그러나 실측 데이터는 다른 이야기를 합니다. ChatGPT, Claude, Perplexity는 각각 완전히 다른 파이프라인으로 웹 콘텐츠를 수집하고 인용합니다. 하나의 최적화 전략으로 세 서비스를 동시에 커버할 수 없는 이유입니다.

ChatGPT — 사용자 행동이 인덱싱을 트리거한다

ChatGPT는 세 종류의 독립적인 봇이 각자 다른 역할로 작동합니다. GPTBot(사전 색인 구축), OAI-SearchBot(실시간 검색 지원), ChatGPT-User(실시간 인용 크롤). 이 세 봇이 순서를 가지고 연동됩니다.

가장 자주 관찰된 패턴은 이렇습니다. 사용자가 ChatGPT에 질문하면 ChatGPT-User가 관련 페이지를 실시간으로 방문합니다. 8~11분 후 OAI-SearchBot이 동일 페이지의 4개 언어 버전을 수집합니다. 직후 GPTBot이 LLM API를 호출해 배치 처리를 실행합니다. 이 과정이 완료되면 ChatGPT 답변에 해당 페이지가 인용됩니다.

핵심은 구글과의 차이입니다. 구글은 Googlebot이 크롤 → 색인 → 노출의 선형 파이프라인으로 작동합니다. ChatGPT는 사용자의 질문 행위가 인덱싱을 트리거합니다. 아무도 묻지 않는 페이지는 ChatGPT에게 존재하지 않을 수 있습니다.

/sources 페이지가 인용의 게이트키퍼다

실측 데이터에서 반복 확인된 패턴이 있습니다. ChatGPT-User가 /sources 페이지를 방문했을 때만 OAI-SearchBot 연동 확률이 급격히 높아집니다. 메인 페이지만 방문하면 OAI 연동 없이 종료되는 패턴이 다수 관찰됐습니다. 출처 투명성 페이지가 ChatGPT 인용 전환의 실질적 게이트키퍼로 작동하고 있습니다.

블로그 발행이 전체 사이트 재수집을 유발한다

또 하나의 핵심 발견입니다. 블로그 포스트를 발행하고 IndexNow 핑을 보내면, GPTBot이 해당 글뿐 아니라 사이트 전체를 재수집하는 패턴이 반복 확인됐습니다. 블로그 글 자체의 인용보다, 발행 행위가 전체 데이터의 GPT 인덱스 갱신을 유발한다는 점이 구글과 근본적으로 다릅니다.

Claude — Brave Search가 핵심이다

Claude의 웹 검색은 ChatGPT, Perplexity와 완전히 다른 방식으로 작동합니다. Claude는 페이지를 직접 방문하지 않습니다. 대신 Brave Search API를 통해 스니펫만 읽고 답변을 생성합니다.

실측에서 확인된 데이터입니다. Claude 인용 결과와 Brave Search 상위 결과의 일치율이 86.7%였습니다. 이것은 Claude 최적화가 구글 SEO가 아니라 Brave Search 색인 순위에 달려 있다는 의미입니다. 구글 순위가 높아도 Brave 색인이 되어 있지 않으면 Claude에 인용되지 않습니다.

추가로 Claude는 봇 로그로 인용 여부를 추적할 수 없습니다. 페이지 직접 방문이 없기 때문입니다. GA4 referral이 유일한 간접 신호입니다.

Perplexity — 실시간 크롤, HTML 파싱이 전부다

Perplexity는 ChatGPT-User와 유사하게 사용자 쿼리에 반응해서 즉시 페이지를 방문합니다. 차이는 LLM API 호출이 없다는 점입니다. HTML 페이지만으로 인용합니다.

허브 페이지 연속 탐색 패턴도 관찰됐습니다. 개별 페이지 방문 직후 주변 허브들을 연속 방문합니다. 또한 사용자가 특정 URL을 지정하면 즉시 방문합니다. 이것은 Claude가 특정 URL을 지정해도 직접 방문하지 않는 것과 대비되는 특징입니다.

자체 Sonar 모델과 자체 색인을 사용하기 때문에, Perplexity 최적화는 HTML 구조의 파싱 품질과 URL 구조가 핵심입니다.

AI별 최적화 포인트 요약

세 서비스의 파이프라인을 정리하면 최적화 방향이 명확하게 나뉩니다.

ChatGPT — HTML 구조화 데이터, /sources 페이지 구성, 허브 구조, llms.txt, 정기적 콘텐츠 발행(IndexNow)
Claude — Brave Search 색인 등록 및 순위 관리, 스니펫 품질 최적화(meta description, H2 구조)
Perplexity — 페이지 HTML 파싱 품질, 명확한 URL 구조, 허브 페이지 내부 링크
Google Gemini — 구글 검색 순위와 직접 연동. Google-Extended 봇 허용 필수.

위장봇을 주의해야 한다

실측 과정에서 예상치 못한 발견이 있었습니다. ChatGPT-User User-Agent를 위장한 봇의 존재입니다. 실제 ChatGPT-User는 반드시 Microsoft Azure(AS8075) IP에서 접속하고 HTML 페이지를 방문합니다. 그런데 SK브로드밴드(AS9318) IP에서 ChatGPT-User를 사칭하며 LLM API만 476회 직접 호출하는 위장봇이 확인됐습니다.

진짜 ChatGPT-User를 판별하는 기준은 세 가지입니다. UA 일치 + AS8075(Microsoft Azure) IP + HTML 페이지 방문. 세 조건을 모두 충족해야 진짜입니다.

AI 인용은 트래픽이 아니라 점유율로 측정해야 한다

마지막으로 중요한 관점 전환입니다. AI가 답변에 출처를 표시해도 사용자가 링크를 클릭하지 않으면 GA4에 유입이 기록되지 않습니다. AI 검색 세션의 93%가 클릭 없이 종료됩니다.

제로클릭 환경에서 AI 인용의 가치는 트래픽이 아니라 브랜드 신뢰도와 답변 점유율(Share of Voice)로 측정해야 합니다. 환자가 AI에게 "강남 피부과 추천해줘"라고 물었을 때 우리 병원이 포함되는 것, 그것이 목표입니다.

마치며

ChatGPT, Claude, Perplexity는 같은 AI 검색처럼 보이지만 완전히 다른 파이프라인으로 작동합니다. 하나의 전략으로 전부 커버할 수 없습니다. 인트릭스는 각 AI의 파이프라인을 직접 실측하고, 그 데이터를 기반으로 최적화 구조를 설계합니다.