Home/GEO Insight Hub/How AI Reads
Vol 03 · Reading

AI는 콘텐츠를
어떻게 읽는가.

9분 분량
DI Company GEO Studio
2026 Updated

한 줄 정의

AI 는 콘텐츠를 토큰 단위로 분할한 뒤, 의미 단위 청크로 묶어 분석합니다. 그리고 두 가지 경로로 답변에 인용합니다 — 학습 데이터 (Pre-training) 와 실시간 검색 (RAG).

핵심 원리

AI 는 "잘 쓴 글" 이 아니라, "잘 발췌되는 글" 을 인용합니다.

두 가지 인용 경로

1. Pre-training 경로 (학습 데이터)

ChatGPT, Claude, Gemini 같은 LLM 은 사전 학습 단계에서 인터넷의 방대한 콘텐츠를 학습합니다. 학습 시점에 권위 콘텐츠 · 외부 매체 언급 · 신뢰 가능한 출처로 인식된 데이터는 모델 파라미터 안에 "기억" 형태로 저장되어 답변 생성 시 직접 인용됩니다.

이 경로의 인용은 광고비 없이 누적되는 자산이지만, 학습 시점이 지나야 효과가 측정됩니다. 통상 3 - 6개월의 인덱싱 지연이 발생합니다.

2. RAG 경로 (실시간 검색)

RAG (Retrieval-Augmented Generation) 는 AI 가 답변을 생성할 때 실시간으로 외부 콘텐츠를 검색해 인용하는 방식입니다. ChatGPT Search, Perplexity, Google Gemini, Bing Copilot 이 이 방식을 주로 사용하며, 학습 데이터에 없는 최신 정보도 인용 가능합니다.

RAG 는 검색 친화 신호 (Schema 마크업, 빠른 인덱싱, 권위 출처 링크) 가 핵심이며, 2 - 4주 안에 인용 결과를 측정할 수 있는 빠른 채널입니다.

AI 의 토큰 청크 분석

LLM 은 콘텐츠를 한 번에 통째로 읽지 않습니다. 텍스트를 토큰 (token, 단어 또는 부분 단어) 단위로 분할한 뒤, 의미가 연결된 토큰 묶음 (청크, chunk) 으로 그룹화합니다.

  • 1개 청크는 일반적으로 200 - 500 토큰 (한국어 기준 약 100 - 250자)
  • 한 청크 안에 정의 · 근거 · 결론이 모두 담겨 있어야 인용 확률 상승
  • 청크 단위로 발췌되어 답변에 직접 삽입
  • 여러 청크를 가로지르는 긴 문맥은 인용에서 누락될 가능성

요약하면, 긴 글이 좋은 게 아니라 "한 청크 안에 완결된 답을 담은 글" 이 좋은 GEO 콘텐츠입니다.

인용을 결정하는 3가지 신호

권위성 (Authority) · E-E-A-T

Experience · Expertise · Authoritativeness · Trustworthiness. AI 는 학습 단계에서 이 4가지 신호가 강한 콘텐츠를 우선 기억합니다. 외부 매체 언급, 전문가 인용, 구체적 데이터 출처가 권위 신호의 핵심입니다.

구조화 (Structure) · Schema 마크업

Schema.org JSON-LD 마크업은 AI 가 콘텐츠의 의미를 명확히 파싱하도록 도와줍니다. FAQPage, Article, Organization, HowTo 같은 마크업이 적용된 콘텐츠는 미적용 콘텐츠 대비 인용 확률이 평균 2-3배 높습니다.

명확성 (Clarity) · Answer-first 구조

첫 문장에 결론 · 정의를 먼저 배치하는 Answer-first 구조는 청크 단위 발췌 시 그대로 답변에 인용됩니다. "GEO 는 ~ 이다" 같은 단정형 정의문이 최상위 인용 후보입니다.

실제 사례 — 같은 콘텐츠, 다른 인용 결과

디아이컴퍼니가 운영한 동일 키워드 A/B 테스트에서, 같은 정보를 담았지만 구조가 다른 두 콘텐츠의 4주 인용률 차이가 다음과 같이 측정됐습니다.

  • Type A (서사형 · 결론 후순위) · 4주 인용 횟수 평균 7건
  • Type B (Answer-first · Schema 적용) · 4주 인용 횟수 평균 23건 — 3.3배 차이

같은 정보, 같은 권위, 다른 결과. 구조 설계가 인용을 결정합니다.

디아이컴퍼니의 구조 설계 원칙

디아이컴퍼니는 콘텐츠를 작성할 때 다음 4가지 원칙을 적용합니다.

  • 각 H2 섹션 첫 문장은 정의문 또는 단정형 결론으로 시작
  • 한 청크 안에 정의 + 근거 + 출처를 함께 배치
  • FAQPage Schema 로 자주 묻는 질문을 별도 인용 단위로 분리
  • 외부 데이터는 출처 명시 (Adobe, Forrester, Gartner 등)
핵심 요약

이 글에서 기억할 4가지

  • AI 는 두 경로 (Pre-training · RAG) 로 콘텐츠를 인용한다.
  • 인용 단위는 토큰 청크 (200-500 토큰) 이다.
  • 인용을 결정하는 3축은 권위성 · 구조화 · 명확성이다.
  • 같은 정보라도 Answer-first + Schema 구조일 때 인용률이 3배 이상 차이난다.
Related FAQ

이 글과 함께 자주 묻는 질문

Q.RAG란 무엇인가요?+
RAG (Retrieval-Augmented Generation) 는 AI 가 답변을 생성할 때 실시간으로 외부 콘텐츠를 검색해 인용하는 방식입니다. ChatGPT Search, Perplexity, Google Gemini 가 이 방식을 사용하며, 학습 데이터에 없는 최신 정보도 답변에 인용할 수 있습니다.
Q.AI는 콘텐츠를 문장 단위로 읽나요?+
AI 는 콘텐츠를 토큰 단위로 분할한 뒤, 의미 단위 (청크) 로 묶어 분석합니다. 일반적으로 200-500 토큰 청크가 인용 단위가 되며, 한 청크 안에 정의 · 근거 · 결론이 모두 담긴 콘텐츠가 인용 확률이 가장 높습니다.
Q.Answer-first 구조란 무엇인가요?+
Answer-first 는 첫 문장에 결론이나 정의를 먼저 제시하는 콘텐츠 구조입니다. AI 가 청크 단위로 발췌할 때 첫 문장이 그대로 답변에 인용되기 때문에, 정의문 · 단정형 결론을 가장 앞에 배치하는 것이 인용 확률을 높입니다.

우리 콘텐츠는
AI가 발췌하기 좋은 구조인가요?

15분 무료 진단으로 콘텐츠의 청크 친화도와 Schema 적용 상태를 확인할 수 있습니다.