한 줄 정의
AI 는 콘텐츠를 토큰 단위로 분할한 뒤, 의미 단위 청크로 묶어 분석합니다. 그리고 두 가지 경로로 답변에 인용합니다 — 학습 데이터 (Pre-training) 와 실시간 검색 (RAG).
AI 는 "잘 쓴 글" 이 아니라, "잘 발췌되는 글" 을 인용합니다.
두 가지 인용 경로
1. Pre-training 경로 (학습 데이터)
ChatGPT, Claude, Gemini 같은 LLM 은 사전 학습 단계에서 인터넷의 방대한 콘텐츠를 학습합니다. 학습 시점에 권위 콘텐츠 · 외부 매체 언급 · 신뢰 가능한 출처로 인식된 데이터는 모델 파라미터 안에 "기억" 형태로 저장되어 답변 생성 시 직접 인용됩니다.
이 경로의 인용은 광고비 없이 누적되는 자산이지만, 학습 시점이 지나야 효과가 측정됩니다. 통상 3 - 6개월의 인덱싱 지연이 발생합니다.
2. RAG 경로 (실시간 검색)
RAG (Retrieval-Augmented Generation) 는 AI 가 답변을 생성할 때 실시간으로 외부 콘텐츠를 검색해 인용하는 방식입니다. ChatGPT Search, Perplexity, Google Gemini, Bing Copilot 이 이 방식을 주로 사용하며, 학습 데이터에 없는 최신 정보도 인용 가능합니다.
RAG 는 검색 친화 신호 (Schema 마크업, 빠른 인덱싱, 권위 출처 링크) 가 핵심이며, 2 - 4주 안에 인용 결과를 측정할 수 있는 빠른 채널입니다.
AI 의 토큰 청크 분석
LLM 은 콘텐츠를 한 번에 통째로 읽지 않습니다. 텍스트를 토큰 (token, 단어 또는 부분 단어) 단위로 분할한 뒤, 의미가 연결된 토큰 묶음 (청크, chunk) 으로 그룹화합니다.
- 1개 청크는 일반적으로 200 - 500 토큰 (한국어 기준 약 100 - 250자)
- 한 청크 안에 정의 · 근거 · 결론이 모두 담겨 있어야 인용 확률 상승
- 청크 단위로 발췌되어 답변에 직접 삽입
- 여러 청크를 가로지르는 긴 문맥은 인용에서 누락될 가능성
요약하면, 긴 글이 좋은 게 아니라 "한 청크 안에 완결된 답을 담은 글" 이 좋은 GEO 콘텐츠입니다.
인용을 결정하는 3가지 신호
권위성 (Authority) · E-E-A-T
Experience · Expertise · Authoritativeness · Trustworthiness. AI 는 학습 단계에서 이 4가지 신호가 강한 콘텐츠를 우선 기억합니다. 외부 매체 언급, 전문가 인용, 구체적 데이터 출처가 권위 신호의 핵심입니다.
구조화 (Structure) · Schema 마크업
Schema.org JSON-LD 마크업은 AI 가 콘텐츠의 의미를 명확히 파싱하도록 도와줍니다. FAQPage, Article, Organization, HowTo 같은 마크업이 적용된 콘텐츠는 미적용 콘텐츠 대비 인용 확률이 평균 2-3배 높습니다.
명확성 (Clarity) · Answer-first 구조
첫 문장에 결론 · 정의를 먼저 배치하는 Answer-first 구조는 청크 단위 발췌 시 그대로 답변에 인용됩니다. "GEO 는 ~ 이다" 같은 단정형 정의문이 최상위 인용 후보입니다.
실제 사례 — 같은 콘텐츠, 다른 인용 결과
디아이컴퍼니가 운영한 동일 키워드 A/B 테스트에서, 같은 정보를 담았지만 구조가 다른 두 콘텐츠의 4주 인용률 차이가 다음과 같이 측정됐습니다.
- Type A (서사형 · 결론 후순위) · 4주 인용 횟수 평균 7건
- Type B (Answer-first · Schema 적용) · 4주 인용 횟수 평균 23건 — 3.3배 차이
같은 정보, 같은 권위, 다른 결과. 구조 설계가 인용을 결정합니다.
디아이컴퍼니의 구조 설계 원칙
디아이컴퍼니는 콘텐츠를 작성할 때 다음 4가지 원칙을 적용합니다.
- 각 H2 섹션 첫 문장은 정의문 또는 단정형 결론으로 시작
- 한 청크 안에 정의 + 근거 + 출처를 함께 배치
- FAQPage Schema 로 자주 묻는 질문을 별도 인용 단위로 분리
- 외부 데이터는 출처 명시 (Adobe, Forrester, Gartner 등)
이 글에서 기억할 4가지
- AI 는 두 경로 (Pre-training · RAG) 로 콘텐츠를 인용한다.
- 인용 단위는 토큰 청크 (200-500 토큰) 이다.
- 인용을 결정하는 3축은 권위성 · 구조화 · 명확성이다.
- 같은 정보라도 Answer-first + Schema 구조일 때 인용률이 3배 이상 차이난다.