robots.txt는 웹사이트 루트에 위치하는 텍스트 파일로, 검색엔진 크롤러에게 어떤 페이지를 크롤링해도 되는지 지시합니다. 잘못된 설정은 백링크의 가치를 무효화할 수 있습니다.robots.txt 이해하기
robots.txt 기본 문법
User-agent: *
Disallow: /admin/
Disallow: /private/
Allow: /public/
User-agent: Googlebot Disallow: /no-google/
Sitemap: https://example.com/sitemap.xml
robots.txt와 백링크 관계
| 상황 | 결과 |
|---|---|
| 백링크 페이지 Disallow | 크롤러가 페이지 접근 불가 → 링크 가치 전달 안 됨 |
| 링크 대상 페이지 Disallow | 해당 페이지 인덱싱 안 됨 → 순위 획득 불가 |
| 사이트 전체 Disallow | 모든 백링크 가치 무효 |
| 정상 설정 | 백링크 가치 정상 전달 |
흔한 robots.txt 실수
- 실수로 전체 차단: Disallow: / (모든 크롤링 차단)
- 중요 페이지 차단: 백링크 많은 페이지 실수로 차단
- CSS/JS 차단: 렌더링에 필요한 리소스 차단
- 사이트맵 누락: Sitemap 위치 미기재
- 백링크 페이지 확인: 백링크 받은 페이지가 차단되지 않았는지 확인
- 주요 페이지 허용: 중요 콘텐츠 페이지는 반드시 크롤링 허용
- CSS/JS 허용: 렌더링에 필요한 리소스 허용
- 불필요한 페이지만 차단: 관리자, 로그인, 중복 페이지 등
- Google Search Console: robots.txt 테스터 도구
- URL 검사: 특정 URL의 크롤링 가능 여부 확인
- 로컬 테스트: robots.txt 파싱 도구 사용
robots.txt vs noindex
| 특성 | robots.txt Disallow | noindex |
|---|---|---|
| 크롤링 | 차단 | 허용 |
| 인덱싱 | 불확실 (외부 링크로 인덱싱 가능) | 확실히 제외 |
| 링크 가치 | 페이지 접근 불가 시 전달 안 됨 | 전달 가능 |
| 권장 용도 | 리소스 절약, 크롤 예산 관리 | 인덱싱 확실히 제외 |
백링크 관점의 robots.txt 최적화
robots.txt 테스트
robots.txt 권장 설정
User-agent: *
Disallow: /admin/
Disallow: /login/
Disallow: /checkout/
Disallow: /search?
Allow: /Sitemap: https://example.com/sitemap.xml
크롤 예산과 백링크
크롤 예산이 제한되면 모든 백링크 페이지가 크롤링되지 않을 수 있습니다:
- 불필요한 페이지 차단으로 예산 절약
- 중요 페이지에 예산 집중
- 사이트맵으로 우선순위 안내
댓글
0