노현진's Blog

sitemap.xml과 robots.txt

sitemap.xml과 robots.txt에 대해 정리한 페이지입니다.

Posted
Preview Image
By HyunJinNo

Tags

sitemap, robots.txt

1. 개요

sitemap.xmlrobots.txt에 대해 정리한 페이지입니다.

2. sitemap.xml

2.1. 개념

sitemap.xml은 웹 사이트의 모든 중요 페이지들의 URL 목록을 XML 형식으로 작성한 파일입니다. 이는 검색 엔진 크롤러에게 사이트 내 페이지들의 구조와 업데이트 정보를 제공하여 검색 엔진 크롤러가 사이트를 효율적으로 크롤링하고 인덱싱할 수 있도록 돕습니다.

2.2. 주요 특징

sitemap.xml의 주요 특징은 다음과 같습니다.

  • 검색 엔진 최적화(SEO)
    검색 엔진이 사이트의 구조를 더 잘 이해할 수 있도록 하여 새로운 내용이나 갱신된 페이지가 빠르게 인덱싱되도록 지원합니다.
  • 사이트 구조 노출
    페이지 간의 계층 구조, 우선순위(Priority), 변경 빈도(Change Frequency) 등의 정보를 제공하여 검색 엔진이 중요 페이지를 더 잘 파악할 수 있게 합니다.

2.3. 구성 요소

sitemap.xml의 구성 요소는 다음과 같습니다.

xml
1<?xml version="1.0" encoding="UTF-8"?>
2<urlset
3      xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"
4      xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
5      xsi:schemaLocation="http://www.sitemaps.org/schemas/sitemap/0.9
6            http://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd">
7<url>
8  <loc>https://hyunjinno.github.io/</loc>
9  <lastmod>2025-04-08</lastmod>
10  <changefreq>weekly</changefreq>
11  <priority>1.0</priority>
12</url>
13<url>
14  <loc>https://hyunjinno.github.io/categories/</loc>
15  <lastmod>2025-04-08</lastmod>
16  <changefreq>weekly</changefreq>
17  <priority>0.5</priority>
18</url>
19</urlset>
태그설명예시
<urlset>여러 개의 <url> 요소를 감싸는 최상위 요소
<url>각각의 페이지 정보를 담는 요소
<loc>페이지의 절대 URLhttps://www.example.com/
<lastmod>마지막 수정 날짜 (형식: YYYY-MM-DD)2025-04-11
<changefreq>변경 빈도always hourly daily weekly monthly yearly never
<priority>우선순위0.0 ~ 1.0 (기본값: 0.5)

Caution

changefreqpriority는 필수가 아니며, 검색 엔진이 이를 반드시 따르지는 않습니다.

3. robots.txt

3.1. 개념

robots.txt은 웹 사이트의 최상위 경로(Ex. https://www.example.com/robots.txt)에 위치시키는 텍스트 파일로, 검색 엔진 크롤러에게 sitemap.xml 파일의 위치를 알려주고, 어떤 페이지나 섹션을 크롤링해도 되는지, 또는 크롤링하지 말아야 하는지를 지시하는 역할을 합니다.

3.2. 주요 특징

robots.txt의 주요 특징은 다음과 같습니다.

  • 크롤링 제어
    민감 정보가 포함된 영역이나, 중복 컨텐츠, 또는 낮은 가치의 페이지 등을 검색 엔진이 크롤링하지 않도록 차단할 수 있습니다.
  • 크롤링 허용/차단
    특정 크롤러에 대해 크롤링을 허용할지, 또는 차단할지 제한할 수 있습니다.

3.3. 구성 요소

robots.txt의 구성 요소는 다음과 같습니다.

plaintext
1User-agent: *
2Disallow: /assets/
3Allow: /
4
5Sitemap: https://hyunjinno.github.io/sitemap.xml
요소설명예시
User-agent크롤링을 허용할 검색 엔진 설정User-agent: * (모든 검색 엔진에 대해 크롤링 허용)
Disallow크롤링 대상에서 제외할 경로Disallow: /assets/ (/assets 경로에 속하는 모든 페이지를 크롤링 대상에서 제외)
Allow크롤링 대상에 포함할 경로Allow: / (모든 페이지를 크롤링 대상으로 설정)
Sitemapsitemap.xml 파일의 위치 지정Sitemap: https://hyunjinno.github.io/sitemap.xml

Caution

robots.txt은 크롤러에 대한 접근 지침일 뿐이므로, 검색 엔진이 이를 반드시 따르지는 않습니다.

4. 참고 자료

© HyunJinNo. Some rights reserved.