검색 엔진의 동작 방식 robots.txt 검색 엔진의 동작 방식 일반적인 검색 엔진이 웹에 존재하는 공개된 문서를 사용자에게 제공하기까지의 처리 순서는 다음과 같습니다. 아주 간략하게는 웹에 공개되어 있는 문서의 링크를 따라가며 문서를 수집(검색 용어로는 이 단계를 크롤(crawl)이라고 부름)하고, 문서에서 단어(토큰)를 추출하여 색인(인덱스)을 만든 다음 사용자가 검색어를 입력하였을 때 미리 만들어 둔 색인에서 관련된 문서를 찾아 제공하는 구조입니다. 검색 로봇이라고 불리는 웹 공개 문서 수집 소프트웨어는 검색 엔진의 첫 번째 단계에서 공개된 질 좋은 문서를 얻기 위해 웹 문서에 포함된 링크를 따라 다른 페이지를 찾아다닙니다. 그런데 웹 문서를 수집하기 전에 반드시 맨 먼저 확인하는 것이 있습니다. 바로 해당 사이트의 어떤 문서를 수집하지 .. 더보기 이전 1 ··· 146 147 148 149 150 151 152 ··· 392 다음