연습장

파싱 Parsing 본문

기타

파싱 Parsing

js0616 2024. 7. 26. 15:29

HTML 파싱에서 "파싱"이란 HTML 문서의 구조와 내용을 분석하고 이해하는 과정을 의미합니다.

 

파싱의 세부 과정

  1. 토큰화 (Tokenization):
    • HTML 문서의 원시 문자열을 읽어서 작은 단위인 토큰(token)으로 나누는 과정입니다. 토큰은 HTML 태그, 속성, 텍스트 내용 등이 될 수 있습니다.
    • 예를 들어, <h1>Hello</h1>라는 HTML 문자열을 토큰화하면, <h1>, Hello, </h1>로 나뉩니다.
  2. 구문 분석 (Syntax Analysis):
    • 토큰화된 단위들을 분석하여 HTML 문서의 구조를 파악합니다. 이 과정에서 HTML의 문법 규칙을 적용하여 올바른 구조를 만들도록 합니다.
    • HTML 문서의 태그들이 올바르게 중첩되어 있는지, 태그가 올바르게 닫혀 있는지 등을 검사합니다.
  3. 트리 구조 생성 (Tree Construction):
    • 구문 분석 결과를 기반으로 DOM(Document Object Model) 트리를 생성합니다. DOM 트리는 HTML 문서의 구조를 계층적인 트리 형태로 표현합니다.
    • 트리의 각 노드는 HTML 문서의 요소(태그, 속성, 텍스트 등)를 나타냅니다.
  4. 오류 처리 (Error Handling):
    • HTML 문서에 문법 오류가 있을 경우 이를 처리하는 과정입니다. HTML 파서는 오류가 있어도 문서를 파싱할 수 있도록 설계되어 있으며, 오류를 무시하거나 기본값을 사용하여 계속 파싱을 진행합니다.

 

https://chatgpt.com/

'기타' 카테고리의 다른 글

URI URL URN  (0) 2024.07.27
메모리 구조  (0) 2024.07.27
REST API  (0) 2024.07.26
프로세스와 스레드  (0) 2024.07.25
서브넷과 포트번호  (0) 2024.07.25