Web Scraping with Nokogiri
Web Scraping(웹 크롤링) - 노코기리 잼을 이용하여 파싱해보기
이 문서는 웹 크롤링이라는 주제에 대해서 처음 접하는 분들을 위해 제작한 튜토리얼입니다.
작성을 하고 있는 필자도 그저 일반 대학생이기 때문에 튜토리얼을 만들어 배포하는 것이 건방지다고 느껴질 수도 있지만, 많은 사람들이 크롤링에 관하여 궁금해 하고 정보를 얻는 것도 쉽지 않기 때문에 작성하게 되었습니다.
처음에 블로그를 통해서 배포를 한 후에 1000명 가까이 되는 분들이 관심을 가져주셔서, Gitbook에 몇몇 부분을 개정하여 다시 배포하려고 합니다. 이 튜토리얼을 통해서 배울 수 있는 것은 다음과 같습니다.
이 튜토리얼에서 배울 수 있는 것들?
- 웹 크롤링 개념에 대해 알아볼 수 있다.
- 다양한 언어로 접근할 수 있도록 기초 개념을 다진다.
- Ruby on Rails의 사용법을 간단히 살펴볼 수 있다.
- Nokogiri 잼을 이용하여 파싱하는 작업을 체험해볼 수 있다.
- 개발환경 구축부터 서버 동작까지 모든 과정을 가볍게 다뤄볼 수 있다.
- Crontab에 job을 등록하는 방법에 대해 배울 수 있다.
- Nokogiri와 Rails로 파싱 작업을 할 때 자주 발생하는 버그나 이슈를 해결할 수 있다.
참고로 이 튜토리얼의 목적은 특정 언어의 특징이나 프레임워크의 장점을 소개하는 것은 아닙니다. 그러므로 "이런 방법이 있구나." 정도로만 알고 넘어가고 만약 선호하는 개발 언어나 툴이 있다면, 개념을 익히고 다른 방법으로 다시 접근해보시길 바랍니다.
문의 사항이나 관련 질문이 있다면, 아래 이메일로 문의하시면 바로 답변을 드리고 있습니다.
([email protected])
그럼 시작합니다~ :D...