PROFESSIONAL AI DEVELOPER CHAGAUN
텍스트
텍스트
텍스트
텍스트
텍스트
PROFESSIONAL AI DEVELOPER CHAGAUN
안녕하세요, 차가운 운영자입니다.
쿠팡(https://coupang.com)은 카테고리별로 다양한 상품들을 진열해 놓고 있습니다.
그러한 다양한 상품을 판매하는 사업자 정보를 추출해 보겠습니다.
추출 대상 : 브랜드명, 벤더명, 제조자(수입업자)
아래는 쿠팡_사업자명_추출 레시피를 탑재한 클리커 화면입니다.
쿠팡에서 사업자 정보를 추출하는 절차는 다음과 같습니다.
1. 차가운 홈 페이지(https://chagaun.net)에 가셔서 클리커를 다운로드 받습니다.
2. 설치 후 바탕화면에 생성된 클리커 아이콘 실행합니다.
3. 'c:\chagaun\klicker\data\inputs\ 로 폴더를 이동하셔서
새파일을 눌러서 coupang_categories.csv ' 파일을 저장합니다.
엑셀파일 생성 후 최종경로 : 'c:\chagaun\klicker\data\inputs\coupang_categories.csv
4. CSV파일 오픈
CSV파일을 열어 아래 캡쳐대로 URL을 기입합니다.
아래 목록 시작
url
https://www.coupang.com/np/categories/498704
https://www.coupang.com/np/categories/498775
https://www.coupang.com/np/categories/498797
4. 위 목록을 보시면 특정 카테고리에서 3 개의 URL만 모았는데요. 직접 위의 파일에 추가도 하실 수 있습니다.
예를 들어 추가를 하는 방법은 다음과 같습니다.
https://coupang.com->카테고리->뷰티->명품뷰티 를 오른쪽 마우스를 눌러 '링크 주소 복사'를 클릭하면 클립보
드에 URL이 저장이 됩니다. 이 URL을 위의 파일에 추가해 놓으면 됩니다.
이러한 방법으로 위 파일에 추출하고자 하는 URL 주소들을 모아둡니다.
5. 그리고 아래에 첨부된 '쿠팡 사업자명_추출_xxxxxx.json' 파일을 다운로드 받아 클리커가 설치된 곳에서 recipe 폴더에 가져다 놓습니다.
c:\chagaun\klicker\data\recipe
6. 다시 실행 중에 있는 클리커에서 로드 버튼을 클릭하여 다운로드 받은 '쿠팡 사업자명_추출_xxxxxx.json.json'을 탑재합니다.
5. 클리커 하단에 있는 '테스크 실행'을 클릭해 보시면 크롬 부라우저가 새로 열리면서 카테고리 주소를 하나씩 서핑해가면서 상품들을 검색하여 사업자 정보를 추출해 나갑니다.
각 카테고리 주소별려 10페이지 까지만 추출을 하는데 레시피를 통해 수정하실 수 있습니다.
수집되는 정보는 브랜드명, 벤더명, 제조사(수입업자)인데요 레시피의 수정을 통해 추가적인 정보를 추출하실 수도 있습니다.
6. 레시피를 탑재한 후 실행을 했을 때 레시피에는 위에서 부터 아래로 순차적으로 수행이 되는데요
레시피의 내용을 간략히 설명드리면 다음과 같습니다.
- 먼저 카테고리별로 저장된 'coupang_categories.csv'을 불러들입니다.
- 위 csv에 저장된 URL을 하나씩 읽어 서핑을 시작합니다.
- 먼저 상품목록 페이지에서 상품코드를 추출하여 목록을 만든 후 세부 페이지에 들어가서 사업자 정보를 추출합니다.
- 각 카테고리마다 10 페이지까지 검색을 하게 되고요 10페이지에 도달한 경우 추출된 정보를 아래의 파일에 저장해 놓습니다.
'C:\ChagaunProject\Klicker\Klicker\data\outputs\coupang_business_info\coupang_business_infos.csv'
계속해서 다음 카테고리 URL을 가지고 크롤링을 계속합니다.
많은 사이트들이 보안이 강화되어 짧은 시간에 반복적이 호출을 하는 경우 페이지를 막거나 아이피를 차단하는 등의 조치가 있는 경우가 많습니다.
잘 안되는 경우 아래의 이메일이나 클리커 홈(https://chagaun.net)를 통해 문의하시면 됩니다.
chagaunnet@gmail.net
010-3563-5530
이상입니다.
전체목록