닫기

PROFESSIONAL AI DEVELOPER CHAGAUN

업무자동화 솔루션

레시피

HOME 업무자동화 솔루션 레시피
네이버 카페 아이디 목록 추출 레시피
2022.02.16

안녕하세요, 차가운 운영자입니다.


클리커를 통해 업무자동화(RPA)를 위한 다양한 레시피를 만들어 공개를 하고 있는데요


오늘은 네이버 카페의 아이디를 추출해 보는 레시피를 만들어 보았습니다.




[개요]


1. 네이버의 카페에 가서 '주제별' 카테고리로 이동한 후 '게임 전체'를 선택한 후 하단에 나오는 카페 목록(18개)를 하나씩 읽어 거기에 있는 카페아이디를 추출합니다.


2. 다음 페이지를 계속 클릭해 가면서 더 이상 페이지가 존재하지 않을 때까지 아이디를 추출합니다.


3. 각 페이지에서 추출한 카페 경로에서 아이디만을 따로 떼어내어 별도의 컬럼에 저장한 후 csv 파일에 append하여 저장합니다.



[사용방법]


1. 먼저 클리커를 설치하지 않은 경우 차가운 홈 페이지(https://chagaun.net)에 가셔서 클리커를 다운로드 받으시고요


2. 설치 후 바탕화면에 생성된 클리커 아이콘 실행합니다.


3. 그리고 아래에 첨부된 '네이버_로그인_테스트.json' 파일을 다운로드 받아 클리커가 설치된 곳에서 recipe 폴더에 가져다 놓습니다.


c:\chagaun\klicker\data\recipe 


탑재된 레시피를 보시면 각 유닛마다 주석이 달려 있어 해당 유닛이 어떤 역할을 하는지 쉽게 파악하실 수 있습니다.


주요 스크립트 부분을 소개하면 다음과 같습니다.


[15.스크립트]


# 추출된 href로부터 아이디만을 추출하여 'id'라는 컬럼 생성 u14.df_result=u14.df[u14.df.href != ''] # 공백인 행 제거 u14.id_list=list() # 추출된 href리스트로부터 하나씩 읽어 아이디 리스트에 추가 for path in u14.df_result['href']: if path.find('/') >= 0: u14.id_list.append(path.split('/')[-1]) else: u14.id_list.append('') # 아이디리스트를 데이터프레임의 컬럼에 추가 u14.df_result['id']=u14.id_list


=>
1. 추출된 모든 데이터들은 해당 유닛의 dataframe에 저장이 됩니다. 따라서 14번 유닛에서 추출된 데이터들은 모두 u14.df라는 dataframe에 저장이 되어 있습니다.

2. 먼저 u14.df에서 href가 공백인 dataframe을 제거하 결과를 u14.df_result라는 dataframe에 저장이 됩니다.

3. u14.df_result['href'] 에 저장된 path를 하나씩 읽어서 경로의 끝에 있는 카페 아이디만을 추출하여
u14.id_list라는 list에 append합니다.

4. 모든 아이디들을 추출한 후 u14.id_list을 'id'라는 컬럼으로 u14.df_result에 추가를 합니다.


[16.스크립트]


# 추출된 카페아이디 목록을 csv 파일로 저장

u14.file_name='@OPATH/naver_cafeid_' + datetime.now().strftime('%y%m%d') + '.csv'

header = False if os.path.isfile(u14.file_name) else True # 헤더를 출력할 것인지 여부

u14.df_result.to_csv(u14.file_name, mode='a', header=header, index=False, encoding='utf-8')



=>

1. 오늘 날짜를 구하여 저장할 파일 명을 만듭니다.


2. 저장할 파일이 없는 경우 헤더를 출력하도록 설정합니다.


3. u14.df_result 라는 dataframe을 파일에 저장합니다.



감사합니다.




data/2022/08/27/네이버_카페_아이디목록추출_220827.json

전체목록