Etc./네?

에브리타임 해킹ㅋ

알맹리 2021. 1. 27. 16:29

ChoiRhee/Everytime_timetable

Contribute to ChoiRhee/Everytime_timetable development by creating an account on GitHub.

github.com

 

시각화 과제를 위해.... 주제를 생각하다가 이제 곧 수강신청이니까 강의목록을 함 해봐야겠다!! 싶었습니다. 

 

 

에브리타임에 들어갔습니다. 전 당연히 로그인이 되어 있으니 그냥 시간표 보는 링크만 띡 올려놓고 강의 정보만 긁어오면 그만이라는 생각을 했습니다.. 근데 그게 아니었어요.

제 힘들었던 하루를 잊지 않기 위해 글로 남깁니다...

 

 

 

올려도 되는건지 모르겠지만 문제 없겠죠,,,

 

plan 1

1. 강의 목록 열기

2. 구분: 심교로 바꾸기

3. 강의 긁어오기

 

는 실패했씁니다. 로그인을 해야했고, 로그인을 하니 광고가 떴습니다.. 그래도 그건 별거 아니었어요. 

 

plan 2

1. 로그인

2. 광고 닫기

3. 강의 목록 열기

4. 구분: 심교로 바꾸기

4. 강의 긁어오기

 

이거도 실패했습니다. 강의 목록을 긁어오지만, 화면에 보이는 강의만 가져왔어요. 

강의목록을 가져오기 위해 우선 스크롤을 끝까지 내려야 했고, 전 그걸 모르겠어서 엄청나게 구글링을 하다가 찾아냈습니다.

 

plan 3

1. 로그인

2. 광고 닫기 

3. 강의 목록 열기

4. 구분: 심교로 바꾸기

5. 스크롤 끝까지 내리기

6. 강의 긁어오기

 

여기서 뒤통수를 크게 맞았습니다. 졸라 얼얼해요. ㅋㅋ 

[과목번호, 강의명, 학점, 교수님, 시간, 영역, 별점]을 긁어오려 했습니다. ㅈ밥인 줄 알았죠 ㅋㅋ

나머지는 그냥 다 했는데 에타 별점 긁어오기가 너무 어려웠씁니다.... 

 

 

보이나요? 다른 애들은 그냥 td를 순서대로 .text 찍어서 가져오면 됐습니다. 

근데 별점 이 미친자식은 태그 사이에 글이 없어서 .text 로 절대 아무것도 가져올수가 없습니다..... 해봐야 ''가 나와요

 

 

 

 

그래서 새로운 방법을 찾아내서 성공했습니다. 검색하다 찾은 위키독스가 절 살려냈씁니다. 

find를 써서 td 안의 a태그를 찾아서 그 태그를 저장하고, 태그에서 제가 필요했던 별점 점수를 따로 빼서 봅니다.

 

 

 

크롤링은 정말 괴롭고 즐겁습니다......

어제 5시간 고민하던걸 오늘 컴터 키고 30분만에 성공해내니까 허탈하기도 한데 아무튼 성공했으니까요~~

 

 

에타 크롤링을 하고 싶은 사람들이 와서 구경하고 갔으면 좋겠습니다...

'Etc. > 네?' 카테고리의 다른 글

[Predict Future Sales] Feature engineering, xgboost  (0) 2021.03.05
엔트로피...  (2) 2021.01.29
softmax에서 e 쓰는 이유  (0) 2021.01.23
밤이 너무 길어요!  (0) 2020.12.13
C  (0) 2020.07.01