시각화 과제를 위해.... 주제를 생각하다가 이제 곧 수강신청이니까 강의목록을 함 해봐야겠다!! 싶었습니다.
에브리타임에 들어갔습니다. 전 당연히 로그인이 되어 있으니 그냥 시간표 보는 링크만 띡 올려놓고 강의 정보만 긁어오면 그만이라는 생각을 했습니다.. 근데 그게 아니었어요.
제 힘들었던 하루를 잊지 않기 위해 글로 남깁니다...
plan 1
1. 강의 목록 열기
2. 구분: 심교로 바꾸기
3. 강의 긁어오기
는 실패했씁니다. 로그인을 해야했고, 로그인을 하니 광고가 떴습니다.. 그래도 그건 별거 아니었어요.
plan 2
1. 로그인
2. 광고 닫기
3. 강의 목록 열기
4. 구분: 심교로 바꾸기
4. 강의 긁어오기
이거도 실패했습니다. 강의 목록을 긁어오지만, 화면에 보이는 강의만 가져왔어요.
강의목록을 가져오기 위해 우선 스크롤을 끝까지 내려야 했고, 전 그걸 모르겠어서 엄청나게 구글링을 하다가 찾아냈습니다.
plan 3
1. 로그인
2. 광고 닫기
3. 강의 목록 열기
4. 구분: 심교로 바꾸기
5. 스크롤 끝까지 내리기
6. 강의 긁어오기
여기서 뒤통수를 크게 맞았습니다. 졸라 얼얼해요. ㅋㅋ
[과목번호, 강의명, 학점, 교수님, 시간, 영역, 별점]을 긁어오려 했습니다. ㅈ밥인 줄 알았죠 ㅋㅋ
나머지는 그냥 다 했는데 에타 별점 긁어오기가 너무 어려웠씁니다....
보이나요? 다른 애들은 그냥 td를 순서대로 .text 찍어서 가져오면 됐습니다.
근데 별점 이 미친자식은 태그 사이에 글이 없어서 .text 로 절대 아무것도 가져올수가 없습니다..... 해봐야 ''가 나와요
그래서 새로운 방법을 찾아내서 성공했습니다. 검색하다 찾은 위키독스가 절 살려냈씁니다.
find를 써서 td 안의 a태그를 찾아서 그 태그를 저장하고, 태그에서 제가 필요했던 별점 점수를 따로 빼서 봅니다.
크롤링은 정말 괴롭고 즐겁습니다......
어제 5시간 고민하던걸 오늘 컴터 키고 30분만에 성공해내니까 허탈하기도 한데 아무튼 성공했으니까요~~
에타 크롤링을 하고 싶은 사람들이 와서 구경하고 갔으면 좋겠습니다...
'Etc. > 네?' 카테고리의 다른 글
[Predict Future Sales] Feature engineering, xgboost (0) | 2021.03.05 |
---|---|
엔트로피... (2) | 2021.01.29 |
softmax에서 e 쓰는 이유 (0) | 2021.01.23 |
밤이 너무 길어요! (0) | 2020.12.13 |
C (0) | 2020.07.01 |