Python/NLP용 python
-
웹 스크래핑 기초: 소스코드 읽기와 태그 찾기Python/NLP용 python 2021. 10. 23. 17:52
*본 게시물은 21-2학기 연세대학교 일반대학원 온라인데이터수집과분석(이상엽 교수님) 수업 내용을 정리한 것입니다. 웹스크래핑은 흔히 '크롤링'으로 알고 있는 온라인 데이터 수집 방법입니다. 다만 스크래핑은 하나의 웹 페이지에 존재하는 정보를 가져오는 행위인 반면 크롤링은 전체 사이트를 긁어온다는 점에서 차이가 있습니다. 웹에는 굉장히 많은 데이터가 존재합니다. 웹 페이지들로 구성된 홈페이지는 서버에서 raw data인 소스코드를 받아서 사용자들에게 예쁘게 보여주는 역할을 합니다.(raw data인 소스코드는 chrome > '페이지 소스 보기'로 확인 가능합니다.) 소스코드는 다양한 language들로 작성됩니다. 특히 html이 많이 쓰입니다. html 소스코드는 특히 여러개의 태그로 구성됩니다. 가..
-
file read and write 코드Python/NLP용 python 2021. 10. 23. 12:13
*본 게시물은 21-2학기 연세대학교 일반대학원 온라인데이터수집과분석(이상엽 교수님) 수업 내용을 정리한 것입니다. 약 2년 가량 자연어 처리 코드들을 만지면서 제일 많이 접했던 코드는 파일(주로 말뭉치)을 읽어오거나 쓰는 것(주로 전처리한 내용들)이었습니다. BUT 해도해도 맨날 헷갈림 ㅋㅋㅋ 수업 내용 정리할 겸 계속 기억해놓을 겸 정리하려고 합니다. 1. 파일 열고 읽기(open and 'r'ead) 일단 파일을 읽어오는 함수 open()이 있습니다. 이 open()은 인자로 '파일 이름/경로', 와 '모드'를 받습니다. 가령 test.txt라는 파일이 있습니다. 이 파일은 다음과 같은 내용을 담고 있습니다. -------------------- 1 2 3 4 5 -------------------..