Skip to Content
💻 코리아IT아카데미 신촌 - 프로그래밍 학습 자료
Python 프로그래밍Unit 10: 웹 크롤링 입문Topic 3: 개발 환경 설정하기

Topic 3: 개발 환경 설정하기 🛠️

🎯 학습 목표

웹 크롤링을 시작하기 전에 개발 환경을 깔끔하게 준비해요!

  • 가상환경(venv)이 무엇인지 이해하기
  • 가상환경 만들고 사용하기
  • pip로 라이브러리 설치하기
  • requests와 beautifulsoup4 설치하기

🤔 가상환경이란 무엇일까요?

왜 가상환경이 필요한가요?

파이썬 프로젝트를 할 때 이런 상황을 상상해보세요:

프로젝트 A: requests 2.0 버전 필요 프로젝트 B: requests 3.0 버전 필요 😱 어떻게 해야 할까요?

**가상환경(Virtual Environment)**은 각 프로젝트마다 독립된 파이썬 환경을 만들어줘요!

가상환경의 장점

  1. 프로젝트별 독립성: 각 프로젝트가 서로 영향 없이 작동
  2. 버전 관리: 프로젝트마다 다른 버전의 라이브러리 사용 가능
  3. 깔끔한 관리: 필요한 라이브러리만 설치
  4. 배포 편의성: 프로젝트에 필요한 것만 정확히 파악

가상환경 비유하기

가상환경은 각자의 방을 만드는 것과 같아요:

🏠 집 (컴퓨터) ├── 🚪 방1 (프로젝트 A 가상환경) │ ├── 📚 책장 (requests 2.0) │ └── 🖥️ 책상 (beautifulsoup4) ├── 🚪 방2 (프로젝트 B 가상환경) │ ├── 📚 책장 (requests 3.0) │ └── 🎮 게임기 (pandas) └── 🏢 거실 (시스템 파이썬) └── 📺 TV (기본 라이브러리)

📦 가상환경 만들기

1단계: 프로젝트 폴더 만들기

먼저 크롤링 프로젝트를 위한 폴더를 만들어요:

# Windows 명령 프롬프트 mkdir web_crawling cd web_crawling # Mac/Linux 터미널 mkdir web_crawling cd web_crawling

2단계: 가상환경 생성하기

# 가상환경 만들기 (venv라는 이름으로) python -m venv venv # 또는 다른 이름으로 만들기 python -m venv my_env

명령어 설명:

  • python -m venv: 파이썬의 venv 모듈 실행
  • venv (마지막): 가상환경 폴더 이름

폴더 구조 확인

가상환경을 만들면 이런 구조가 생겨요:

web_crawling/ └── venv/ ← 가상환경 폴더 ├── Scripts/ (Windows) 또는 bin/ (Mac/Linux) ├── Include/ ├── Lib/ └── pyvenv.cfg

🔌 가상환경 활성화하기

가상환경을 사용하려면 활성화해야 해요!

Windows에서 활성화

# 명령 프롬프트 (cmd) venv\Scripts\activate # PowerShell venv\Scripts\Activate.ps1 # PowerShell에서 오류가 나면? # 관리자 권한으로 PowerShell 실행 후: Set-ExecutionPolicy -ExecutionPolicy RemoteSigned -Scope CurrentUser

Mac/Linux에서 활성화

# bash/zsh 터미널 source venv/bin/activate # 또는 . venv/bin/activate

활성화 확인하기

활성화되면 프롬프트가 바뀌어요:

# 활성화 전 C:\web_crawling> # 활성화 후 (venv) C:\web_crawling> (venv)가 추가됨!

가상환경 비활성화

작업이 끝나면 비활성화할 수 있어요:

deactivate

📚 pip 사용법 기초

pip는 파이썬 패키지 관리자예요. 라이브러리를 설치/삭제/업데이트할 때 사용해요!

pip 기본 명령어

# 라이브러리 설치 pip install 라이브러리이름 # 특정 버전 설치 pip install 라이브러리이름==2.0.0 # 업그레이드 pip install --upgrade 라이브러리이름 # 삭제 pip uninstall 라이브러리이름 # 설치된 목록 보기 pip list # 패키지 정보 보기 pip show 라이브러리이름

pip 업그레이드하기

pip 자체를 최신 버전으로 업그레이드:

# Windows python -m pip install --upgrade pip # Mac/Linux pip install --upgrade pip

🚀 크롤링 라이브러리 설치하기

이제 웹 크롤링에 필요한 라이브러리를 설치해봐요!

1. requests 설치

requests는 웹페이지를 가져오는 라이브러리예요:

# 가상환경이 활성화된 상태에서 pip install requests

설치 확인:

# Python 인터프리터에서 import requests print(requests.__version__) # 2.31.0 같은 버전이 출력되면 성공!

2. BeautifulSoup 설치

BeautifulSoup은 HTML을 분석하는 라이브러리예요:

# beautifulsoup4로 설치해요 (4는 버전) pip install beautifulsoup4 # 빠른 파서도 함께 설치 (선택사항) pip install lxml

설치 확인:

# Python 인터프리터에서 from bs4 import BeautifulSoup print("BeautifulSoup 설치 완료!")

📝 requirements.txt 만들기

프로젝트에서 사용하는 라이브러리 목록을 저장해두면 좋아요!

requirements.txt 생성

# 현재 설치된 패키지 목록 저장 pip freeze > requirements.txt

requirements.txt 내용 예시:

beautifulsoup4==4.12.2 certifi==2023.7.22 charset-normalizer==3.2.0 idna==3.4 requests==2.31.0 urllib3==2.0.4

requirements.txt로 설치하기

다른 컴퓨터나 새로운 가상환경에서:

# requirements.txt의 모든 패키지 설치 pip install -r requirements.txt

🧪 설치 테스트하기

모든 것이 제대로 설치되었는지 확인해봐요!

테스트 스크립트 만들기

test_install.py 파일을 만들어요:

# test_install.py print("🔍 라이브러리 설치 확인 중...") print("=" * 40) # requests 확인 try: import requests print("✅ requests 설치됨:", requests.__version__) except ImportError: print("❌ requests가 설치되지 않았어요") # BeautifulSoup 확인 try: from bs4 import BeautifulSoup print("✅ BeautifulSoup 설치됨") except ImportError: print("❌ BeautifulSoup이 설치되지 않았어요") # lxml 확인 (선택사항) try: import lxml print("✅ lxml 설치됨 (빠른 파서)") except ImportError: print("⚠️ lxml 미설치 (선택사항)") print("=" * 40) # 간단한 테스트 if 'requests' in dir() and 'BeautifulSoup' in dir(): print("\n🎉 모든 필수 라이브러리가 준비되었어요!") print("이제 웹 크롤링을 시작할 수 있습니다!") else: print("\n⚠️ 일부 라이브러리가 누락되었어요.") print("위의 오류 메시지를 확인해주세요.")

테스트 실행

python test_install.py

🔧 문제 해결 가이드

자주 발생하는 문제들

1. “python이 인식되지 않습니다”

# Python 3.x가 설치된 경우 python3 -m venv venv # 또는 전체 경로 사용 C:\Python39\python.exe -m venv venv

2. PowerShell 실행 정책 오류

# 관리자 권한으로 실행 Set-ExecutionPolicy -ExecutionPolicy RemoteSigned -Scope CurrentUser

3. pip 설치 오류

# pip 업그레이드 python -m pip install --upgrade pip # 캐시 삭제 후 재설치 pip cache purge pip install requests

4. SSL 인증서 오류

# 신뢰할 수 있는 호스트 지정 pip install --trusted-host pypi.org --trusted-host files.pythonhosted.org requests

💡 가상환경 팁

1. .gitignore 설정

가상환경 폴더는 Git에 올리지 않아요:

.gitignore 파일:

venv/ env/ *.pyc __pycache__/ .idea/ .vscode/

2. VS Code에서 가상환경 사용

  1. VS Code 열기
  2. Ctrl+Shift+P (명령 팔레트)
  3. “Python: Select Interpreter” 선택
  4. venv 폴더의 python.exe 선택

3. 가상환경 이름 규칙

일반적인 이름들:

  • venv (가장 보편적)
  • env
  • .venv (숨김 폴더)
  • 프로젝트명_env

✅ 개발 환경 설정 체크리스트

✅ 개발 환경 설정 체크리스트

🚀 다음 단계

개발 환경이 준비되었나요? 이제 requests 라이브러리로 실제 웹페이지를 가져오는 방법을 배워볼게요!

Last updated on