timeout 5초 추가

2022-06-03 12:28:58 +09:00
parent c5848ebadc
commit 5774a6eaf0
8 changed files with 87 additions and 34 deletions
--- a/stockpredictor/crawler/toSQLite/MetaCrawler.py
+++ b/stockpredictor/crawler/toSQLite/MetaCrawler.py
@@ -46,7 +46,7 @@ class MetaCrawler:
            finish = False
            for i in range(1, self.limit_page_count):
                #html = pd.read_html(input['URL'] + '&page=%s' % i, header=0)
-                html = pd.read_html(requests.get(input['URL'] + '&page=%s' % i, headers=self.header).text)
+                html = pd.read_html(requests.get(input['URL'] + '&page=%s' % i, headers=self.header, timeout=5).text)

                # 마지막 페이지 까지 받기
                if len(html[0].날짜.values) <= 1:
@@ -125,7 +125,7 @@ class MetaCrawler:
        finish = False
        for i in range(1, self.limit_page_count):
            #html = pd.read_html(url + str(i), header=0)
-            html = pd.read_html(requests.get(url + str(i), headers=self.header).text)
+            html = pd.read_html(requests.get(url + str(i), headers=self.header, timeout=5).text)

            # 마지막 페이지 까지 받기
            if len(html[0].날짜.values) <= 2:
@@ -190,7 +190,7 @@ class MetaCrawler:
        finish = False
        for i in range(1, self.limit_page_count):
            #html = pd.read_html(url + str(i), header=0, encoding='euc-kr')
-            html = pd.read_html(requests.get(url + str(i), headers=self.header).text, encoding='euc-kr')
+            html = pd.read_html(requests.get(url + str(i), headers=self.header, timeout=5).text, encoding='euc-kr')

            # 마지막 페이지 까지 받기
            if len(html[0].날짜.values) <= 10:
@@ -264,7 +264,7 @@ class MetaCrawler:
            finish = False
            for i in range(1, self.limit_page_count):
                #html = pd.read_html(input['URL'] + '&page=%s' % i, header=0)
-                html = pd.read_html(requests.get(input['URL'] + '&page=%s' % i, headers=self.header).text)
+                html = pd.read_html(requests.get(input['URL'] + '&page=%s' % i, headers=self.header, timeout=5).text)

                # 마지막 페이지 까지 받기
                if len(html[0].날짜.values) <= 1:
--- a/stockpredictor/crawler/toSQLite/StockCrawler.py
+++ b/stockpredictor/crawler/toSQLite/StockCrawler.py
@@ -75,7 +75,7 @@ class StockCrawler:

 	def getStockInfo(self):
 		#code_df = pd.read_html('http://kind.krx.co.kr/corpgeneral/corpList.do?method=download&searchType=13', header=0)[0]
-		code_df = pd.read_html(requests.get('http://kind.krx.co.kr/corpgeneral/corpList.do?method=download&searchType=13', headers=self.header).text)[0]
+		code_df = pd.read_html(requests.get('http://kind.krx.co.kr/corpgeneral/corpList.do?method=download&searchType=13', headers=self.header, timeout=5).text)[0]
 		# code_df = pd.read_excel('../resources/stock/상장법인목록.xls')

 		# 종목코드가 6자리이기 때문에 6자리를 맞춰주기 위해 설정해줌
@@ -228,7 +228,7 @@ class StockCrawler:
 			# 최근 상장 기업의 마지막 반복되는 페이지를 제외시킨다.
 			pg_url = '{url}&page={page}'.format(url=url, page=page)
 			#html = pd.read_html(pg_url, header=0)
-			html = pd.read_html(requests.get(pg_url, headers=self.header).text)
+			html = pd.read_html(requests.get(pg_url, headers=self.header, timeout=5).text)
 			for date in html[0].날짜.values:
 				if type(date) is str:
 					if date in date_set: