Python (13) 썸네일형 리스트형 공공데이터 포털 OpenAPI _ 국민연금공단 데이터 가져오기 원티드랩이나 사람인 등 취업정보 사이트를 보면 사업자별로 근무자수, 평균연봉 등 기본적인 기업 정보를 제공하고 있는 것을 볼 수 있다. 이때 자세히 보면 '국민연금' 이라는 글씨를 찾을 수 있다. 해당 데이터들의 제공처는 국민연금이라는 것이다. 지금 회사에서 사업자별 데이터를 처리해 로컬 DB에 저장해 활용하고자 하는 계획을 세우면서 작업을 시작했다. 우선 가장 먼저 해야할 일은 공공 데이터 포털에 가입 및 로그인 그리고 해당 데이터를 신청하는 것이다. https://www.data.go.kr/tcs/dss/selectFileDataDetailView.do?publicDataPk=15083277 국민연금공단_국민연금 가입 사업장 내역_20210924 (국민연금가입수급정보) 법정동단위 지역별, 국민연금 가.. SMOTE : Over Sampling 요즘 DACON 문제를 풀고 있다. https://dacon.io/competitions/official/235689/overview/ 운동 동작 분류 AI 경진대회 출처 : DACON - Data Science Competition dacon.io 해당 문제를 풀면서 과적합이 일어났고, 모델 성능을 높이기 쉽지 않았다. 그 문제가 데이터의 부족은 아니였을까 하는 생각에 Over Sampling 을 시도했다. 신용카드 사기 등 이상값을 검출하는 모델을 구상할 때, "이상" 레이블 데이터에 비해 "정상" 레이블 데이터가 지나치게 많을 경우, 모델이 정상 레이블을 검출하는 것에 초점이 맞춰진다. '이상'이라고 한 만큼 데이터의 부족이 있을 수 밖에 없지만 레이블의 불균형은 모델.. Mac에 MariaDB 설치하기 "파이썬 금융데이터분석" 이라는 책을 보고 있다. 사실 금융데이터를 수집하는 것도 Mac에서 하는 게 쉽지 않아서 따라하는 것 조차 힘들다. 증권사에서 제공하고 있는 API를 Mac에서는 사용할 수 없기 때문... 그래도 할 수 있는 부분들이라도 해보려고 노력중이다. 5장은 시세DB를 구축하는 파트가 나온다. 주가 데이터를 일별로 수집해서 데이터 베이스에 저장하는 것이다. 이를 위해 MariDB를 사용한다. MariaDB는 오픈소스 관계형 데이터베이스 관리시스템(RDBMS)이다. 예전에 윈도우에서 MangoDB를 설치한 이후 DB 시스템을 처음 사용해보는 것 같다. 책에 나와 있는 방식은 사이트에 접속해서 설치하는 방식이었으나, Mac의 경우 터미널에서 brew 를 통해 설치가 가능했다. 준비 사항 : .. 선형 회귀 모델 선형 회귀 모델은 실제 값과 예측 값의 차이(오류의 제곱값)를 최소화하는 최적화된 직선형 회귀선을 찾는 방식. 규제(Regularization) 방법에 따라 별도의 유형으로 분류 가능. 규제란 일반적인 선형 회귀의 과적합 문제를 해결하기 위해 회귀 계수에 패널티 값을 적용하는 것. 선형 회귀 모델 종류 - 일반 선형 회귀 : 규제를 적용하지 않은 베이직 모델 - 릿지(Ridge) : 선형회귀에 L2 규제를 추가한 회귀 모델. L2 규제는 상대적으로 큰 회귀 계수 값의 예측 영향도를 감소시키기 위해 회귀 계수 값을 더 작게 만드는 규제 방식. - 라쏘(Rasso) : L1 규제를 적용한 방식. 예측 영향력이 작은 피처의 회귀 계수를 0으로 만들어 회귀 예측 시 피터가 선택되지 않게 하는 것. 피처 선택 기.. Mac에 Xgboost 설치하기 (Python 버전 3.8 ) 현재 파이썬을 활용해 머신러닝을 공부하고 있다. 머신러닝 모델 중 Xgboost를 사용하기 위해 local에 설치를 시도 했다. 구글링을 해보면 터미널에 아래의 코드를 치면 설치가 쉽다는 것을 찾을 수 있었다. conda install -c anaconda py-xgboost 하지만 터미널 결과에서 알 수 있듯이 해당 코드는 python = 3.8 인 버전에서는 사용이 불가능한 코드였다. 그렇지만 찾아보니 더 쉬운 방법이 있었다. pip install xgboost 처음 시도한 코드는 아나콘다를 활요한 코드였다면 이건 pip 을 활용해 설치하는 방식이었다. 그리고 다행히 Xgboost 설치가 완료되었다. 터미널에서 설치 완료 후 jupyter-lab 에서 xgboost 모델을 사용하기 위해 import를.. 이전 1 2 다음