[Programmers, MySQL, Lv.4] 오프라인/온라인 판매 데이터 통합하기
문제
매번 검색하기 귀찮아서 정리해둠
mysqlclient 를 설치하려고 하니 다음과 같은 에러로 설치가 안됐다.
내보내기 전체 스키마 mysqldump -u[아이디] -p[패스워드] [데이터베이스명] > [저장할 경로와 파일명].sql 특정 테이블 mysqldump -u[아이디] -p[패스워드] [데이터베이스명] [테이블명] > [저장할 경로와...
MySQL을 기준으로 합니다. 사칙연산 연산자 의미 +, -, *, / 더하기, 빼기, 곱하기, 나누기 %, MOD 나머지 ...
SQL SQL은 Structured Query Language 의 약자로 관계형 데이터베이스 관리 시스템(RDBMS) 혹은 관계형 데이터 스트림 관리 시스템(RDSMS) 에서 사용되는 언어다. OracleDB, MySQL, MsSQL, PostgreSQL 등의 여러 RDBMS...
Apache Parquet
beautiful soup으로 html을 파싱할 때 다음과 같은 클래스가 있을 때가 있다. <tr class="name with space">
crc32 함수는 어떤 파일이나 id 에 대한 hash 값을 만들어 준다. 해당 데이터의 오류 확인이나 중복검사에 사용할 수 있다. 사용되는 곳 특정 파일이 원본과 다르거나 깨지지 않았는지 확인할 때 사용할 수 있다. 예를 들어 어떤 파일을 다운받았을 때, 파일의 제공자가 ...
크롤러를 만들게 된 이유 게임 판매량을 가지고 분석을 진행하는 프로젝트 진행중 데이터에 출시년도 장르 퍼블리셔 등의 항목이 누락되어 있었다. 300개 정도의 항목이 빠져있었는데 일일이 검색해서 채워넣는건 무리라고 판단해 크롤러를 제작해 보기로 마음먹었다. 클래스 만들기 먼저 ...
위키피디아(wikipeida)에는 페이지를 손쉽게 크롤링 할수 있도록 api를 제공한다. 설치 사용전에 먼저 api를 설치해줘야 한다. IntEnum 을 사용하기 때문에 파이썬 3.4 버전 이상이 필요하다고 한다. 터미널에서 아래 코드로 api를 설치한다. pip insta...
matplotlib에서 그래프의 사이즈를 키우려면 ‘figure’ 함수를 사용한다. 그런데 함수가 아래쪽에 있으면 동작하지 않는다. plt.hist(sample_of_10, alpha=.5); plt.hist(sample_of_100, alpha=.5); plt.axvline(...
itertools의 함수들로 순열 조합을 구현하는 방법. product 원소들의 데카르트곱을 구해준다. 모든 원소가 모든 포지션에 한번씩 들어간다. import itertools A = [1,2,3] res = list(itertools.product(A,repeat=2...
깃허브 블로그를 운영하는 사람중 꽤 많은 사람이 minimal mistakes 테마를 사용하는 것으로 보인다.
World IT Show 4월 21일 코엑스에서 열린 world it show에 다녀왔다. 대기업, 스타트업, 학교 연구실 등등 여러 조직이 참가해 AI, 클라우드, XR, 모빌리티 최신 기술 전시하는 행사였다.
minimal mistakes 테마를 기준으로 작성했는데 다른테마도 비슷한 방식으로 사용 할 수 있을 것이다.
Duck DNS라는 무료 도메인 서비스가 있다. 원하는주소.duckdns.org 으로 주소를 사용할 수 있고 5개까지 등록이 가능하다. 완전히 원하는 주소를 사용할 수는 없지만 ip주소를 그대로 쓰는 것 보다는 낫다.
챗GPT에게 워들 게임을 시켜보았다. 자바스크립트 공부할 겸 워들(wordle) 게임을 만들었는데 이 게임을 챗GPT가 풀 수 있을지 궁금했다.
가상환경 생성
네이버 지도 api 행정 경계 표시하기
ssh로 aws ec2 새로운 인스턴스에 접속하려 하니 아래와 같은 에러가 나왔다. @@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@ @ WARNING: REMOTE HOST IDENTIFICATION HAS CHANG...
우분투 20.04 기준
pdpbox 설치 에러 pdpbox 라이브러리를 사용하기 위해 설치를 시도했는데 다음과같은 오류가 뜨면서 설치가 되지 않았다. ERROR: Could not install packages due to an OSError: [WinError 5] Access is denied:...
정규표현식 ‘+’ 사용 예시 str_test = pd.Series(['11112222^^^^', '^^^^112233^^^^']); str_test_0 = str_test.str.replace(r'1','@'); # print(str_...
Notepad++ 간단한 텍스트 에디터로 notepad++ 을 사용중이다. 지원되는 포멧과 언어가 많아 온갖 포멧의 문서를 열어봐야 했던 전 직장에서 잘 활용했었다. 이번에 랩탑을 새로 사서 세팅을 하는 중 노트패드++ 을 다운받으러 사이트를 들어갔더니 Happy Users...
터미네이터(terminaotr)
매번 검색하기 귀찮아서 정리해둠
내가 기억안날 때 보려고 복사해옴.
tensorflow gpu 사용중 다음과 같은 경고가 나온다.
spacy 에서 ‘en_core_web_sm’ 로드하는 중 오류 발생
https://webnautes.tistory.com/1428 쿠다 설치 과정은 위의 블로그 내용을 대부분 가져온 것임을 밝힙니다. 설치방법을 기록해두기 위해 작성하는 글입니다.
이글은 오래된 버전의 텐서플로를 설치하는 방법이라 참고만 하는 것이 좋다. 최신 버전의 설치방법을 나중에 다시 포스팅 할 예정이다.
우분투에서 키를 꾹 누를 때의 입력지연시간 설정하기
노트북의 배터리 수명 관리를 위해 배터리 충전량을 제한하고 싶을 때
pci DPC: PR PIO log size 0 is invalid /dev/nvme0n1pX: clean, ***/*** files, blocks
EC2에 주피터를 설치하고 실행한 뒤 pyspark를 사용해 하둡에 올라간 파일을 불러온다.
AWS 환경에서 하둡 스파크 클러스터를 구축하는 과정을 기록했다.
AWS 환경에서 하둡 스파크 클러스터를 구축하는 과정을 기록했다.
AWS 환경에서 하둡 스파크 클러스터를 구축하는 과정을 기록했다.
이번에 django로 홈페이지를 제작하고 EC2를 사용해 배포했는데 다음 배포시 참고하기 위해 기록용으로 정리해둔다.
AWS EC2는 인스턴스를 정지했다가 다시 시작하면 아이피가 다시 할당된다. 이 아이피를 하나의 고정 아이피로 사용하려면 AWS Elastic IP를 사용하면 된다.
scp로 AWS EC2 인스턴스로 파일 업로드/다운로드 하는 방법
처음으로 Flask로 만든 어플리케이션을 AWS로 배포해 보았다. 방법을 기록해두기 위해 포스트를 작성한다.
VSCode에 chatGPT를 연동해서 쓰는 익스텐션을 소개하려 한다. 따로 GPT페이지에서 질문하지 않아도 VSCode에서 바로 사용할 수 있어 편리하다.
코드 스니펫(snippet) 이란? 스니펫(snippet)은 재사용 가능한 소스 코드, 기계어, 텍스트의 작은 부분을 일컫는 프로그래밍 용어이다. 사용자가 루틴 편집 조작 중 반복 타이핑을 회피할 수 있게 도와준다. - 위키백과 - 설명처럼 코드 조각을 말한다. 자주 ...
파일을 비교할때는 WinMerge라는 좋은 툴이 있다. 하지만 간단한 파일 비교는 VSCode 에서도 가능하다. Explorer 에서 비교하고 싶은 파일을 우클릭하고 ‘Select for Compare’를 선택한다. Select for Compare 그러면 해당 파일 옆에...
VSCode에서 주피터 노트북 확장을 사용할 때 ‘전체 셀 실행’과 ‘위쪽 셀 전부 실행’ 등의 몇몇 기능은 따로 키 설정을 해줘야 한다. 기본적인 단축키들은 구글에 검색하면 나올테니 따로 설정해놓고 쓰는 단축키 몇가지만 소개한다. VScode 키 바인딩 방법 상단 ...
깃허브 블로그 시작 깃허브 블로그를 처음 시작했다. 글을 작성하려면 마크다운(Markdown) 언어를 이용해야 한단다. 문법을 알아보니 정말 간단하고 텍스트 에디터만 있으면 쉽게 작성 할 수 있어서 많이 사용한다고 한다. 이미 간편한 마크다운 문서를 더 쉽게 도와주는 몇가지 에...
문제 깃허브 레포지토리를 클론 하려는데 다음과 같은 에러가 발생했다.
minimal mistakes 테마를 기준으로 작성했는데 다른테마도 비슷한 방식으로 사용 할 수 있을 것이다.
로컬 폴더를 깃헙 레포지토리와 연결하려면 다음 명령어를 순서대로 실행하면 된다.
GitHub CLI 깃허브를 CLI환경에서 사용할 수 있다고 한다. 요즘 CLI환경에 익숙해지기 위해 여러 시도들을 하는 중이라 그냥 넘어갈 수 없었다.
Jekyll 깃허브 블로그에서 마크다운용 수식기호을 넣어도 그냥은 멋드러진 수식으로 나오지 않는다. 수식을 표시하려면 몇가지 세팅이 필요하다. mathjax_support.html 파일 생성 _include 폴더에 mathjax_support.html 라는 파일을 생성하고 아래...
Apache Parquet
EC2에 주피터를 설치하고 실행한 뒤 pyspark를 사용해 하둡에 올라간 파일을 불러온다.
AWS 환경에서 하둡 스파크 클러스터를 구축하는 과정을 기록했다.
AWS 환경에서 하둡 스파크 클러스터를 구축하는 과정을 기록했다.
AWS 환경에서 하둡 스파크 클러스터를 구축하는 과정을 기록했다.
나는 작년에(22년) ASUS TUF Dash F15 노트북을 사서 사용하고 있다. 그런데 지난주에 갑자기 화면에 가로줄이 생기면서 디스플레이가 맛이 가버렸다.
World IT Show 4월 21일 코엑스에서 열린 world it show에 다녀왔다. 대기업, 스타트업, 학교 연구실 등등 여러 조직이 참가해 AI, 클라우드, XR, 모빌리티 최신 기술 전시하는 행사였다.
사실 쓸 내용이 없는건 아니고 정리를 좀 해야 포스팅을 할텐데 눈 떠서 눈 감을 때까지 공부하는데도 공부해야 할게 줄지 않는다. 오늘 배운 내용들은 가설검증(Hypothesis Test) 관련! 블로그에 포스팅하면 좋을 내용들이 있는데 정리하고 쓰려면 시간이 좀 걸릴 것 같다....
이 포스트는 7월 28일 하루 동안의 삽질에 관한 기록이다. 문제의 시작. 이미지에 주석을 달고 싶어서 헤더5(#####) 를 사용해 이미지 위에 주석을 썼다. 하지만 실제 포스팅을 하고 보니… 헤더가 적용이 안된건지 이미지 위의 글자가 너무 컸다. 원했던 그림. 실제 ...
문제 CondaSSLError: Encountered an SSL error. Most likely a certificate verification issue. Exception: HTTPSConnectionPool(host='repo.anaconda.com', port=443):...
미니콘다 설치 에러 AWS EC2로 ubuntu 20.04 LTS 인스턴스 생성 후 미니콘다 설시 시도.
터미널 실행시 자동으로 base 가상환경이 실행되는게 싫다면 다음 명령어로 해제 할 수 있다. conda config --set auto_activate_base false
mysqlclient 를 설치하려고 하니 다음과 같은 에러로 설치가 안됐다.
미니콘다 설치 에러 AWS EC2로 ubuntu 20.04 LTS 인스턴스 생성 후 미니콘다 설시 시도.
이번에 django로 홈페이지를 제작하고 EC2를 사용해 배포했는데 다음 배포시 참고하기 위해 기록용으로 정리해둔다.
https://programmers-sosin.tistory.com/entry/Django-model-DateTimeField-%ED%95%9C%EA%B5%AD-%EC%8B%9C%EA%B0%84%EC%9C%BC%EB%A1%9C-%EC%84%A4%EC%A0%95%ED%95%98%EA...
drf로 제작한 api를 자체적으로 테스트 해볼 수 있다. 테스트를 사용해서 서버를 켜고 직접 기능을 테스트하지 않아도 되기 때문에 편리하며 많은 수의 테스트를 한번의 명령어로 해 볼 수 있기에 효율이 좋다. 또한 테스트시 임시로 db에 테스트용 테이블을 만들고 테스트 후 알아서 ...
자바스크립트로 처음 뭔가를 만들어보는 중이다. 일단 쓰고 막히면 검색해보는 식으로 작업하다 보니 개념적인 부분이 달라서 헷갈리는 경우가 종종 있었다.
자바스크립트에서 논리연산자 ||, && 는 왼쪽부터 오른쪽으로 평가를 진행하는데, 중간에 평가 결과가 나오면 끝까지 가지않고 평과 결과를 반환한다. 이를 단축평가라고 하면 피연산자의 타입을 반환하지 않고 그대로 반환한다.
=== 연산자
EC2에 주피터를 설치하고 실행한 뒤 pyspark를 사용해 하둡에 올라간 파일을 불러온다.
AWS 환경에서 하둡 스파크 클러스터를 구축하는 과정을 기록했다.
AWS 환경에서 하둡 스파크 클러스터를 구축하는 과정을 기록했다.
AWS 환경에서 하둡 스파크 클러스터를 구축하는 과정을 기록했다.
컬럼과 테이블 찾기
테이블 힌트 사용방법
오차 (Error) 모집단에서 회귀식을 얻었을 때 그 회귀식을 통해 얻은 예측값과 실제 관측값의 차이 잔차 (Residual) 표본집단에서 회귀식을 얻었을 때 그 회귀식을 통해 얻은 예측값과 실제 관측값의 차이 회귀식을 구할 때 대부분 표본집단에서 회귀식을 얻기 때문에 오차제곱...
구글에 이 질문을 검색하면 많은 포스트와 유튜브영상이 나온다. 하지만 나오는 것들은 복잡한 수식과 증명들 뿐이었다. 고등학생 때 진작 수학과 데면데면한 사이가 된 나로써는 증명이 이해가 안되었고 어찌저찌 증명을 이해해도 결국 “그래서 왜 n-1 인데?” 라는 질문에 해답을 얻진 ...
왜 p-value는 0.05일까? 통계를 공부하면 p-value에 대해 배우고 이것을 보통 0.05로 사용한다고 배운다. p-value 가 0.05라는 말은 해당 통계 결과가 우연일 확률이 5%라는 것을 의미하고 이것은 결과가 통계적으로 유의미하다는 것으로 해석할 수 있다. 하...
문제 깃허브 레포지토리를 클론 하려는데 다음과 같은 에러가 발생했다.
로컬 폴더를 깃헙 레포지토리와 연결하려면 다음 명령어를 순서대로 실행하면 된다.
.gitignore가 인식이 안되어서 ignore 처리된 파일이 changes에 계속 나올 때 해결방법
판다스 공부 중 알 수 없는 코드를 발견했다. df['시작_투여량'], df['마지막_투여량'] = df['투여량'].str.split(' - ', 1).str 하나의 열에서 ‘ - ‘ 를 기준으로 문자열을 나눠서 각각 다른 열에 담는 코드였다. 그런데 마지막에 붙는 .str ...
pandas.DataFrame 에는 원하는 행과 열의 데이터를 가져올수 있는 방법이 여러 가지가 있는데 처음 라이브러리를 사용하니 방법이 너무 다양하고 방법마다 가져오는 데이터 타입이 달라서 꽤 헷갈렸다. 그래서 복습 겸 내가 볼 겸 정리를 해보려고 한다. 아래 블로그의 ...
EC2에 주피터를 설치하고 실행한 뒤 pyspark를 사용해 하둡에 올라간 파일을 불러온다.
VSCode에서 주피터 노트북 확장을 사용할 때 ‘전체 셀 실행’과 ‘위쪽 셀 전부 실행’ 등의 몇몇 기능은 따로 키 설정을 해줘야 한다. 기본적인 단축키들은 구글에 검색하면 나올테니 따로 설정해놓고 쓰는 단축키 몇가지만 소개한다. VScode 키 바인딩 방법 상단 ...
Numpy 라이브러리의 eye 함수와 identity 함수는 둘다 단위 행열을 만들어주는 동일한 기능을 가진 함수다. 그런데 왜 두개로 나뉜걸까? 두 함수에 차이가 있는것은 아닐까? 함수 내부를 들여다 보자 identity 함수의 소스코드를 보면 바로 답이 나온다. if...
파라미터 값에 따라 리스트에서 무작위로 데이터를 추출하는 메소드이다. Numpy.random.choice Parameters a : 1-D array-like or int 무작위 추출을 원하는 데이터. 만약 int 값을 넣을경우 0부터 해당 수까지의 정수배열을 생성한...
테스트 데이터에서 만들어내는 오차를 일반화 오차라고 한다. 훈련데이터와 테스트 데이터 모두에서 좋은 성능을 내는 모델은 일반화가 잘된 모델이다. 일반화 오차가 큰 모델은 두가지 이유가 있는데 과적합과 과소적합이다. 과적합(Overfitting) 훈련 데이터셋의 디테...
“데이터과학을 위한 통계” 책을 읽고 있다. 앞으로 거기에 나오는 개념들을 포스팅해보려 한다. 데이터의 종류를 구분하는 이유 데이터 분석, 예측 모델링 할 때, 데이터 종류에 따라 시각화, 해석, 통계 모델 결정 방법이 달라진다. 데이터를 다루는 프로그램에서 데이터 종류...
PRIMARY KEY 제약
ACID 란? Atomicity, Consistency, Isolation, Durability의 약자로 데이터 베이스의 안정성을 보장하는데 사용되는 4가지 속성을 말한다. Atomicity Atomicity는 모든 트랜잭션 작업을 하나의 작업으로 간주한다는 의미이다. 그래서 ...
matplotlib에서 그래프의 사이즈를 키우려면 ‘figure’ 함수를 사용한다. 그런데 함수가 아래쪽에 있으면 동작하지 않는다. plt.hist(sample_of_10, alpha=.5); plt.hist(sample_of_100, alpha=.5); plt.axvline(...
Got permission denied while trying to connect to the Docker daemon socket at unix:///var/run/docker.sock: Post “http://%2Fvar%2Frun%2Fdocker.sock/v1.24/im...
InvalidArgumentError
처음으로 Flask로 만든 어플리케이션을 AWS로 배포해 보았다. 방법을 기록해두기 위해 포스트를 작성한다.
게임 데이터 분석
터미네이터(terminaotr)
최근 ASP.NET을 쓸 일이 생겨 닷넷 공부도 할 겸 홈페이지 프레임워크를 장고에서 .NET Core로 바꾸려고 한다. 프로젝트 시작부터 문제가 생겨 기록을 남긴다.