Data analysis 35

[데이터 전처리4] 날짜 다루기2 : Pyspark, Pandas

[데이터 전처리4] 날짜 다루기2 오늘날짜 추출하기 지정 날짜/시간 추출하기 날짜/ 시각에서 연, 월, 일 추출하기 문자형'으로 되어 있는 날짜/ 시각에서 연, 월, 일 추출하기 ■ Pyspark ο 오늘날짜 추출하기 import findspark findspark.init() from pyspark.sql import SparkSession from pyspark.sql.functions import * ① Session 생성 # Create SparkSession spark = SparkSession.builder \ .appName('SparkByExamples.com') \ .getOrCreate() data=[["1"]] df=spark.createDataFrame(data,["id"]) 생성된..

Data analysis/SQL + 2022.07.31

[데이터 전처리4] 날짜 다루기1 : MySQL, Postgre

[데이터 전처리4] 날짜 다루기 오늘날짜 추출하기 지정 날짜/시간 추출하기 날짜/ 시각에서 연, 월, 일 추출하기 문자형'으로 되어 있는 날짜/ 시각에서 연, 월, 일 추출하기 MySQL · 오늘날짜 추출하기 - Postgre와 동일 · 지정 날짜/시간 추출하기 (방법1) SQL표준 CAST('value' AS 'type') SELECT CAST("2022-07-31" AS DATE) AS dt ,CAST("14:22:00" AS TIME) AS time; ※ MySQL에서 CAST('value' AS TYPE) 에 가능한 타입은 아래와 같다. BINARY[(N)] CHAR[(N)] [charset_info] DATE DATETIME DECIMAL[(M[,D])] JSON NCHAR[(N)] SIGNED..

Data analysis/SQL + 2022.07.31

[데이터 전처리3] 문자열 분해하기 : 계층 추출하기

[데이터 전처리3] 문자열 분해하기 URL 계층 추출하기 위에 데이터프레임에서 path컬럼을 보면 /video/detail 이런 것들이 바로 계층 구조로 이루어진 것이다. Mysql SELECT stamp, url, SUBSTRING_INDEX(SUBSTRING_INDEX(REGEXP_SUBSTR(url, '([^?#]+)'), '/', 4), '/', -1) AS path1, REGEXP_REPLACE(SUBSTRING_INDEX(SUBSTRING_INDEX(REGEXP_SUBSTR(url, '([^?#]+)'), '/', 5), '/', -1), SUBSTRING_INDEX(SUBSTRING_INDEX(REGEXP_SUBSTR(url, '([^?#]+)'), '/', 4), '/', -1), '') ..

Data analysis/SQL + 2022.07.29

[데이터 전처리2] URL에서 요소 추출하기2 : 경로와 매개변수값 추출하기

[데이터 전처리2] URL에서 요소 추출하기2 경로와 매개변수값 추출하기 SELECT * FROM access_log; Mysql SELECT stamp, url, SUBSTRING_INDEX(REGEXP_SUBSTR(url, '([^?#]+)'), SUBSTRING_INDEX(url, '/', 3), -1) AS path, SUBSTRING_INDEX(REGEXP_SUBSTR(url, 'id=([^&]*)'), 'id=', -1) AS id FROM access_log ; Postgre SELECT stamp, url, SUBSTRING(url FROM '//[^/]+([^?#]+)') AS path, SUBSTRING(url FROM 'id=([^&]*)') AS id FROM access_log ;..

Data analysis/SQL + 2022.07.29

[데이터 전처리2] URL에서 요소 추출하기1 : 호스트 단위로 추출하기

[데이터 전처리2] URL에서 요소 추출하기 기록된 원래 URL에서 호스트 단위로 추출하기 SELECT * FROM access_log; MySQL SUBSTRING_INDEX(컬럼명. 기준(구분)문자, 보여질 위치) ✔ 위치 기준 음수(-)는 뒷부분 부터, 양수(+)는 앞부분 부터 ① SUBSTRING_INXDEX(referrer, '/', 3) 로 추출하면 '/' 기준으로 세번째 구분까지 출력된다. SELECT stamp, SUBSTRING_INDEX(referrer, '/', 3) AS referrer_host FROM access_log; 위 결과에 SUBSTRING_INDEX(①, '/' , -1) 을 한번 더 적용하면 데이터 뒷부분부터 첫번째 자리까지가 출력된다. SELECT stamp, SU..

Data analysis/SQL + 2022.07.29