*스파크 데이터프레임에 대해 다루는 섹션. 데이터프레임 소개와 1부, 2부 정리 데이터프레임 데이터를 열과 행으로 나눠 저장하고, 열은 기능/변수를 뜻하고, 행은 데이터를 뜻한다. Spark는 과거에는 RDD라는 구문을 썻으나, 현재는 Dataframe으로 옮겨왔다. 사용해보면 알겠지만 파이썬은 스네이크 케이스를 보편적으로 쓰는데, 구문에 카멜케이스가 많다. 이건 파이스파크가 스칼라나 자바와 매치되기 쉽게 하기위해 외부로 노출된 API는 카멜케이스를 따르도록 하게 되어있기 때문이다. SparkSession(링크) 스파크를 데이터셋과 데이터프레임 API와 같이 프로그래밍하기 위한 진입 포인트 spark = SparkSession.builder.appName('Basics').getOrCreate() pys..
*유데미 강의 'PySpark 로 빅데이터 분석하기 with Python'로 공부한거 정리 분산시스템 필요성: 램보다 큰 데이터를 처리하는 경우의 해결 방법의 일환으로, 분산시스템을 활용해 여러 기계와 컴퓨터로 데이터를 분배해서 데이터를 처리할 수 있다. 하나의 메인 컴퓨터(마스터 노드)에서 데이터 처리 및 계산을 다른 컴퓨터들에 분배한다. 여기서 마스터노드의 CPU와 램은 슬레이브노드의 CPU와 램이 잘 동작하는 것을 관장한다. 여러 컴퓨터들의 힘을 모아 강력한 단일 컴퓨터보다 더 나은 성능을 발휘할 수 있음, 즉 다소 성능이 떨어지는 컴퓨터나 서버라도 분산시스템을 통해 연산을 잘 분배해서 동작할 수 있다. 단일 컴퓨터가 스케일업하는 것보다 분산시스템이 스케일 아웃하기 좋음 내고장성(fault tole..
결정 트리(Decision Tree) : - 예상한 값을 주는 아랫부분을 리프라 하고, 리프의 값과 나누는 기준은 데이터로 결정된다. Data Frame : 테이블형의 데이터 타입. 액셀 시트같은걸 생각하면 된다, Pandas - 설치 : 링크 *데이터등을 불러올 때 random_state는 실행시마다 같은 값이 나오게 할지 여부를 정해주는 파라미터다. read_csv(path) : path에 있는 파일을 읽어온다. describe() : 읽어온 값을 보여준다. columns: 해당 파일의 컬럼들을 보여준다. 각 컬럼은 dot notation으로 불러올 수 있다. 만약 불러온 값에서 특정 컬럼들만 보고 싶다면 data[selected_columns] 식으로 불러오면 된다. 이 때 selected_colu..
Datacamp 의 SQL Fundamentals 트랙을 공부하면서 정리한 내용이다. 첫번째 코스인 Intro to SQL for Data Science은 SQL의 기초를 정리하는 내용이었다. SQL (Structured Query Language) select 문 기본형 : select (field) from (table); - 중복을 제거한 값을 구하고 싶다면 필드명 앞에 distinct 를 넣으면 된다 - 갯수를 구하고 싶다면 count(field) 식으로 하면 갯수를 구할 수 있다 필터링 where (field) (=>= 2000; SELECT AVG(GROSS) FROM FILMS WHERE TITLE LIKE 'A%'; SELECT MIN(GROSS) FROM FILMS WHERE RELEAS..
NumpyNumeric PythonNumpy는 리스트로 다룰수 없는 다차원 배열이나 행렬등을 손쉽게 처리할 수 있도록 해주는 라이브러리로, 선형대수적인 연산을 할때 유용하게 사용되는 패키지다. 특징- Numpy의 array는 같은 타입의 데이터만 가질 수 있다(type coercion)- 일반적인 연산들은 파이썬 리스트와 Numpy array에서 다르게 동작한다. Numpy의 array는 일종의 벡터로 생각하는 편이 좋은데 예를 들어 리스트 간의 합은 리스트의 확장이 결과가 되지만, np.array에서는 각 요소의 값이 더해진 것이 그 결과가 된다. 또한 벡터의 내적이나 벡터의 길이 등을 구하는 연산도 제공한다. 설치방법- pip3 install numpy- 보통 임포트할땐 import numpy as ..
- Total
- Today
- Yesterday
- 나는리뷰어다
- askcompany
- udemy
- 한빛미디어
- BookDiscussion
- 유데미강의
- 리액트와함께장고시작하기
- 아토믹코틀린
- 나는리뷰어다2022
- 파고다갓생후기챌린지
- 혼자공부하는얄팍한코딩지식
- SRE를위한시스템설계와구축
- 싱가폴
- django
- 개발자리뷰어
- 싱가폴여행
- 파고다후기
- 길벗출판사
- SQL기초구문
- Python
- Docker
- 파고다강남후기
- Singapore
- 머신러닝파워드애플리케이션
- 그래프QL인액션
- 다시미분적분
- 한빛출판사
- 해외여행
- 동남아
- 싱가포르
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |