데이터 프레임 작업의 대부분은 데이터를 조건에 따라 빠르게 필터링하는 것에 달려있다할 수 있다. .filter() 데이터의 값들을 조건에 따라 필터링을 할 수 있다. # 애플 주식 관련 값 로딩 df = spark.read.csv('./appl_stock.csv', inferSchema=True, header=True) # 데이터 프레임 확인 df.show() ''' result +----------+------------------+------------------+------------------+------------------+---------+------------------+ | Date| Open| High| Low| Close| Volume| Adj Close| +----------+---..
*스파크 데이터프레임에 대해 다루는 섹션. 데이터프레임 소개와 1부, 2부 정리 데이터프레임 데이터를 열과 행으로 나눠 저장하고, 열은 기능/변수를 뜻하고, 행은 데이터를 뜻한다. Spark는 과거에는 RDD라는 구문을 썻으나, 현재는 Dataframe으로 옮겨왔다. 사용해보면 알겠지만 파이썬은 스네이크 케이스를 보편적으로 쓰는데, 구문에 카멜케이스가 많다. 이건 파이스파크가 스칼라나 자바와 매치되기 쉽게 하기위해 외부로 노출된 API는 카멜케이스를 따르도록 하게 되어있기 때문이다. SparkSession(링크) 스파크를 데이터셋과 데이터프레임 API와 같이 프로그래밍하기 위한 진입 포인트 spark = SparkSession.builder.appName('Basics').getOrCreate() pys..
*유데미 강의 'PySpark 로 빅데이터 분석하기 with Python'로 공부한거 정리 분산시스템 필요성: 램보다 큰 데이터를 처리하는 경우의 해결 방법의 일환으로, 분산시스템을 활용해 여러 기계와 컴퓨터로 데이터를 분배해서 데이터를 처리할 수 있다. 하나의 메인 컴퓨터(마스터 노드)에서 데이터 처리 및 계산을 다른 컴퓨터들에 분배한다. 여기서 마스터노드의 CPU와 램은 슬레이브노드의 CPU와 램이 잘 동작하는 것을 관장한다. 여러 컴퓨터들의 힘을 모아 강력한 단일 컴퓨터보다 더 나은 성능을 발휘할 수 있음, 즉 다소 성능이 떨어지는 컴퓨터나 서버라도 분산시스템을 통해 연산을 잘 분배해서 동작할 수 있다. 단일 컴퓨터가 스케일업하는 것보다 분산시스템이 스케일 아웃하기 좋음 내고장성(fault tole..
- Total
- Today
- Yesterday
- 한빛출판사
- Docker
- 나는리뷰어다2022
- BookDiscussion
- 길벗출판사
- 싱가포르
- 해외여행
- 리액트와함께장고시작하기
- 머신러닝파워드애플리케이션
- 아토믹코틀린
- 그래프QL인액션
- 개발자리뷰어
- 다시미분적분
- 유데미강의
- udemy
- Singapore
- django
- 파고다갓생후기챌린지
- 나는리뷰어다
- Python
- SRE를위한시스템설계와구축
- SQL기초구문
- 싱가폴여행
- 혼자공부하는얄팍한코딩지식
- 동남아
- askcompany
- 파고다강남후기
- 파고다후기
- 싱가폴
- 한빛미디어
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |