*스파크 데이터프레임에 대해 다루는 섹션. 데이터프레임 소개와 1부, 2부 정리 데이터프레임 데이터를 열과 행으로 나눠 저장하고, 열은 기능/변수를 뜻하고, 행은 데이터를 뜻한다. Spark는 과거에는 RDD라는 구문을 썻으나, 현재는 Dataframe으로 옮겨왔다. 사용해보면 알겠지만 파이썬은 스네이크 케이스를 보편적으로 쓰는데, 구문에 카멜케이스가 많다. 이건 파이스파크가 스칼라나 자바와 매치되기 쉽게 하기위해 외부로 노출된 API는 카멜케이스를 따르도록 하게 되어있기 때문이다. SparkSession(링크) 스파크를 데이터셋과 데이터프레임 API와 같이 프로그래밍하기 위한 진입 포인트 spark = SparkSession.builder.appName('Basics').getOrCreate() pys..
*유데미 강의 'PySpark 로 빅데이터 분석하기 with Python'로 공부한거 정리 분산시스템 필요성: 램보다 큰 데이터를 처리하는 경우의 해결 방법의 일환으로, 분산시스템을 활용해 여러 기계와 컴퓨터로 데이터를 분배해서 데이터를 처리할 수 있다. 하나의 메인 컴퓨터(마스터 노드)에서 데이터 처리 및 계산을 다른 컴퓨터들에 분배한다. 여기서 마스터노드의 CPU와 램은 슬레이브노드의 CPU와 램이 잘 동작하는 것을 관장한다. 여러 컴퓨터들의 힘을 모아 강력한 단일 컴퓨터보다 더 나은 성능을 발휘할 수 있음, 즉 다소 성능이 떨어지는 컴퓨터나 서버라도 분산시스템을 통해 연산을 잘 분배해서 동작할 수 있다. 단일 컴퓨터가 스케일업하는 것보다 분산시스템이 스케일 아웃하기 좋음 내고장성(fault tole..
한줄 요약 : 코틀린을 배우고자 하는 초보자와 숙련자 모두에게 추천할만한 코틀린에 충실한 안내서 이 도서는 우연히 길벗출판사의 페이스북 페이지에서 리뷰어 관련 게시글을 보고 신청해서 받은 도서다. 목록에 있는 다른 도서들 중에서도 끌리는 도서가 있었으나 해당 도서를 고르게 된것은 코틀린이라는 언어를 배워보고 싶은 마음이 있었는데 마침 좋은 기회라는 생각이 들어 신청하게 되었다. 코틀린은 2023년 프로그머스 개발자 설문조사에서 가장 배워보고 싶은 언어로 선정되었을 정도로 핫한 언어다. 어쨌거나 한국은 자바민국이라 불릴 정도로 자바의 점유율이 높은데 요즘 자바를 쓰는 기업에서 코틀린으로 전환하는 사례가 많아졌다고 들었다. 나 역시 잠시 같이 일했던 팀장님이 코틀린+스프링을 같이 쓰는 사례가 많아졌으니 코프..
- Total
- Today
- Yesterday
- 혼자공부하는얄팍한코딩지식
- Singapore
- Python
- django
- 파고다갓생후기챌린지
- 파고다후기
- 개발자리뷰어
- SRE를위한시스템설계와구축
- 나는리뷰어다2022
- udemy
- 길벗출판사
- BookDiscussion
- 다시미분적분
- askcompany
- 한빛미디어
- 나는리뷰어다
- 싱가폴여행
- 머신러닝파워드애플리케이션
- 동남아
- 아토믹코틀린
- Docker
- 해외여행
- 유데미강의
- 리액트와함께장고시작하기
- 한빛출판사
- 그래프QL인액션
- 싱가포르
- SQL기초구문
- 파고다강남후기
- 싱가폴
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |