본문 바로가기 메뉴 바로가기

코딩베짱이의 무언가 생산적인 일을 하는 블로그

프로필사진
  • 글쓰기
  • 관리
  • 태그
  • 방명록
  • RSS

코딩베짱이의 무언가 생산적인 일을 하는 블로그

검색하기 폼
  • 분류 전체보기 (65)
    • Programming (31)
      • Fundamentals (0)
      • Language (3)
      • Data (5)
      • Tools (5)
      • settings (5)
      • DB (2)
      • Django (6)
      • WEB etc (3)
      • Algorithms (1)
      • JS (0)
    • Studies (2)
      • 스터디파이 - 통계 (2)
      • 풀잎스쿨 10기 (1)
      • 파이썬 아키텍처 (2)
    • Reviews (12)
      • books (10)
      • Lectures (2)
    • Languages (1)
      • General English (0)
      • 엉터리번역 (1)
    • chat (3)
    • 취미 (6)
      • 해외여행 (6)
    • Unclassified (0)
  • 방명록

분류 전체보기 (65)
PySpark : 3. Dataframe filter, groupBy, Aggregation

데이터 프레임 작업의 대부분은 데이터를 조건에 따라 빠르게 필터링하는 것에 달려있다할 수 있다. .filter() 데이터의 값들을 조건에 따라 필터링을 할 수 있다. # 애플 주식 관련 값 로딩 df = spark.read.csv('./appl_stock.csv', inferSchema=True, header=True) # 데이터 프레임 확인 df.show() ''' result +----------+------------------+------------------+------------------+------------------+---------+------------------+ | Date| Open| High| Low| Close| Volume| Adj Close| +----------+---..

카테고리 없음 2024. 2. 3. 01:49
PySpark : 2. Spark Dataframe Basics 1, 2

*스파크 데이터프레임에 대해 다루는 섹션. 데이터프레임 소개와 1부, 2부 정리 데이터프레임 데이터를 열과 행으로 나눠 저장하고, 열은 기능/변수를 뜻하고, 행은 데이터를 뜻한다. Spark는 과거에는 RDD라는 구문을 썻으나, 현재는 Dataframe으로 옮겨왔다. 사용해보면 알겠지만 파이썬은 스네이크 케이스를 보편적으로 쓰는데, 구문에 카멜케이스가 많다. 이건 파이스파크가 스칼라나 자바와 매치되기 쉽게 하기위해 외부로 노출된 API는 카멜케이스를 따르도록 하게 되어있기 때문이다. SparkSession(링크) 스파크를 데이터셋과 데이터프레임 API와 같이 프로그래밍하기 위한 진입 포인트 spark = SparkSession.builder.appName('Basics').getOrCreate() pys..

Programming/Data 2024. 2. 1. 02:12
PySpark : 1. Hadoop, Mapreduce, Spark

*유데미 강의 'PySpark 로 빅데이터 분석하기 with Python'로 공부한거 정리 분산시스템 필요성: 램보다 큰 데이터를 처리하는 경우의 해결 방법의 일환으로, 분산시스템을 활용해 여러 기계와 컴퓨터로 데이터를 분배해서 데이터를 처리할 수 있다. 하나의 메인 컴퓨터(마스터 노드)에서 데이터 처리 및 계산을 다른 컴퓨터들에 분배한다. 여기서 마스터노드의 CPU와 램은 슬레이브노드의 CPU와 램이 잘 동작하는 것을 관장한다. 여러 컴퓨터들의 힘을 모아 강력한 단일 컴퓨터보다 더 나은 성능을 발휘할 수 있음, 즉 다소 성능이 떨어지는 컴퓨터나 서버라도 분산시스템을 통해 연산을 잘 분배해서 동작할 수 있다. 단일 컴퓨터가 스케일업하는 것보다 분산시스템이 스케일 아웃하기 좋음 내고장성(fault tole..

Programming/Data 2024. 1. 28. 17:38
길벗출판사 <아토믹 코틀린>을 읽고

한줄 요약 : 코틀린을 배우고자 하는 초보자와 숙련자 모두에게 추천할만한 코틀린에 충실한 안내서 이 도서는 우연히 길벗출판사의 페이스북 페이지에서 리뷰어 관련 게시글을 보고 신청해서 받은 도서다. 목록에 있는 다른 도서들 중에서도 끌리는 도서가 있었으나 해당 도서를 고르게 된것은 코틀린이라는 언어를 배워보고 싶은 마음이 있었는데 마침 좋은 기회라는 생각이 들어 신청하게 되었다. 코틀린은 2023년 프로그머스 개발자 설문조사에서 가장 배워보고 싶은 언어로 선정되었을 정도로 핫한 언어다. 어쨌거나 한국은 자바민국이라 불릴 정도로 자바의 점유율이 높은데 요즘 자바를 쓰는 기업에서 코틀린으로 전환하는 사례가 많아졌다고 들었다. 나 역시 잠시 같이 일했던 팀장님이 코틀린+스프링을 같이 쓰는 사례가 많아졌으니 코프..

Reviews/books 2023. 4. 10. 01:21
의존성 관리에 최적화되어있다는 poetry

poetry의 존재는 노마드코더의 장고 강의를 보다가 알게 되었다. (강의...그만 사야지....풀스택장고를 몇개째 사는거야) 사실 poetry보다는 virtualenv를 사용하고 있는터라 비교해보기는 어렵지만 일단 라이브러리등을 설치할때 버전을 명시하지 않으면 그냥 최신껄 설치해주는게 아니라 의존성을 확인해서 적절한 버전으로 설치해주는 점이 마음에 든다. 다만 아직 시작단계라 그런건지 컨트리뷰터가 적어선진 모르겠는데 완전 최신 파이썬에선 종종 지원해주지 않는 경우가 있는 것 같다.나도 겪었다 설치방법 공식링크 상에서 친절하게 다양한 방법을 알려주고 있다. 나의 경우엔 mac os를 사용하고 있기 때문에 아래의 명령어를 사용했다. curl -sSL https://install.python-poetry.o..

Programming 2023. 2. 1. 16:03
2022년도 회고, 그리고 2023년을 맞으며

그 해의 회고록쓰는게 유행하기 시작한지는 꽤 되었지만 나는 제대로 된 회고를 쓴적이 없다. 딱히 힙스터라서 그런건 아니고 어영부영 하다보니 다음해가 되어버리는 바람에 그랬던 것 같다. 하지만 올해는 나한테 있어서 좀 특별한 해라서 꼭 쓰고 싶었다. 올해의 가장 큰 사건으로 두 가지를 꼽을 수 있는데 첫번째는 자취 시작이고 두번째는 이직이다. 자취 자취가 인생에서 이번이 처음으로 해보는 것은 아니지만 이전에는 거리상등의 이유로 어쩔 수 없이 했었던거라 자취생활을 그닥 즐기지 못했었다. 이번엔 자발적으로 자취를 하게 되었는데 개인적으로 생각하는 자취의 가장 큰 장점은 내 생활에 관한 모든걸 내가 통제할 수 있단 점이다. 부모님이 딱히 내 생활에 크게 간섭을 하시는 분들은 아니지만, 그래도 한집에 사는 이상 ..

chat 2023. 1. 4. 15:58
도서 "혼자서 공부하는 컴퓨터구조 + 운영체제"를 읽고

한줄 요약: 컴퓨터구조와 운영체제를 처음 공부하는 사람에게 좋은 안내서 한빛미디어 활동을 위해서 책을 제공받아 작성된 서평입니다. 컴퓨터공학수업에서 중요한 과목들을 꼽으라고 한다면 보통 컴퓨터구조와 운영체제는 반드시 들어가는 과목일 것이다. 하지만 이 두 과목은 학교에 따라 어느정도 차이는 있지만 상당히 어려운 편이고, 처음 배우는 입장에선 실무에서 어떻게 쓰이는지도 잘 와닿지 않는 부분이 있어 다소 진입장벽이 있는 편이다. 이 책은 제목에 걸맞게 이런 컴퓨터구조와 운영체제를 쉽게 풀어서 설명하고 있다. 책의 앞쪽은 컴퓨터구조에 관한 것이고, 뒷부분은 운영체제에 관한 내용이다. 둘 다 첫 챕터에서는 해당 과목을 배워야하는 이유를 말하고 두번째 챕터에서는 전체적인 그림을 소개한다. 그 후에 세부적인 설명으..

Reviews/books 2023. 1. 1. 03:02
도서 "적정 소프트웨어 아키텍처"를 읽고

"한빛미디어 활동을 위해서 책을 제공받아 작성된 서평입니다." 보통 처음 개발을 할때는 개발문화가 정말 좋은 조직이 아니고선 구현에 초점을 두지 전체적 구조를 생각해볼 기회는 적은 것 같다. 특히 경력을 시작하게 된 조직이 아직 큰 데이터가 없으면서 MVP처럼 빠른 개발을 목적으로 하는 상황이라면 말이다. 그러나 연차가 어느정도 차게 되면 전체적 아키텍처의 중요성이 서서히 와닿기 시작하는데 이런 시기에 접하기 좋은 책중 하나같다. 이 책은 그중에서도 리스크 주도 소프트웨어 아키텍처를 다루고 있으며, 1부와 2부로 나뉘어져있다. 1부에서는 소프트웨어 아키텍처와 리스크 주도 접근 방식에 대해 소개하고 2부에서는 소프트웨어 아키텍처의 개념 모델을 설명한다. ....리스크 주요모델을 소개한다. 핵심 아이디어는 ..

카테고리 없음 2022. 11. 27. 21:40
도서 "AWS 비용 최적화 바이블"을 읽고

"한빛미디어 활동을 위해서 책을 제공받아 작성된 서평입니다." 서비스를 클라우드상에 올려놓는 경험을 해본 사람들이라면 비용 최적화에 대한 고민을 해본 적이 있을 것입니다. 처음부터 최적화된 상태로 출발했다면 좋겠지만 그렇지 못할 경우엔 알음알음 배운 지식으로 클라우드 구축을 하고 처음에는 괜찮다가 어느 순간 비용이 확 늘어버리는데, 무엇이 원인이고 어떻게 바꿔야할지도 감이 오지 않는 상황을 겪기도 합니다. 이 책은 그런 사람들에게 도움이 되는 책입니다. (딴 얘기지만, 비용 최적화에 관한 책인데 책 저자 중 한명의 성이 만수르인게 눈에 띄네요.) 목차 CHAPTER 1 KAOTM 방법론 CHAPTER 2 컴퓨팅 서비스 2.1 아마존 EC2(일래스틱 컴퓨팅 클라우드) 2.2 서버리스 컴퓨팅 2.3 컨테이너..

Reviews/books 2022. 10. 2. 21:17
Async IO in Python <1>

* real python의 글을 거의 그대로 번역한 글로, 엉터리 번역이 있을수있어 원문을 읽는걸 권장 (일단 일부밖에 안했다는 점이..) - https://realpython.com/async-io-python/ - 참고: https://realpython.com/courses/python-3-concurrency-asyncio-module/ Hands-On Python 3 Concurrency With the asyncio Module – Real Python Learn how to speed up your Python 3 programs using concurrency and the asyncio module in the standard library. See step-by-step how to l..

Programming/Language 2022. 9. 20. 21:45
이전 1 2 3 4 5 ··· 7 다음
이전 다음
반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
  • 인스타그램
  • 깃허브
TAG
  • 싱가폴여행
  • 파고다강남후기
  • askcompany
  • 싱가포르
  • django
  • SQL기초구문
  • BookDiscussion
  • 아토믹코틀린
  • 머신러닝파워드애플리케이션
  • 혼자공부하는얄팍한코딩지식
  • 리액트와함께장고시작하기
  • 파고다후기
  • 나는리뷰어다
  • 한빛미디어
  • Python
  • SRE를위한시스템설계와구축
  • 길벗출판사
  • Docker
  • 나는리뷰어다2022
  • 한빛출판사
  • 해외여행
  • 파고다갓생후기챌린지
  • 그래프QL인액션
  • udemy
  • 개발자리뷰어
  • 다시미분적분
  • 싱가폴
  • 유데미강의
  • Singapore
  • 동남아
more
«   2025/05   »
일 월 화 수 목 금 토
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31
글 보관함

Blog is powered by Tistory / Designed by Tistory

티스토리툴바