코딩 기술 글답변

이름필수

비밀번호필수

이메일

홈페이지

옵션 html

제목필수

내용필수 웹에디터 시작

> 
 > 
 > Python, Spark에서 일류 언어가 된 Databricks는 말합니다
> 
> 지난 주 Data + AI Summit에서 데이터브릭스의 공동 창립자이자 수석 설계자인 레이놀드 신은 "아파치 스파크 커뮤니티는 지난 몇 년 동안 파이썬에 대한 지원을 크게 향상시켜 이제 파이썬은 "일류" 언어가 되었고, 더 이상 예전처럼 "엉망스러운" 추가 기능이 아니라고 말했습니다. "실제로 그것은 완전히 다른 언어입니다."
> 
> 파이썬은 세계에서 가장 인기 있는 프로그래밍 언어이지만, 그것이 항상 다른 사람들과 잘 어울린다는 것을 의미하는 것은 아닙니다. 사실, 많은 파이썬 사용자들은 수년간 아파치 스파크의 "버기(buggy)" 경향을 포함하여 아파치 스파크와의 열악한 통합에 실망했습니다
> 
> "스칼라에서 스파크 직업을 쓰는 것은 기본적인 글쓰기 방법입니다."라고 에어비앤비 엔지니어 잭 윌슨(Zach Wilson)이 지난 목요일 기조연설에서 무대에서 공유한 2021년 널리 유포된 비디오에서 말했습니다. "그래서 그것이 스파크가 여러분의 직업을 이해할 가능성이 가장 높고, 그렇게 버그가 많지는 않을 것입니다."
> 
> 스칼라는 JVM 언어이므로 Spark의 JVM을 통해 스택 트레이스를 수행하는 것이 Python을 통해 수행하는 것보다 확실히 더 자연스럽습니다. Xin은 Python 개발자들이 직면한 다른 부정적인 것은 이상한 오류 메시지와 비 Pythonic API라고 말했습니다.
> 
> 신(현재 스파크의 3번째 커미터)을 포함하여 아파치 스파크의 개발을 주도하는 데이터브릭의 사람들은 이러한 의견을 마음에 새기고 파이썬의 스파크와의 열악한 통합 및 성능에 대해 무언가를 하겠다고 약속했습니다. 이 작업은 2020년 프로젝트 젠(Project Zen)을 중심으로 시작되어 스파크 작업을 작성하는 파이썬 코더들에게 더 많은, 아, 진정 및 코페이시스 경험을 제공하는 것을 목표로 하고 있습니다.
> 
> 프로젝트 Zen은 이미 Python과 Spark 간의 더 나은 통합을 가져왔습니다. 수년에 걸쳐 재설계된 팬더 UDF, Spark 3.0의 더 나은 오류 보고, Spark 3.1에서 PySpark를 "더 파이토닉하고 사용자 친화적"으로 만드는 것을 포함하여 다양한 Zen 기반 기능이 출시되었습니다.
> 
> 이 작업은 스파크 3.4와 스파크 4.0까지 계속되었고, 6월 3일에 대중에게 공개되었습니다. 신(Xin)에 따르면, 젠(Zen)에 대한 모든 투자가 성과를 내고 있다고 합니다.
> 
> "우리는 3년 전에 이 컨퍼런스에서 일하게 되었습니다."라고 지난 주 샌프란시스코에서 열린 기조연설에서 Xin이 말했습니다. "우리는 Apache Spark 커뮤니티의 Project Zen 이니셔티브에 대해 이야기했고, 이 프로젝트는 Python을 일류 시민으로 만들기 위한 전체적인 접근 방식에 초점을 맞추고 있습니다. 그리고 여기에는 더 나은 오류 메시지, 디버깅 가능성, 성능 향상 등 API 변경 사항이 포함됩니다. 이는 개발 경험의 거의 모든 측면을 통합합니다."
> 
> PySpark 커뮤니티는 너무 많은 기능을 개발해서 Python은 더 이상 예전의 버그가 많은 언어가 아닙니다. 실제로 Xin은 너무 많은 개선이 이루어져서 일부 수준에서는 Python이 Scala를 능가했다고 말합니다.
> 
> Xin은 "이 슬라이드 [아래 참조]는 Spark 3과 Spark 4에서 PySpark의 주요 중요 기능을 많이 요약한 것입니다."라고 말했습니다. "그리고 만약 여러분이 그것들을 본다면, 그것은 Python이 더 이상 Spark에 대한 단순한 볼트 온이 아니라 일류 언어라는 것을 알려줍니다."
> 
> 실제로, Xin은 UDF를 정의하고 임의의 데이터 소스에 연결하기 위해 그것을 사용하는 것을 포함하여 스칼라에서 사용할 수 없는 많은 파이썬 기능이 있다고 말했습니다. "이것은 사실 스칼라에서 훨씬 더 어려운 일입니다."라고 그는 말했습니다.
> 
> 향상된 기능들은 의심할 여지 없이 파이스파크 커뮤니티가 더 많은 일을 할 수 있도록 도와줄 것입니다. 파이썬은 최신 개선 사항들이 나오기 전에 이미 스파크에서 가장 인기 있는 언어였습니다(데이터브릭과 아파치 스파크 커뮤니티도 아직 끝나지 않았습니다). 따라서 파이썬이 개발한 작업들이 지구상에서 가장 큰 빅데이터 시스템 중 하나인 데이터브릭 플랫폼에서 어느 정도의 사용률을 얻고 있는지 주목하는 것은 흥미롭습니다.
> 
> Xin에 따르면, 매일 평균 55억 개의 Python on Spark 3.3 쿼리가 Databricks에서 실행됩니다. Comp-sci PhD에 따르면, 한 버전의 Spark 언어로 작동하는 이 작업은 지구상의 모든 다른 데이터 웨어하우징 플랫폼의 용량을 능가합니다.
> 
> "저는 선도적인 클라우드 데이터 웨어하우스가 SQL에서 하루에 약 50억 개의 쿼리를 실행한다고 생각합니다."라고 Xin은 말했습니다. "이것은 그 숫자와 일치합니다. 그리고 이것은 전체 PySpark 생태계의 작은 부분에 불과합니다."
> 
> 스파크의 파이썬 지원은 매우 향상되어 에어비앤비(Airbnb) 데이터 엔지니어인 윌슨(Wilson)의 승인까지 얻었습니다. 윌슨은 데이터 + AI 서밋(Data + AI Summit) 무대에서 신(Xin)이 공유한 또 다른 비디오에서 "데이터 엔지니어링 분야에서 상황이 바뀌었습니다."라고 말했습니다. "스파크 커뮤니티는 파이썬을 지원하는 데 훨씬 더 능숙해졌습니다. 따라서 스파크 3을 사용하고 있다면 스파크 3에서 파이스파크(PySpark)와 스칼라 스파크(Scala Spark)의 차이점은 실제로 큰 차이가 없다는 것입니다."
 > 
 >

웹 에디터 끝

링크 #1

링크 #2

파일 #1

파일 #2

자동등록방지

자동등록방지 숫자를 순서대로 입력하세요.

취소