Python, Spark에서 일류 언어가 된 Databricks는 말합니다 > 코딩 기술

Python, Spark에서 일류 언어가 된 Databricks는 말합니다

페이지 정보

작성자 코딩123 작성일 24-06-20 10:46 조회 15회 댓글 0건

본문

Python, Spark에서 일류 언어가 된 Databricks는 말합니다

지난 주 Data + AI Summit에서 데이터브릭스의 공동 창립자이자 수석 설계자인 레이놀드 신은 "아파치 스파크 커뮤니티는 지난 몇 년 동안 파이썬에 대한 지원을 크게 향상시켜 이제 파이썬은 "일류" 언어가 되었고, 더 이상 예전처럼 "엉망스러운" 추가 기능이 아니라고 말했습니다. "실제로 그것은 완전히 다른 언어입니다."

파이썬은 세계에서 가장 인기 있는 프로그래밍 언어이지만, 그것이 항상 다른 사람들과 잘 어울린다는 것을 의미하는 것은 아닙니다. 사실, 많은 파이썬 사용자들은 수년간 아파치 스파크의 "버기(buggy)" 경향을 포함하여 아파치 스파크와의 열악한 통합에 실망했습니다

"스칼라에서 스파크 직업을 쓰는 것은 기본적인 글쓰기 방법입니다."라고 에어비앤비 엔지니어 잭 윌슨(Zach Wilson)이 지난 목요일 기조연설에서 무대에서 공유한 2021년 널리 유포된 비디오에서 말했습니다. "그래서 그것이 스파크가 여러분의 직업을 이해할 가능성이 가장 높고, 그렇게 버그가 많지는 않을 것입니다."

스칼라는 JVM 언어이므로 Spark의 JVM을 통해 스택 트레이스를 수행하는 것이 Python을 통해 수행하는 것보다 확실히 더 자연스럽습니다. Xin은 Python 개발자들이 직면한 다른 부정적인 것은 이상한 오류 메시지와 비 Pythonic API라고 말했습니다.

신(현재 스파크의 3번째 커미터)을 포함하여 아파치 스파크의 개발을 주도하는 데이터브릭의 사람들은 이러한 의견을 마음에 새기고 파이썬의 스파크와의 열악한 통합 및 성능에 대해 무언가를 하겠다고 약속했습니다. 이 작업은 2020년 프로젝트 젠(Project Zen)을 중심으로 시작되어 스파크 작업을 작성하는 파이썬 코더들에게 더 많은, 아, 진정 및 코페이시스 경험을 제공하는 것을 목표로 하고 있습니다.

프로젝트 Zen은 이미 Python과 Spark 간의 더 나은 통합을 가져왔습니다. 수년에 걸쳐 재설계된 팬더 UDF, Spark 3.0의 더 나은 오류 보고, Spark 3.1에서 PySpark를 "더 파이토닉하고 사용자 친화적"으로 만드는 것을 포함하여 다양한 Zen 기반 기능이 출시되었습니다.

이 작업은 스파크 3.4와 스파크 4.0까지 계속되었고, 6월 3일에 대중에게 공개되었습니다. 신(Xin)에 따르면, 젠(Zen)에 대한 모든 투자가 성과를 내고 있다고 합니다.

"우리는 3년 전에 이 컨퍼런스에서 일하게 되었습니다."라고 지난 주 샌프란시스코에서 열린 기조연설에서 Xin이 말했습니다. "우리는 Apache Spark 커뮤니티의 Project Zen 이니셔티브에 대해 이야기했고, 이 프로젝트는 Python을 일류 시민으로 만들기 위한 전체적인 접근 방식에 초점을 맞추고 있습니다. 그리고 여기에는 더 나은 오류 메시지, 디버깅 가능성, 성능 향상 등 API 변경 사항이 포함됩니다. 이는 개발 경험의 거의 모든 측면을 통합합니다."

PySpark 커뮤니티는 너무 많은 기능을 개발해서 Python은 더 이상 예전의 버그가 많은 언어가 아닙니다. 실제로 Xin은 너무 많은 개선이 이루어져서 일부 수준에서는 Python이 Scala를 능가했다고 말합니다.

Xin은 "이 슬라이드 [아래 참조]는 Spark 3과 Spark 4에서 PySpark의 주요 중요 기능을 많이 요약한 것입니다."라고 말했습니다. "그리고 만약 여러분이 그것들을 본다면, 그것은 Python이 더 이상 Spark에 대한 단순한 볼트 온이 아니라 일류 언어라는 것을 알려줍니다."

실제로, Xin은 UDF를 정의하고 임의의 데이터 소스에 연결하기 위해 그것을 사용하는 것을 포함하여 스칼라에서 사용할 수 없는 많은 파이썬 기능이 있다고 말했습니다. "이것은 사실 스칼라에서 훨씬 더 어려운 일입니다."라고 그는 말했습니다.

향상된 기능들은 의심할 여지 없이 파이스파크 커뮤니티가 더 많은 일을 할 수 있도록 도와줄 것입니다. 파이썬은 최신 개선 사항들이 나오기 전에 이미 스파크에서 가장 인기 있는 언어였습니다(데이터브릭과 아파치 스파크 커뮤니티도 아직 끝나지 않았습니다). 따라서 파이썬이 개발한 작업들이 지구상에서 가장 큰 빅데이터 시스템 중 하나인 데이터브릭 플랫폼에서 어느 정도의 사용률을 얻고 있는지 주목하는 것은 흥미롭습니다.

Xin에 따르면, 매일 평균 55억 개의 Python on Spark 3.3 쿼리가 Databricks에서 실행됩니다. Comp-sci PhD에 따르면, 한 버전의 Spark 언어로 작동하는 이 작업은 지구상의 모든 다른 데이터 웨어하우징 플랫폼의 용량을 능가합니다.

"저는 선도적인 클라우드 데이터 웨어하우스가 SQL에서 하루에 약 50억 개의 쿼리를 실행한다고 생각합니다."라고 Xin은 말했습니다. "이것은 그 숫자와 일치합니다. 그리고 이것은 전체 PySpark 생태계의 작은 부분에 불과합니다."

스파크의 파이썬 지원은 매우 향상되어 에어비앤비(Airbnb) 데이터 엔지니어인 윌슨(Wilson)의 승인까지 얻었습니다. 윌슨은 데이터 + AI 서밋(Data + AI Summit) 무대에서 신(Xin)이 공유한 또 다른 비디오에서 "데이터 엔지니어링 분야에서 상황이 바뀌었습니다."라고 말했습니다. "스파크 커뮤니티는 파이썬을 지원하는 데 훨씬 더 능숙해졌습니다. 따라서 스파크 3을 사용하고 있다면 스파크 3에서 파이스파크(PySpark)와 스칼라 스파크(Scala Spark)의 차이점은 실제로 큰 차이가 없다는 것입니다."

사이트 내 전체검색

코딩 기술

Python, Spark에서 일류 언어가 된 Databricks는 말합니다

페이지 정보

본문

댓글목록