의 장점은 무엇 Apache 빔 Spark/flink 은 대한 일괄 처리는?

아파치 광속에서 지원하는 여러 주자 backends 포함하여,아파치는 스파크 및 flink 은. 나는'm 익숙한 스파크/flink 은 나는'm 을 보려고 하는 장점/단점의 광속을 위해 일괄 처리합니다.

보고빔 단어 수를 들어느낌,그것과 매우 유사하는 네이티브 스파크/flink 은 등가물,아마 약간 더 자세한 정보 구문입니다.

나는 현재 don't 의 큰 혜택을 볼 수를 선택 빔 Spark/flink 은 이러한 작업입니다. 만 관측할 수 있게 지금까지:

-Pro:통해 추상적 다른 실행 backends. -콘:이러한 추상화에서 올해의 가격을 덜어 통해 정확히 무엇을 실행에서 촉발/flink 은.

은 거기에 더 강조 표시하는 예제는 다른 장점/단점 빔 모델? 이 있는 방법에 대한 정보의 손실 제어 성능에 영향을 미친다?

참고는'm 지의 차이에 대한 스트리밍 측면은 부분적으로 커버에서[이 질문](https://stackoverflow.com/questions/35264441/what-is-apache-beam 고)요약에서이 문서(오래된 인한 불꽃 1.X).

해결책

이's 몇 가지는 광속을 추가합을 통해 기존의 많은 엔진이 있습니다.

*통합 배치 및 스트리밍입니다. 많은 시스템을 모두 처리할 수 있습 배치 및 스트리밍이지만,그들은 종종 그렇게 통해 별도의 Api. 하지만,빔 배치 및 스트리밍은 두 지점에서의 스펙트럼 대기 시간,완전성,그리고 비용이다. 이's no 학습/재작성의 절벽에서 일괄 처리를 스트리밍입니다. 그래서 만약 당신이 작성 일괄 파이프라인을 하지만 오늘은 내일 당신의 대기 시간이 필요 변경,it's 믿을 수 없을만큼 쉽게 조정할 수 있습니다. 당신이 볼 수 있습니다 이런 종류의 여행에서모바일 게임의 예.

*Api 을 높이고 추상화 수준:빔's Api 에 초점을 캡처 속성 데이터와 논리,시키는 대신 정보의 기본 런타임을 통해 누출. 이것은 모두 키위한 휴대 가능(자세한 설명은 다음에 나열된)및 수 있습 또한 런타임의 많은 유연성에서 그들이 어떻게 실행됩니다. 뭔가 좋아 파르도 퓨전(일명 기능을 구성)은 아주 기본적인 최적화하는 대부분의 주자는 이미 않습니다. 다른 최적화는 아직 구현되는 일부에 대한 선수이다. 예를 들어,빔's원 Api은 특히를 방지하기 위해 만들어졌 overspecification 분할에서 파이프 라인에 있습니다. 대신,그들은 제공자의 후크하여 동적으로 재조정을 통해 작업용 기계입니다. 이 큰 차이를 만들 수 있습에서 성능을 기본적으로 제거 낙오자 조각. 일반적으로,더 smarts 우리를 구축할 수 있으로 주자는 더 나은,우리는'll be. 심지어 가장 주의 손으로 조정 실패로 데이터,코드,그리고 환경 이동합니다.

*휴대성을 통해 런타임입니다.: 기 때문에 데이터 모양의 및 런타임 요구 사항은 깔끔하게 분리,같은 파이프라인에서 실행할 수 있습니다. 그리고 그 의미를't 결국 다시 쓰기 때 코드를 이동해야에서 prem 클라우드 또는 노력이 필요한 시스템에서 뭔가를 절단 가장자리입니다. 할 수 있는 아주 쉽게 옵션을 비교를 찾은 믹스의 환경 성능을 작동하는 최고 현재 필요합니다. 과될 수 있는 혼합의 것--가공에 민감한 데이터를 전제로는 오픈 소스 주자 및 처리의 다른 데이터를 관리 서비스에서 클라우드.

설계 빔 모델 유용한 추상화를 통해 많은,서로 다른 엔진은 까다 롭습니다. 빔도의 교차의 기능은 모든 엔진(너무 제한되어 있습니다!) 도 union(너무 많이 부엌 싱크대!). 대신,빔려의 최전선에있는 데이터 처리고,모두를 밀어 기능으로 당 패턴의 런타임 엔진이 있습니다.

잠긴 상태로의 기능에 존재하는 다양한 엔진이 사용되고 재미 있고 일반적 사용의 경우,그러나지 않았't 원래에서 표현할 수 있다. 우리는 최근에 확장 빔 모델을 포함 버전의 본능에 따라 빔's디자인 원칙. 반대로,우리는 희망 빔 영향을 미칠 것이 향후의 다양한 엔진뿐만 아니라. 예를 들어,의미론의 flink 은's DataStreams 었영향에 의해 광속(n&#233,e 데이터 흐름)모델이다. *이것은 또한 기능이 정확히 동일에 걸쳐 다른 빔 주자에서 주어진 시기가 있습니다. 그래서는's 왜 우리는'다시 사용하여기능을 매트릭스도를 분명하게 전달할 수 있는 상태의 것들입니다.

해설 (0)