관리 메뉴

IT & Life

[해외] Microsoft의 R 도구는 데이터 과학을 대중에게 제공합니다. 본문

프로그래밍/R

[해외] Microsoft의 R 도구는 데이터 과학을 대중에게 제공합니다.

미운앙마 2017. 12. 3. 02:00

https://www.infoworld.com/article/3156544/big-data/microsofts-r-tools-bring-data-science-to-the-masses.html

 

 

Microsoft의 R 도구는 데이터 과학을 대중에게 제공합니다.

오픈 소스 R은 대용량 데이터 분석의 핵심이며 Microsoft는 언어로 많은 도구를 주입했습니다.

 

 


Microsoft의 최근 인수 중 하나는 오픈 소스 통계 프로그래밍 언어 R을 사용하여 대용량 데이터 문제를 해결하기위한 도구를 제작 한 회사 인 Revolution Analytics 입니다. 오픈 소스 모델과 상용 툴을 결합한 Revolution Analytics는 학업 및 개인 사용을 지원하는 다양한 툴과 Hadoop을 비롯한 방대한 양의 데이터를 활용 한 소프트웨어를 제공했습니다. Microsoft의 책임하에 R-Server는 현재 온 - 프레미스 (on-premises)와 클라우드 데이터 사이의 다리가되었습니다.

 

2 년 후, Microsoft는 R 도구에 대한 주요 업데이트를 발표했습니다. R 프로그래밍 언어는 Azure 및 SQL Server에서 지원되며 Azure Machine Learning 서비스에서 데이터 전략의 중요한 부분이되었습니다. Azure Machine Learning 서비스는 컴퓨터 학습 파이프 라인에 데이터를 전달하기 전에 데이터를 사전 처리하는 데 사용할 수 있습니다 . 또한 Microsoft의 주요 크로스 플랫폼 서버 제품 중 하나이며 Red Hat Linux 및 Suse Linux 용 버전이 있습니다.

 


R은 Microsoft의 생태계 어디 에나 있습니다.

 

Microsoft 외의 오픈 소스 R은 학술 환경에서 많은 지원을받는 데이터 과학의 핵심 도구가되었습니다. (현재 IEEE에서 모든 언어로 5 위를 차지하고 있습니다.) 종합 R 아카이브 네트워크 ( CRAN, R 응용 프로그램의 공용 라이브러리 )가 현재 R을 시작하려면 통계 전문가 일 필요는 없습니다. 는 데이터와 함께 사용할 수있는 9,000 개 이상의 통계 모듈과 알고리즘을 보유하고 있습니다.

 

Microsoft의 R 비전은 데스크톱, 사내 구축 형 서버 및 클라우드 간의 경계를 넘는 것입니다. 로컬에는 무료 R 개발 클라이언트 와 Microsoft의 (유료) 플래그쉽 비주얼 스튜디오 개발 환경에서의 R 지원이 있습니다. 구내에서 R 서버는 Windows 및 Linux 뿐만 아니라 SQL Server 내 에서 실행 되므로 데이터와 함께 통계 분석 도구에 액세스 할 수 있습니다. Azure에서는 Microsoft의 HDInsight 서비스와 함께 R Server를 실행할 수있는 반면, Hadoop 및 Spark를 기반으로 한 대규모의 대규모 데이터 서비스도 지원됩니다 .

 

R은 데이터 과학자를위한 도구입니다. R 언어는 비교적 간단 하지만 통계 분석을 최대한 활용하려면 통계 분석에 대한 깊은 지식이 필요합니다. 오랫동안 대학 수준의 통계 수업을 듣기 시작한 지 오래되었으므로 많은 개념의 기본 개념에 복잡한 통계 기능에 대한 대학원 수준의 이해가 필요하기 때문에 연구를 시작한 것으로 나타났습니다. 질문은 R 코드를 작성할 수 있는지 여부와 관계가 없습니다. 결과가 무엇인지 이해할 수 있는지 여부입니다.

이는 큰 데이터로 작업하려는 모든 조직이 직면 한 가장 큰 문제입니다. 원하는 분석을 생성하는 데 필요한 기술을 습득하고 더 중요한 것은 얻은 결과를 해석하는 것입니다. R은 주요 통계 측정을 시각화하는 데 도움이되는 내장 그래프 도구를 사용하여 여기에서 확실히 도움이됩니다.

 

 

Microsoft R 서버 작업

 

무료 Microsoft R Open을 사용하면 분석 팀이 서버 제품에 투자하기 전에 R 속도를 높일 수 있습니다. 또한 새로운 분석 알고리즘을 신속하게 시험하고 데이터를 사용하여 대답하려는 질문을 탐색하는 데 유용한 도구입니다. 이러한 접근 방식은 데이터 준비부터 모델 개발, 비즈니스 애플리케이션에 내장 할 수있는 도구로 모델을 전환하는 전반적인 분석 라이프 사이클의 일부로 잘 작동합니다.

 

R의 흥미로운 역할 중 하나는 GPU 기반 기계 학습 도구입니다. 여기서 R은 모델을 대규모로 사용하기 전에 모델을 교육하는 데 사용됩니다. Microsoft는 최신 R Server 릴리스와 함께 자체 기계 학습 알고리즘을 번들로 제공하므로 모델을 로컬 빅 데이터 인스턴스 또는 클라우드에 업로드하기 전에 모델을 테스트 할 수 있습니다. 최근의 기자 회견에서 Microsoft는 클라우드 호스트 GPU에서 결과 모델을 실행하기 전에 은하계 라이브러리가있는 로컬 서버에서 기계 학습 기반 분류자를 교육하여 천문학 이미지로이 접근법을 시연했습니다.

 

R은 이산 샘플 데이터를 처리하도록 설계된 매우 휴대용 언어입니다. 따라서 데이터 병렬 문제에 대해 확장 성이 뛰어나고 이상적입니다. 동일한 R 모델을 여러 서버에서 실행할 수 있으므로 많은 양의 데이터를 신속하게 처리 할 수 ​​있습니다. 데이터를 적절히 처리 한 다음 다양한 R 서버 인스턴스로 전달하면됩니다. 마찬가지로 동일한 코드가 여러 구현에서 실행될 수 있으므로 로컬 데이터 원본에 대해 작성 및 테스트 된 모델을 SQL Server 데이터베이스 내에 배포하고 Hadoop 데이터 호수에서 실행할 수 있습니다.

 

 

R은 운영 데이터 모델을 쉽게 만듭니다.

 

따라서, R은 조작하기가 매우 쉽습니다. 개발자가 필요한 응용 프로그램을 작성하고 코드를 활용할 수있는 인프라를 구축하는 동안 데이터 과학 팀은 필요한 모델을 구축 할 수 있습니다. 일단 준비가되면 모델을 신속하게 배포 할 수 있으며 나머지 응용 프로그램에 영향을주지 않고 향후 개선 된 모델로 교체 할 수도 있습니다. 같은 방식으로 동일한 모델을 여러 애플리케이션에서 사용할 수 있으며 동일한 데이터로 작업 할 수 있습니다.

 

공통 모델을 사용하면 내부 대시 보드에서 고객 및 소비자 관련 코드와 동일한 대답을 표시 할 수 있습니다. 그런 다음 데이터를 사용하여 사전 대응 적으로 대응할 수 있습니다. 예를 들어, 모델이 기상 지연을 예측할 때 항공사 승객에게 지연 및 재 예약 정보를 제공 할 수 있습니다. 이 모델은 더 많은 데이터를 얻으면 더 세분화되어 오탐 (false positive) 및 위음성 (false negative)의 위험을 줄일 수 있습니다.

 

SQL Server에 R 지원을 구축하는 것은 많은 의미가 있습니다. Microsoft의 데이터베이스 플랫폼이 사내 구축 형 데이터와 클라우드 간의 다리 역할을하고 기록 시스템과 대규모 데이터 도구 간의 다리 역할을하므로 데이터베이스에 미세한 분석 도구를 사용하는 것은 결코 쉬운 일이 아닙니다. 간단한 유틸리티는 R 모델을 가져 와서 SQL 애플리케이션 내부에서 사용할 준비가 된 procs로 만듭니다. 데이터베이스 개발자는 데이터 분석 팀과 협력하여 해당 모델을 구현할 수 있으며 응용 프로그램에 구축 할 수있는 새로운 기술을 배울 필요가 없습니다.

 

Microsoft는 모든 기업이 데이터 과학자를 고용 할 필요가 있거나 예산을 보유하고있는 것은 아니라는 점을 알고 있습니다. 고객 이탈을 예측하거나 온라인 상점에서 사기를 탐지하는 것과 같은 일반적인 분석 문제를 해결하는 경우 즉시 사용할 수있는 모델이 포함 된 SQL Server의 R 서비스에 대한 미리 정의 된 다양한 템플릿을 사용하여 작업 할 수 있습니다. Microsoft의 MSDN에서 사용 가능하며 R 호환 IDE에서 완벽하게 사용자 지정할 수 있으며 PowerShell 스크립트를 사용하여 배포 할 수 있습니다.

Comments