toanthang496
New member
[TIẾNG VIỆT]:
## Hướng dẫn Amazon EMR: Hướng dẫn từng bước
Amazon đàn hồi MapReduce (EMR) là một dịch vụ dựa trên đám mây giúp dễ dàng xử lý một lượng lớn dữ liệu.Đây là một dịch vụ được quản lý đầy đủ, điều đó có nghĩa là Amazon chăm sóc cơ sở hạ tầng cơ bản, vì vậy bạn có thể tập trung vào việc chạy các ứng dụng của mình.
Trong hướng dẫn này, bạn sẽ học cách sử dụng Amazon EMR để xử lý một bộ dữ liệu lớn các giao dịch của khách hàng.Bạn sẽ học cách tạo một cụm EMR, gửi một công việc đến cụm và theo dõi tiến trình của công việc.
## Điều kiện tiên quyết
Để làm theo hướng dẫn này, bạn sẽ cần những điều sau đây:
* Tài khoản Amazon Web Services (AWS)
* Giao diện dòng lệnh AWS (CLI)
* SDK AWS cho Python
## Tạo cụm EMR
Bước đầu tiên là tạo một cụm EMR.Cụm EMR là một nhóm các trường hợp Amazon EC2 được cấu hình để chạy Hadoop Jobs.
Để tạo cụm EMR, bạn có thể sử dụng bảng điều khiển quản lý AWS hoặc AWS CLI.Trong hướng dẫn này, chúng tôi sẽ sử dụng AWS CLI.
Để tạo cụm EMR bằng AWS CLI, hãy chạy lệnh sau:
`` `
AWS EMR tạo cụm-tên của tôi-EMR Cluster-Phát hành-Label EMR-5.29.0-
`` `
Lệnh này sẽ tạo ra một cụm EMR với ba phiên bản M5.xlarge.Cụm sẽ được đặt tên là "My-EMR Cluster" và nó sẽ chạy phiên bản mới nhất của Amazon EMR.
## Gửi công việc cho cụm EMR
Khi bạn đã tạo một cụm EMR, bạn có thể gửi một công việc cho cụm.Một công việc là một đơn vị công việc được gửi đến một cụm EMR.Việc làm có thể được viết bằng nhiều ngôn ngữ khác nhau, bao gồm Java, Python và Scala.
Trong hướng dẫn này, chúng tôi sẽ gửi một công việc cho cụm sẽ đọc một bộ dữ liệu giao dịch của khách hàng và tính tổng doanh số cho mỗi sản phẩm.
Để gửi một công việc cho cụm EMR, bạn có thể sử dụng bảng điều khiển quản lý AWS hoặc AWS CLI.Trong hướng dẫn này, chúng tôi sẽ sử dụng AWS CLI.
Để gửi một công việc cho cụm EMR bằng AWS CLI, hãy chạy lệnh sau:
`` `
AWS EMR SUBS-JOB --JOB-NAME My-EMR-JOB --Steps Type = Spark, name = Sales khách hàng, JAR = S3: //my-bucket/my-emr-job.jar,args= ["S3: //my-bucket/customer-transactions.csv "]
`` `
Lệnh này sẽ gửi một công việc cho cụm sẽ đọc bộ dữ liệu của các giao dịch của khách hàng từ S3 và tính tổng doanh số cho mỗi sản phẩm.
## Giám sát tiến trình của một công việc
Bạn có thể theo dõi tiến trình của một công việc bằng cách sử dụng bảng điều khiển quản lý AWS hoặc AWS CLI.Trong hướng dẫn này, chúng tôi sẽ sử dụng AWS CLI.
Để theo dõi tiến trình của một công việc bằng cách sử dụng AWS CLI, hãy chạy lệnh sau:
`` `
AWS EMR Danh sách-jobs-cluses-id-id của tôi
`` `
Lệnh này sẽ liệt kê tất cả các công việc đang chạy trên cụm.Bạn có thể sử dụng cột "ID công việc" để tìm ID của công việc mà bạn quan tâm.
Để có thêm thông tin về một công việc, bạn có thể chạy lệnh sau:
`` `
AWS EMR Mô tả-JOB --JOB-ID My-EMR-JOB-ID
`` `
Lệnh này sẽ trả về một đối tượng JSON chứa thông tin về công việc, bao gồm trạng thái của công việc, số lượng nhiệm vụ đã được hoàn thành và thời gian ước tính để hoàn thành.
## Xử lý sự cố
Nếu bạn gặp bất kỳ vấn đề nào trong khi làm theo hướng dẫn này, bạn có thể tham khảo các tài nguyên sau:
* [Tài liệu Amazon EMR] (https://docs.aws.amazon.com/emr/latest/releaseguide/emr-gsg.html)
* [Diễn đàn Amazon EMR] (Forums)
* [Hỗ trợ Amazon EMR] (https: // AWS.
[ENGLISH]:
## Amazon EMR Tutorial: A Step-by-Step Guide
Amazon Elastic MapReduce (EMR) is a cloud-based service that makes it easy to process large amounts of data. It is a fully managed service, which means that Amazon takes care of the underlying infrastructure, so you can focus on running your applications.
In this tutorial, you will learn how to use Amazon EMR to process a large dataset of customer transactions. You will learn how to create an EMR cluster, submit a job to the cluster, and monitor the progress of the job.
## Prerequisites
To follow this tutorial, you will need the following:
* An Amazon Web Services (AWS) account
* The AWS Command Line Interface (CLI)
* The AWS SDK for Python
## Creating an EMR Cluster
The first step is to create an EMR cluster. An EMR cluster is a group of Amazon EC2 instances that are configured to run Hadoop jobs.
To create an EMR cluster, you can use the AWS Management Console or the AWS CLI. In this tutorial, we will use the AWS CLI.
To create an EMR cluster using the AWS CLI, run the following command:
```
aws emr create-cluster --name my-emr-cluster --release-label emr-5.29.0 --instance-type m5.xlarge --instance-count 3
```
This command will create an EMR cluster with three m5.xlarge instances. The cluster will be named "my-emr-cluster" and it will be running the latest version of Amazon EMR.
## Submitting a Job to an EMR Cluster
Once you have created an EMR cluster, you can submit a job to the cluster. A job is a unit of work that is submitted to an EMR cluster. Jobs can be written in a variety of languages, including Java, Python, and Scala.
In this tutorial, we will submit a job to the cluster that will read a dataset of customer transactions and calculate the total sales for each product.
To submit a job to an EMR cluster, you can use the AWS Management Console or the AWS CLI. In this tutorial, we will use the AWS CLI.
To submit a job to an EMR cluster using the AWS CLI, run the following command:
```
aws emr submit-job --job-name my-emr-job --steps Type=Spark,Name=Customer Sales,Jar=s3://my-bucket/my-emr-job.jar,Args=["s3://my-bucket/customer-transactions.csv"]
```
This command will submit a job to the cluster that will read the dataset of customer transactions from S3 and calculate the total sales for each product.
## Monitoring the Progress of a Job
You can monitor the progress of a job using the AWS Management Console or the AWS CLI. In this tutorial, we will use the AWS CLI.
To monitor the progress of a job using the AWS CLI, run the following command:
```
aws emr list-jobs --cluster-id my-emr-cluster
```
This command will list all of the jobs that are running on the cluster. You can use the "Job ID" column to find the ID of the job that you are interested in.
To get more information about a job, you can run the following command:
```
aws emr describe-job --job-id my-emr-job-id
```
This command will return a JSON object that contains information about the job, including the status of the job, the number of tasks that have been completed, and the estimated time to completion.
## Troubleshooting
If you encounter any problems while following this tutorial, you can refer to the following resources:
* [Amazon EMR Documentation](https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-gsg.html)
* [Amazon EMR Forums](https://forums.aws.amazon.com/forum.jspa?forumID=218)
* [Amazon EMR Support](https://aws.
## Hướng dẫn Amazon EMR: Hướng dẫn từng bước
Amazon đàn hồi MapReduce (EMR) là một dịch vụ dựa trên đám mây giúp dễ dàng xử lý một lượng lớn dữ liệu.Đây là một dịch vụ được quản lý đầy đủ, điều đó có nghĩa là Amazon chăm sóc cơ sở hạ tầng cơ bản, vì vậy bạn có thể tập trung vào việc chạy các ứng dụng của mình.
Trong hướng dẫn này, bạn sẽ học cách sử dụng Amazon EMR để xử lý một bộ dữ liệu lớn các giao dịch của khách hàng.Bạn sẽ học cách tạo một cụm EMR, gửi một công việc đến cụm và theo dõi tiến trình của công việc.
## Điều kiện tiên quyết
Để làm theo hướng dẫn này, bạn sẽ cần những điều sau đây:
* Tài khoản Amazon Web Services (AWS)
* Giao diện dòng lệnh AWS (CLI)
* SDK AWS cho Python
## Tạo cụm EMR
Bước đầu tiên là tạo một cụm EMR.Cụm EMR là một nhóm các trường hợp Amazon EC2 được cấu hình để chạy Hadoop Jobs.
Để tạo cụm EMR, bạn có thể sử dụng bảng điều khiển quản lý AWS hoặc AWS CLI.Trong hướng dẫn này, chúng tôi sẽ sử dụng AWS CLI.
Để tạo cụm EMR bằng AWS CLI, hãy chạy lệnh sau:
`` `
AWS EMR tạo cụm-tên của tôi-EMR Cluster-Phát hành-Label EMR-5.29.0-
`` `
Lệnh này sẽ tạo ra một cụm EMR với ba phiên bản M5.xlarge.Cụm sẽ được đặt tên là "My-EMR Cluster" và nó sẽ chạy phiên bản mới nhất của Amazon EMR.
## Gửi công việc cho cụm EMR
Khi bạn đã tạo một cụm EMR, bạn có thể gửi một công việc cho cụm.Một công việc là một đơn vị công việc được gửi đến một cụm EMR.Việc làm có thể được viết bằng nhiều ngôn ngữ khác nhau, bao gồm Java, Python và Scala.
Trong hướng dẫn này, chúng tôi sẽ gửi một công việc cho cụm sẽ đọc một bộ dữ liệu giao dịch của khách hàng và tính tổng doanh số cho mỗi sản phẩm.
Để gửi một công việc cho cụm EMR, bạn có thể sử dụng bảng điều khiển quản lý AWS hoặc AWS CLI.Trong hướng dẫn này, chúng tôi sẽ sử dụng AWS CLI.
Để gửi một công việc cho cụm EMR bằng AWS CLI, hãy chạy lệnh sau:
`` `
AWS EMR SUBS-JOB --JOB-NAME My-EMR-JOB --Steps Type = Spark, name = Sales khách hàng, JAR = S3: //my-bucket/my-emr-job.jar,args= ["S3: //my-bucket/customer-transactions.csv "]
`` `
Lệnh này sẽ gửi một công việc cho cụm sẽ đọc bộ dữ liệu của các giao dịch của khách hàng từ S3 và tính tổng doanh số cho mỗi sản phẩm.
## Giám sát tiến trình của một công việc
Bạn có thể theo dõi tiến trình của một công việc bằng cách sử dụng bảng điều khiển quản lý AWS hoặc AWS CLI.Trong hướng dẫn này, chúng tôi sẽ sử dụng AWS CLI.
Để theo dõi tiến trình của một công việc bằng cách sử dụng AWS CLI, hãy chạy lệnh sau:
`` `
AWS EMR Danh sách-jobs-cluses-id-id của tôi
`` `
Lệnh này sẽ liệt kê tất cả các công việc đang chạy trên cụm.Bạn có thể sử dụng cột "ID công việc" để tìm ID của công việc mà bạn quan tâm.
Để có thêm thông tin về một công việc, bạn có thể chạy lệnh sau:
`` `
AWS EMR Mô tả-JOB --JOB-ID My-EMR-JOB-ID
`` `
Lệnh này sẽ trả về một đối tượng JSON chứa thông tin về công việc, bao gồm trạng thái của công việc, số lượng nhiệm vụ đã được hoàn thành và thời gian ước tính để hoàn thành.
## Xử lý sự cố
Nếu bạn gặp bất kỳ vấn đề nào trong khi làm theo hướng dẫn này, bạn có thể tham khảo các tài nguyên sau:
* [Tài liệu Amazon EMR] (https://docs.aws.amazon.com/emr/latest/releaseguide/emr-gsg.html)
* [Diễn đàn Amazon EMR] (Forums)
* [Hỗ trợ Amazon EMR] (https: // AWS.
[ENGLISH]:
## Amazon EMR Tutorial: A Step-by-Step Guide
Amazon Elastic MapReduce (EMR) is a cloud-based service that makes it easy to process large amounts of data. It is a fully managed service, which means that Amazon takes care of the underlying infrastructure, so you can focus on running your applications.
In this tutorial, you will learn how to use Amazon EMR to process a large dataset of customer transactions. You will learn how to create an EMR cluster, submit a job to the cluster, and monitor the progress of the job.
## Prerequisites
To follow this tutorial, you will need the following:
* An Amazon Web Services (AWS) account
* The AWS Command Line Interface (CLI)
* The AWS SDK for Python
## Creating an EMR Cluster
The first step is to create an EMR cluster. An EMR cluster is a group of Amazon EC2 instances that are configured to run Hadoop jobs.
To create an EMR cluster, you can use the AWS Management Console or the AWS CLI. In this tutorial, we will use the AWS CLI.
To create an EMR cluster using the AWS CLI, run the following command:
```
aws emr create-cluster --name my-emr-cluster --release-label emr-5.29.0 --instance-type m5.xlarge --instance-count 3
```
This command will create an EMR cluster with three m5.xlarge instances. The cluster will be named "my-emr-cluster" and it will be running the latest version of Amazon EMR.
## Submitting a Job to an EMR Cluster
Once you have created an EMR cluster, you can submit a job to the cluster. A job is a unit of work that is submitted to an EMR cluster. Jobs can be written in a variety of languages, including Java, Python, and Scala.
In this tutorial, we will submit a job to the cluster that will read a dataset of customer transactions and calculate the total sales for each product.
To submit a job to an EMR cluster, you can use the AWS Management Console or the AWS CLI. In this tutorial, we will use the AWS CLI.
To submit a job to an EMR cluster using the AWS CLI, run the following command:
```
aws emr submit-job --job-name my-emr-job --steps Type=Spark,Name=Customer Sales,Jar=s3://my-bucket/my-emr-job.jar,Args=["s3://my-bucket/customer-transactions.csv"]
```
This command will submit a job to the cluster that will read the dataset of customer transactions from S3 and calculate the total sales for each product.
## Monitoring the Progress of a Job
You can monitor the progress of a job using the AWS Management Console or the AWS CLI. In this tutorial, we will use the AWS CLI.
To monitor the progress of a job using the AWS CLI, run the following command:
```
aws emr list-jobs --cluster-id my-emr-cluster
```
This command will list all of the jobs that are running on the cluster. You can use the "Job ID" column to find the ID of the job that you are interested in.
To get more information about a job, you can run the following command:
```
aws emr describe-job --job-id my-emr-job-id
```
This command will return a JSON object that contains information about the job, including the status of the job, the number of tasks that have been completed, and the estimated time to completion.
## Troubleshooting
If you encounter any problems while following this tutorial, you can refer to the following resources:
* [Amazon EMR Documentation](https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-gsg.html)
* [Amazon EMR Forums](https://forums.aws.amazon.com/forum.jspa?forumID=218)
* [Amazon EMR Support](https://aws.