Tips Amazon aws glue tutorial

phuanultimate

New member
[TIẾNG VIỆT]:
## Hướng dẫn keo của Amazon AWS: Hướng dẫn từng bước

Gây keo Amazon AWS là một dịch vụ trích xuất, chuyển đổi và tải (ETL) được quản lý đầy đủ, giúp dễ dàng chuẩn bị dữ liệu cho phân tích, học máy và các ứng dụng khác.Trong hướng dẫn này, bạn sẽ tìm hiểu cách sử dụng keo AWS để tạo công việc ETL tải dữ liệu từ tệp CSV vào nhóm dịch vụ lưu trữ đơn giản (S3) của Amazon.

### Điều kiện tiên quyết

Để làm theo hướng dẫn này, bạn sẽ cần những điều sau đây:

* Tài khoản AWS
* Giao diện dòng lệnh AWS (CLI) được cài đặt trên máy tính của bạn
* Tệp dữ liệu CSV mà bạn muốn tải vào S3

### Bước 1: Tạo danh mục dữ liệu keo AWS

Bước đầu tiên là tạo một danh mục dữ liệu keo AWS.Danh mục dữ liệu là một kho lưu trữ trung tâm của siêu dữ liệu về các nguồn dữ liệu của bạn.Nó bao gồm thông tin như vị trí dữ liệu của bạn, lược đồ dữ liệu của bạn và các quyền mà người dùng phải truy cập dữ liệu của bạn.

Để tạo một danh mục dữ liệu, bạn có thể sử dụng bảng điều khiển keo AWS hoặc AWS CLI.Trong hướng dẫn này, chúng tôi sẽ sử dụng AWS CLI.

Để tạo danh mục dữ liệu bằng AWS CLI, hãy chạy lệnh sau:

`` `
AWS keo tạo cơ sở dữ liệu-cơ sở dữ liệu của cơ sở dữ liệu
`` `

Lệnh này sẽ tạo một danh mục dữ liệu có tên là `My-database`.

### Bước 2: Tạo công việc ETL keo AWS

Bây giờ bạn đã tạo một danh mục dữ liệu, bạn có thể tạo một công việc ETL keo AWS.Một công việc ETL là một tập hợp các bước mà bạn có thể sử dụng để chuyển đổi dữ liệu từ định dạng này sang định dạng khác.Trong hướng dẫn này, bạn sẽ tạo một công việc ETL tải dữ liệu từ tệp CSV vào thùng S3.

Để tạo một công việc ETL, bạn có thể sử dụng bảng điều khiển keo AWS hoặc AWS CLI.Trong hướng dẫn này, chúng tôi sẽ sử dụng AWS CLI.

Để tạo một công việc ETL bằng AWS CLI, hãy chạy lệnh sau:

`` `
AWS GLUE CREATE-JOB --JOB-NAME MY-JOB --GLUE-VVers 2.0 --Steps '[{"name": "copyfroms3", "hành động": "sao chép", "đầu vào": [{"name"HayMy-bucket/My-chuyển đổi data.csv "}]}] ''
`` `

Lệnh này sẽ tạo ra một công việc ETL có tên là `my-job`.Công việc ETL sẽ sao chép dữ liệu từ thùng S3 `S3: // My-bucket/my-data.csv` vào thùng s3` S3: // My-bucket/My-Transformed-data.csv`.

### Bước 3: Chạy công việc AWS ETL

Khi bạn đã tạo một công việc ETL keo AWS, bạn có thể chạy công việc để bắt đầu quá trình ETL.Để chạy công việc, bạn có thể sử dụng bảng điều khiển keo AWS hoặc AWS CLI.Trong hướng dẫn này, chúng tôi sẽ sử dụng AWS CLI.

Để chạy một công việc ETL bằng AWS CLI, hãy chạy lệnh sau:

`` `
AWS Keo chạy-job-job-name my-job
`` `

Lệnh này sẽ chạy công việc ETL `my-job`.

### Bước 4: Theo dõi công việc ETL của AWS ETL

Bạn có thể theo dõi tiến trình của công việc ETL keo AWS của mình bằng cách sử dụng bảng điều khiển keo AWS hoặc AWS CLI.Trong hướng dẫn này, chúng tôi sẽ sử dụng bảng điều khiển keo AWS.

Để theo dõi tiến trình của một công việc ETL bằng cách sử dụng bảng điều khiển keo AWS, hãy làm theo các bước sau:

1. Đi đến bảng điều khiển keo AWS.
2. Nhấp vào tab ** công việc **.
3. Nhấp vào tên của công việc ETL mà bạn muốn theo dõi.
4. Trang ** Chi tiết công việc ** sẽ cho bạn thấy trạng thái của công việc ETL.

### Bước 5: Xem kết quả của công việc AWS ETL

Khi công việc ETL đã hoàn thành, bạn có thể

[ENGLISH]:
## Amazon AWS Glue Tutorial: A Step-by-Step Guide

Amazon AWS Glue is a fully managed extract, transform, and load (ETL) service that makes it easy to prepare data for analytics, machine learning, and other applications. In this tutorial, you will learn how to use AWS Glue to create an ETL job that loads data from a CSV file into a Amazon Simple Storage Service (S3) bucket.

### Prerequisites

To follow this tutorial, you will need the following:

* An AWS account
* The AWS Command Line Interface (CLI) installed on your computer
* A CSV file of data that you want to load into S3

### Step 1: Create an AWS Glue Data Catalog

The first step is to create an AWS Glue Data Catalog. The Data Catalog is a central repository of metadata about your data sources. It includes information such as the location of your data, the schema of your data, and the permissions that users have to access your data.

To create a Data Catalog, you can use the AWS Glue console or the AWS CLI. In this tutorial, we will use the AWS CLI.

To create a Data Catalog using the AWS CLI, run the following command:

```
aws glue create-database --database-name my-database
```

This command will create a Data Catalog named `my-database`.

### Step 2: Create an AWS Glue ETL Job

Now that you have created a Data Catalog, you can create an AWS Glue ETL job. An ETL job is a set of steps that you can use to transform data from one format to another. In this tutorial, you will create an ETL job that loads data from a CSV file into an S3 bucket.

To create an ETL job, you can use the AWS Glue console or the AWS CLI. In this tutorial, we will use the AWS CLI.

To create an ETL job using the AWS CLI, run the following command:

```
aws glue create-job --job-name my-job --glue-version 2.0 --steps '[{"name": "CopyFromS3", "action": "Copy", "inputs": [{"name": "S3Input", "s3_uri": "s3://my-bucket/my-data.csv"}], "outputs": [{"name": "S3Output", "s3_uri": "s3://my-bucket/my-transformed-data.csv"}]}]'
```

This command will create an ETL job named `my-job`. The ETL job will copy data from the S3 bucket `s3://my-bucket/my-data.csv` to the S3 bucket `s3://my-bucket/my-transformed-data.csv`.

### Step 3: Run the AWS Glue ETL Job

Once you have created an AWS Glue ETL job, you can run the job to start the ETL process. To run the job, you can use the AWS Glue console or the AWS CLI. In this tutorial, we will use the AWS CLI.

To run an ETL job using the AWS CLI, run the following command:

```
aws glue run-job --job-name my-job
```

This command will run the ETL job `my-job`.

### Step 4: Monitor the AWS Glue ETL Job

You can monitor the progress of your AWS Glue ETL job by using the AWS Glue console or the AWS CLI. In this tutorial, we will use the AWS Glue console.

To monitor the progress of an ETL job using the AWS Glue console, follow these steps:

1. Go to the AWS Glue console.
2. Click on the **Jobs** tab.
3. Click on the name of the ETL job that you want to monitor.
4. The **Job Details** page will show you the status of the ETL job.

### Step 5: View the Results of the AWS Glue ETL Job

Once the ETL job has completed, you can
 
Join Telegram ToolsKiemTrieuDoGroup
Back
Top