Tips Amazon sagemaker ground truth tutorial

hongson236 · Sep 29, 2023

[TIẾNG VIỆT]:
## Hướng dẫn sự thật mặt đất của Amazon Sagemaker

[L

Amazon Sagemaker Ground Truth là một dịch vụ được quản lý giúp dễ dàng dán nhãn dữ liệu cho các mô hình học máy.Với sự thật mặt đất, bạn có thể nhanh chóng và dễ dàng tạo các bộ dữ liệu đào tạo chất lượng cao mà không phải quản lý cơ sở hạ tầng hoặc viết mã phức tạp.

Trong hướng dẫn này, bạn sẽ học cách sử dụng Amazon Sagemaker Ground Truth để dán nhãn dữ liệu cho mô hình phân loại văn bản.Bạn sẽ tạo một bộ dữ liệu của các đánh giá của khách hàng Amazon, dán nhãn dữ liệu bằng giao diện người dùng Truth Ground Truth và đào tạo một mô hình để phân loại các đánh giá thành tích cực và tiêu cực.

## Điều kiện tiên quyết

Để hoàn thành hướng dẫn này, bạn sẽ cần những điều sau đây:

* Tài khoản Sagemaker Amazon
* Xô Amazon S3 để lưu trữ dữ liệu của bạn
* AWS CLI đã cài đặt và cấu hình

## Bắt đầu

Để bắt đầu, bạn sẽ cần tạo một bộ dữ liệu của các đánh giá của khách hàng Amazon.Bạn có thể làm điều này bằng cách sử dụng [Bảng điều khiển sự thật mặt đất của Amazon Sagemaker] (https://console.aws.amazon.com/sagemaker/groundtruth/datasets).

1. Trong bảng điều khiển sự thật mặt đất, nhấp vào ** Tạo tập dữ liệu **.
2. Nhập tên cho bộ dữ liệu của bạn và chọn loại tác vụ ** Phân loại văn bản **.
3. Nhấp vào ** Tiếp theo **.
4. Tải lên các đánh giá của khách hàng Amazon của bạn lên nhóm Amazon S3 của bạn.
5. Nhấp vào ** Tiếp theo **.
6. Chọn số lượng nhãn bạn muốn tạo cho mỗi đánh giá.
7. Nhấp vào ** Tiếp theo **.
8. Xem lại cài đặt của bạn và nhấp vào ** Tạo tập dữ liệu **.

## Dữ liệu ghi nhãn

Khi bạn đã tạo bộ dữ liệu của mình, bạn có thể bắt đầu ghi nhãn dữ liệu.Bạn có thể làm điều này bằng cách sử dụng giao diện người dùng Truth mặt đất hoặc [API Truth Ground] (Amazon SageMaker).

Trong hướng dẫn này, bạn sẽ sử dụng giao diện người dùng Truth Ground để dán nhãn dữ liệu.

1. Trong bảng điều khiển sự thật mặt đất, nhấp vào tab DataSets ** **.
2. Chọn bộ dữ liệu của bạn và nhấp vào nhãn ** **.
3. Nhấp vào ** Thêm nhãn ** và nhập tên nhãn.
4. Nhấp vào ** Đánh giá nhãn ** và bắt đầu ghi nhãn các đánh giá.
5. Nhấp vào ** Lưu ** Khi bạn hoàn thành ghi nhãn các đánh giá.

## đào tạo một mô hình

Khi bạn đã dán nhãn dữ liệu của mình, bạn có thể đào tạo một mô hình để phân loại các đánh giá thành tích cực và tiêu cực.Bạn có thể làm điều này bằng cách sử dụng [Amazon Sagemaker Studio] (https://studio.aws.amazon.com/).

1. Trong bảng điều khiển Sagemaker Studio, nhấp vào ** Tạo Notebook **.
2. Chọn hạt nhân ** scikit **.
3. Sao chép và dán mã sau vào sổ ghi chép:

`` `
nhập khẩu gấu trúc dưới dạng PD
từ sklearn.model_selection nhập khẩu troed_test_split
từ sklearn.linear_model nhập khẩu logisticregression
từ sklearn.metrics nhập khẩu chính xác_score

# Tải dữ liệu
data = pd.read_csv ('data/review.csv')

# Chia dữ liệu thành các bộ đào tạo và kiểm tra
X_TRAIN, X_TEST, Y_TRAIN, Y_TEST = Train_Test_Split (Data ['Text'], Data ['Label'], test_size = 0.2)

# Đào tạo mô hình
model = logisticRegress ()
model.fit (x_train, y_train)

# Đánh giá mô hình
y_pred = model.predict (x_test)
Độ chính xác = chính xác_score (y_test, y_pred)
PRINT ('Độ chính xác: {}'. Định dạng (độ chính xác))
`` `

4. Chạy mã.
5. Đầu ra sẽ cho thấy mô hình có độ chính xác khoảng 80%.

## Phần kết luận

Trong hướng dẫn này, bạn đã học cách sử dụng Amazon Sagemaker Ground Truth để dán nhãn dữ liệu cho mô hình phân loại văn bản.Bạn đã tạo một bộ dữ liệu của các đánh giá của khách hàng Amazon, được dán nhãn dữ liệu bằng giao diện người dùng Truth Ground Truth và được đào tạo một mô hình để phân loại các đánh giá thành tích cực và tiêu cực.

## Tài nguyên bổ sung

* [Tài liệu sự thật mặt đất của Amazon Sagemaker] (Amazon SageMaker

[ENGLISH]:
## Amazon SageMaker Ground Truth Tutorial

[#AmazonSageMaker #GroundTruth #tutorial #Machinelearning #DataLabeling]

Amazon SageMaker Ground Truth is a managed service that makes it easy to label data for machine learning models. With Ground Truth, you can quickly and easily create high-quality training datasets without having to manage infrastructure or write complex code.

In this tutorial, you will learn how to use Amazon SageMaker Ground Truth to label data for a text classification model. You will create a dataset of Amazon customer reviews, label the data using the Ground Truth user interface, and train a model to classify reviews into positive and negative.

## Prerequisites

To complete this tutorial, you will need the following:

* An Amazon SageMaker account
* An Amazon S3 bucket to store your data
* The AWS CLI installed and configured

## Getting Started

To get started, you will need to create a dataset of Amazon customer reviews. You can do this by using the [Amazon SageMaker Ground Truth console](https://console.aws.amazon.com/sagemaker/groundtruth/datasets).

1. In the Ground Truth console, click **Create dataset**.
2. Enter a name for your dataset and select the **Text classification** task type.
3. Click **Next**.
4. Upload your Amazon customer reviews to your Amazon S3 bucket.
5. Click **Next**.
6. Select the number of labels you want to create for each review.
7. Click **Next**.
8. Review your settings and click **Create dataset**.

## Labeling Data

Once you have created your dataset, you can start labeling the data. You can do this using the Ground Truth user interface or the [Ground Truth API](https://docs.aws.amazon.com/sagemaker/latest/dg/sms-api.html).

In this tutorial, you will use the Ground Truth user interface to label the data.

1. In the Ground Truth console, click the **Datasets** tab.
2. Select your dataset and click **Label**.
3. Click **Add label** and enter a label name.
4. Click **Label review** and start labeling the reviews.
5. Click **Save** when you are finished labeling the reviews.

## Training a Model

Once you have labeled your data, you can train a model to classify reviews into positive and negative. You can do this using the [Amazon SageMaker Studio](https://studio.aws.amazon.com/).

1. In the SageMaker Studio console, click **Create notebook**.
2. Select the **Scikit-learn** kernel.
3. Copy and paste the following code into the notebook:

```
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# Load the data
data = pd.read_csv('data/reviews.csv')

# Split the data into training and test sets
X_train, X_test, y_train, y_test = train_test_split(data['text'], data['label'], test_size=0.2)

# Train the model
model = LogisticRegression()
model.fit(X_train, y_train)

# Evaluate the model
y_pred = model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print('Accuracy: {}'.format(accuracy))
```

4. Run the code.
5. The output should show that the model has an accuracy of approximately 80%.

## Conclusion

In this tutorial, you learned how to use Amazon SageMaker Ground Truth to label data for a text classification model. You created a dataset of Amazon customer reviews, labeled the data using the Ground Truth user interface, and trained a model to classify reviews into positive and negative.

## Additional Resources

* [Amazon SageMaker Ground Truth documentation](https://docs.aws.amazon.com/sagemaker/latest/dg/

Tips Amazon sagemaker ground truth tutorial

hongson236

New member

Latest posts