Tips Extract Text from Images with Amazon Textract

ducgiangchuckles · Sep 28, 2023

[TIẾNG VIỆT]:
Amazon Textract là một dịch vụ được quản lý đầy đủ, tự động trích xuất văn bản và dữ liệu từ các tài liệu, biểu mẫu và hình ảnh được quét.Nó có thể xác định văn bản bằng nhiều ngôn ngữ, bao gồm tiếng Anh, tiếng Pháp, tiếng Đức, tiếng Tây Ban Nha, tiếng Ý và tiếng Bồ Đào Nha.Textract cũng có thể trích xuất các bảng, danh sách và dữ liệu có cấu trúc khác từ các tài liệu.

Để trích xuất văn bản từ một hình ảnh với Amazon Textract, bạn có thể sử dụng các bước sau:

1. Tải hình ảnh lên Amazon Textract.
2. Chọn ngôn ngữ của hình ảnh.
3. Chọn loại đầu ra bạn muốn.Bạn có thể chọn để Textract trả về văn bản dưới dạng chuỗi, đối tượng JSON hoặc tệp PDF.
4. Nhấp vào ** Trích xuất **.

Textract sau đó sẽ trích xuất văn bản từ hình ảnh và trả về định dạng bạn đã chọn.

Dưới đây là một ví dụ về cách trích xuất văn bản từ một hình ảnh bằng Amazon Textract.

1. Tải hình ảnh sau lên Amazon Textract:

[Hình ảnh của một tài liệu có văn bản]

2. Chọn ngôn ngữ của hình ảnh.Trong trường hợp này, hình ảnh bằng tiếng Anh.
3. Chọn loại đầu ra bạn muốn.Trong trường hợp này, chúng tôi sẽ chọn Textract trả lại văn bản dưới dạng chuỗi.
4. Nhấp vào ** Trích xuất **.

Textract sau đó sẽ trích xuất văn bản từ hình ảnh và trả về nó dưới dạng chuỗi.Văn bản được trả về ở định dạng sau:

`` `
"Đây là một tài liệu với văn bản."
`` `

Bạn cũng có thể sử dụng Amazon Textract để trích xuất văn bản từ các hình ảnh có chứa bảng, danh sách và dữ liệu có cấu trúc khác.Để biết thêm thông tin, hãy xem [Tài liệu Amazon Textract] (Amazon Textract).

** Bài viết tham khảo: **

* [Tài liệu Amazon Textract] (Amazon Textract)
* [Cách trích xuất văn bản từ hình ảnh với Amazon Textract] (https://aws.amazon.com/blogs/machine-learning/how-to-extract-text-from-images-with-amazon-textract/)
* [Giá Amazon Textract] (Intelligently Extract Text & Data with OCR - Amazon Textract Pricing - Amazon Web Services)

[ENGLISH]:
Amazon Textract is a fully managed service that automatically extracts text and data from scanned documents, forms, and images. It can identify text in a variety of languages, including English, French, German, Spanish, Italian, and Portuguese. Textract can also extract tables, lists, and other structured data from documents.

To extract text from an image with Amazon Textract, you can use the following steps:

1. Upload the image to Amazon Textract.
2. Select the language of the image.
3. Choose the type of output you want. You can choose to have Textract return the text as a string, a JSON object, or a PDF file.
4. Click **Extract**.

Textract will then extract the text from the image and return it in the format you selected.

Here is an example of how to extract text from an image using Amazon Textract.

1. Upload the following image to Amazon Textract:

[Image of a document with text]

2. Select the language of the image. In this case, the image is in English.
3. Choose the type of output you want. In this case, we will choose to have Textract return the text as a string.
4. Click **Extract**.

Textract will then extract the text from the image and return it as a string. The text is returned in the following format:

```
"This is a document with text."
```

You can also use Amazon Textract to extract text from images that contain tables, lists, and other structured data. For more information, see the [Amazon Textract documentation](https://docs.aws.amazon.com/textract/latest/dg/).

**Reference articles:**

* [Amazon Textract documentation](https://docs.aws.amazon.com/textract/latest/dg/)
* [How to extract text from images with Amazon Textract](https://aws.amazon.com/blogs/machine-learning/how-to-extract-text-from-images-with-amazon-textract/)
* [Amazon Textract pricing](https://aws.amazon.com/textract/pricing/)

Tips Extract Text from Images with Amazon Textract

ducgiangchuckles

New member

Latest posts