Transform Data with AWS Glue Studio (graphical interface)
Biến đổi dữ liệu với AWS Glue Studio
AWS Glue Studio là một giao diện đồ họa mới giúp việc tạo, chạy và giám sát job trích xuất, biến đổi và tải (ETL) dữ liệu trở nên dễ dàng trong AWS Glue. Bạn có thể hình dung quy trình biến đổi dữ liệu một cách trực quan và chạy chúng trên động cơ ETL serverless của AWS Glue dựa trên Apache Spark.
Trong bài thực hành này, chúng ta sẽ thực hiện quá trình ETL tương tự như Biến đổi dữ liệu với AWS Glue (phiên tương tác).
Nhưng lần này chúng ta sẽ tận dụng giao diện đồ họa trực quan trong AWS Glue Studio!
Sử dụng AWS Glue Data Studio, một giao diện đồ họa giúp việc tạo, chạy và giám sát job trích xuất, biến đổi và tải (ETL) dữ liệu trở nên dễ dàng trong AWS Glue.
- Đi đến Bảng điều khiển Glue Studio.
- Chọn vào biểu tượng hamburger bên trái để mở rộng menu.
- Click - Jobs và chọn Visual with a blank canvas
- Click - Source và chọn - S3
- Chọn vào tab “Data source properties - S3” trong cửa sổ cấu hình ở phía bên phải màn hình.
- Dưới loại Source S3, chọn “Data Catalog Table”.
- Chọn các giá trị sau đây:
- Database - analyticsworkshopdb
- Table - raw
- Bây giờ chúng ta sẽ lặp lại các bước tương tự để thêm reference_data từ S3. Chọn chuột vào - Source và chọn - S3.
- Chọn vào tab “Data source properties - S3” trong cửa sổ cấu hình ở phía bên phải màn hình.
- Dưới loại nguồn S3, chọn “Data Catalog table”.
- Chọn các giá trị sau đây:
- Database (Cơ sở dữ liệu): analyticsworkshopdb
- Table (Bảng): reference_data
- Chọn vào nút S3 đã thêm trước đó trên bảng vẽ, sau đó Chọn vào Action và chọn Change Schema.
- Chọn tab “Transform” ở phía bên phải và thay đổi kiểu dữ liệu của “track_id” thành kiểu số nguyên.
- Chọn vào nút S3 bên trái trên bảng vẽ.
- Click Action và chọn Join
- Bạn nên có biểu đồ hình ảnh như trong ảnh chụp màn hình dưới đây và thông báo bên phải “Insufficient source nodes” vì bạn cần một nút khác (Data source) để kết nối.
Next, Chọn vào Transform - Join node và trên cửa sổ cấu hình bên phải của Node properties, chọn danh sách thả xuống và chọn Change Schema dưới phần Tramsforms như được mô tả trong ảnh chụp màn hình dưới đây:
- Chọn vào tab “Transform” với nút “Join Node” đã được chọn trên bảng vẽ.
- Khi đã chọn nút “Join” trên bảng vẽ, Chọn vào “Action” và chọn “Change Schema”.
- Bạn nên có được sơ đồ hình ảnh như trong ảnh chụp màn hình dưới đây.
- Chúng ta sẽ xóa các cột không sử dụng và ánh xạ kiểu dữ liệu mới cho các cột sau:
- drop Columns
- parition_0
- parition_1
- parition_2
- parition_3
- Map New Data Type
- track_id string
- Các lựa chọn của bạn nên phù hợp với hình ảnh màn hình dưới đây:
- Chọn vào nút Transform - ApplyMapping trên màn hình
- Chọn vào mục “Target” và chọn S3 như hình minh họa dưới đây.
- Data target properties - S3:
- Format: Parquet
- Compression Type: Snappy
- S3 Target Location: s3://yourname-analytics-workshop-bucket/data/processed-data2/
- Data Catalog update options
- Choose Create a table in the Data Catalog and on subsequent runs, update the schema and add new partitions
- Database: analyticsworkshopdb
- Table name: processed-data2
- Click Job details và cấu hình:
- Name: AnalyticsOnAWS-GlueStudio
- IAM Role: AnalyticsWorkshopGlueRole
- Requested number of workers: 2
- Job bookmark: Disable
- Number of retries: 1
- Job timeout (minutes): 10
- Leave the rest as default value
- Click Save
- Chọn vào “Save” và bạn sẽ thấy thông báo “Successfully created job”. Bắt đầu ETL jobs này bằng cách Chọn vào “Run” ở góc phải trên cùng của màn hình.
- Bạn nên xem thông báo “Successfully started job”. Chọn vào “Run Details” để theo dõi ETL jobs của bạn. Hãy đợi trong vài giây và bạn sẽ thấy ETL job Run Status “Succeeded”, như được hiển thị trong ảnh chụp màn hình dưới đây.
- Bạn có thể xem mã Pyspark mà Glue Studio đã tạo ra và tái sử dụng mã này cho các mục đích khác nếu cần.
- Truy cập vào Glue DataCatalog: và bạn sẽ thấy bảng processed-data2 đã được tạo trong cơ sở dữ liệu analyticsworkshopdb.
Xuất sắc!! Bạn đã hoàn thành một lab ETL bổ sung với AWS Glue Studio. Với AWS Glue Studio, bạn có thể tổ hợp các luồng làm việc biến đổi dữ liệu một cách trực quan và chạy chúng một cách liền mạch trên nền tảng ETL không cần máy chủ dựa trên Apache Spark của AWS Glue.