Tạo AWS Glue Crawlers

Tạo AWS Glue Crawlers

Trong bước này, chúng ta sẽ điều hướng đến AWS Glue Console và tạo các glue crawler để khám phá schema của dữ liệu mới được nhập vào trong S3.

  1. Đi đến: Chọn vào đây
  • Trên bảng điều khiển bên trái, Chọn vào Crawlers
  • Chọn vào Create crawler

Data Analytics on AWS

  1. Thông tin về crawler
  • Tên crawler: AnalyticsworkshopCrawler
  • Tùy chọn thêm các Tags (nhãn), ví dụ: workshop: AnalyticsOnAWS
  • Chọn Next

Data Analytics on AWS

  1. Chọn Add a data source. Chọn một nguồn dữ liệu.

Data Analytics on AWS

    • Data source: S3
  • Để mạng kết nối - tùy chọn như hiện tại
  • Chọn In this account (trong tài khoản này) ở phần Location of S3 data (Vị trí dữ liệu S3)
  • Bao gồm đường dẫn S3: s3://yourname-analytics-workshop-bucket/data/
  • Để Subsequent crawler runs (Các lần chạy crawler sau) ở mặc định là Crawl all sub-folders (Crawl tất cả các thư mục con)
  • Chọn Add an S3 data source

Data Analytics on AWS

  1. Chọn nguồn dữ liệu S3 vừa thêm gần đây dưới Data Sources (Nguồn dữ liệu). Chọn Next

Data Analytics on AWS

  1. IAM Role (role IAM)
  • Dưới Existing IAM role (role IAM hiện có), chọn AnalyticsworkshopGlueRole
  • Để tất cả mọi thứ khác như hiện tại.
  • Chọn Next

Data Analytics on AWS

  1. Cấu hình đầu ra: Chọn Add database để mở cửa sổ mới để tạo cơ sở dữ liệu.

Data Analytics on AWS

  1. Thông tin cơ sở dữ liệu
  • Tên: analyticsworkshopdb
  • Chọn Create database

Data Analytics on AWS

  1. Đóng cửa sổ hiện tại và quay trở lại cửa sổ trước đó.

Data Analytics on AWS

  1. Làm mới bằng cách Chọn vào biểu tượng làm mới bên phải của Target database (Cơ sở dữ liệu đích)
  • Chọn analyticsworkshopdb dưới Target database (Cơ sở dữ liệu đích)
  • Dưới Crawler schedule (Lịch crawler)
  • Tần suất: On demand (Theo yêu cầu)
  • Chọn Next

Data Analytics on AWS

  1. Xem lại tất cả các cài đặt dưới Review and create (Xem và tạo). Chọn Create crawler

Data Analytics on AWS

  1. Bạn sẽ thấy thông báo này: Crawler sau đây đã được tạo: “AnalyticsworkshopCrawler”

Data Analytics on AWS

  1. Chọn Run crawler để chạy crawler lần đầu tiên

Data Analytics on AWS

  1. Đợi trong vài phút.

Data Analytics on AWS