Tạo AWS Glue Crawlers
Tạo AWS Glue Crawlers
Trong bước này, chúng ta sẽ điều hướng đến AWS Glue Console và tạo các glue crawler để khám phá schema của dữ liệu mới được nhập vào trong S3.
- Đi đến: Chọn vào đây
- Trên bảng điều khiển bên trái, Chọn vào Crawlers
- Chọn vào Create crawler
- Thông tin về crawler
- Tên crawler: AnalyticsworkshopCrawler
- Tùy chọn thêm các Tags (nhãn), ví dụ: workshop: AnalyticsOnAWS
- Chọn Next
- Chọn Add a data source. Chọn một nguồn dữ liệu.
-
- Để mạng kết nối - tùy chọn như hiện tại
- Chọn In this account (trong tài khoản này) ở phần Location of S3 data (Vị trí dữ liệu S3)
- Bao gồm đường dẫn S3: s3://yourname-analytics-workshop-bucket/data/
- Để Subsequent crawler runs (Các lần chạy crawler sau) ở mặc định là Crawl all sub-folders (Crawl tất cả các thư mục con)
- Chọn Add an S3 data source
- Chọn nguồn dữ liệu S3 vừa thêm gần đây dưới Data Sources (Nguồn dữ liệu). Chọn Next
- IAM Role (role IAM)
- Dưới Existing IAM role (role IAM hiện có), chọn AnalyticsworkshopGlueRole
- Để tất cả mọi thứ khác như hiện tại.
- Chọn Next
- Cấu hình đầu ra:
Chọn Add database để mở cửa sổ mới để tạo cơ sở dữ liệu.
- Thông tin cơ sở dữ liệu
- Tên: analyticsworkshopdb
- Chọn Create database
- Đóng cửa sổ hiện tại và quay trở lại cửa sổ trước đó.
- Làm mới bằng cách Chọn vào biểu tượng làm mới bên phải của Target database (Cơ sở dữ liệu đích)
- Chọn analyticsworkshopdb dưới Target database (Cơ sở dữ liệu đích)
- Dưới Crawler schedule (Lịch crawler)
- Tần suất: On demand (Theo yêu cầu)
- Chọn Next
- Xem lại tất cả các cài đặt dưới Review and create (Xem và tạo). Chọn Create crawler
- Bạn sẽ thấy thông báo này: Crawler sau đây đã được tạo: “AnalyticsworkshopCrawler”
- Chọn Run crawler để chạy crawler lần đầu tiên
- Đợi trong vài phút.