Thu thập dữ liệu Web, API: tư duy, công cụ, bí quyết và kỹ thuật hiệu quả
Chào mừng bạn đến với “Khóa học thu thập dữ liệu web, API: Tư duy, công cụ, mẹo và kỹ thuật hiệu quả”!
Trong khóa học này, bạn sẽ được trang bị đầy đủ để thu thập dữ liệu từ Web.
Đầu tiên mình sẽ giới thiệu với các bạn những công cụ cần thiết như Postman, Google Chrome (Edge) dành cho nhà phát triển, giúp bạn dễ dàng truy cập và thu thập thông tin từ trang web. Trong phần Công cụ dành cho nhà phát triển, chúng ta sẽ đi sâu hơn vào việc làm chủ các tab Mạng, Thành phần, Nguồn, giúp bạn có khả năng phân tích chi tiết bất kỳ trang web nào.
Đặc biệt, khóa học không dừng lại ở việc trích xuất thông tin, tôi còn dạy bạn cách xử lý nhanh dữ liệu json lớn sau khi tải xuống, giúp bạn tối ưu hóa quy trình làm việc của mình vì nếu chúng ta không có kế hoạch cho phần này thì các công cụ truyền thống sẽ rất tuyệt vời. khó khăn, không đủ sức mạnh xử lý để có thể xử lý các file JSON từ vài trăm MB đến GB.
Các vấn đề về mã hóa trên nền tảng Windows sử dụng PowerShell thường gây ra nhiều khó khăn. Nhưng đừng lo, tôi sẽ chỉ cho bạn một giải pháp hiệu quả bằng cách sử dụng Ubuntu Subsystem trên Windows và phương pháp tương tự trên MacOS.
Cuối cùng, thông qua các bài học chi tiết dưới dạng nghiên cứu điển hình, bạn sẽ có được trải nghiệm thực tế, phân tích luồng dữ liệu và hiểu cách truy vấn dữ liệu. Đôi khi, việc này không đơn giản như bạn nghĩ. Chúng ta sẽ cùng nhau khám phá và hiểu rõ kịch bản truy vấn, từ đó đưa ra giải pháp tối ưu.
Vì đây là khóa học nâng cao về kỹ thuật và tư duy phân tích nên Thành khuyên bạn nên có kiến thức cơ bản từ một trong các khóa học sau hoặc tương đương:
- [VBA301] Tự động hóa và tương tác với các hệ thống Web bằng Excel VBA Python (ưu tiên)
- [PQ103] Thông tin truy vấn Power Query trên Web yêu cầu đăng nhập, API, nguồn dữ liệu trực tuyến
- [GAS901] Thu thập dữ liệu từ các trang web thương mại điện tử, trang web chứng khoán và API bằng Google Apps Script
- [CE102] Tạo công cụ hỗ trợ kế toán của riêng bạn để đảm bảo an toàn dữ liệu
Hiện nay, các nghiên cứu điển hình sẽ liên quan đến: hồ sơ đấu thầu, truy vấn thông tin công ty từ mã số thuế, truy vấn thông tin chứng khoán, tải file PDF từ cổng công ty chứng khoán, các thông tin liên quan đến dữ liệu. Các tài liệu tài chính và nhiều ví dụ khác sẽ được cập nhật theo thời gian.
Hãy tham gia cùng chúng tôi và nâng cao kỹ năng của bạn với khóa học này!
Danh sách bài học
0000 – Giới thiệu khóa học Web Scraping
0001 – Thảo luận một chút về khía cạnh pháp lý và đạo đức của Web Scraping
0002 – Một số kiến thức cơ bản được gợi ý và các công cụ cần chuẩn bị
0100 – Tương tác cơ bản giữa trình duyệt và Web Server
0101 – Phân tích cách thức Máy chủ trả về dữ liệu Web cho trình duyệt
0200 – Nghiên cứu trường hợp dữ liệu đấu thầu – giai đoạn khám phá, khám phá truy vấn
0201 – Mô phỏng lại truy vấn truy cập dữ liệu bằng công cụ
0202 – Chủ động thay đổi thông tin truy vấn để truy cập nhiều dữ liệu hơn, nhanh hơn
0203 – Ứng dụng ChatGPT hỗ trợ kỹ thuật cho WebScraping
0204 – Xử lý dữ liệu lớn được lưu trữ trong tệp JSON và chuyển đổi sang định dạng CSV
0205 – Cài đặt công cụ jq để xử lý các tệp json lớn trên Windows
0206 – Sử dụng jq để xử lý các tệp JSON lớn. Lưu ý khi sử dụng jq trên Windows
0207 – Thử xử lý lỗi mã hóa với Ubuntu WSL2 trên Windows 11
0300 – Giới thiệu case Study 02 – Tra cứu thông tin công ty từ mã số thuế
0301 – Mô phỏng mạng chậm để phân tích truy vấn dữ liệu Web
0302 – Phân tích cơ chế truy vấn, lấy token, tìm kiếm dữ liệu và trả về dữ liệu thông tin công ty
0303 – Thiết lập giải pháp với chatGPT và kiểm tra giải pháp trực tiếp trên website
0400 – Giới thiệu case Study 03 – Phân tích cấu trúc và sử dụng các công cụ để lấy thông tin cần thiết
0500 – Case Study 04 – tải thông tin công bố thông tin chứng khoán – pdf
0501 – Discovery – tìm hiểu cách tải pdf
0502 – Phân tích cấu trúc đường dẫn tới file pdf cần tải về
0503 – Sử dụng chatGPT để đưa ra giải pháp
0504 – Giải quyết vấn đề file tải về bị sai tên và loại file và hoàn thành
0600 – Tra cứu lịch sử trả cổ tức, phân phối tiền thưởng và tăng vốn
0700 – Case Study 06 – phân tích lịch sử trả cổ tức, chia thưởng, tăng vốn cho bất kỳ mã cổ phiếu nào
0800 – Case Study 07 – phân tích các liên kết tới báo cáo PDF liên quan đến các mã chứng khoán cụ thể – Giải pháp Google Apps Script.
Nguồn : Blog hocexcel