Lập trình Thu thập Dữ liệu Web với Python Khóa Học Đào Tạo
Web Scraping là kỹ thuật trích xuất dữ liệu từ một trang web sau đó lưu nó vào tệp cục bộ hoặc cơ sở dữ liệu.
Khóa đào tạo trực tiếp, trực tuyến hoặc tại chỗ này dành cho các nhà phát triển muốn sử dụng Python để tự động hóa quy trình thu thập dữ liệu từ nhiều trang web để xử lý và phân tích.
Khi kết thúc khóa đào tạo này, người tham gia sẽ có thể:
- Cài đặt và cấu hình Python và tất cả các gói liên quan.
- Thu thập và phân tích dữ liệu được lưu trữ trên nhiều trang web.
- Hiểu cách thức hoạt động của các trang web và cách cấu trúc HTML của chúng.
- Xây dựng các spider để thu thập dữ liệu trên web một cách quy mô.
- Sử dụng Selenium để thu thập dữ liệu từ các trang web được điều khiển bởi AJAX.
Định dạng khóa học
- Bài giảng và thảo luận tương tác.
- Nhiều bài tập và thực hành.
- Thực hành trực tiếp trong môi trường lab thực tế.
Tùy chọn tùy chỉnh khóa học
- Khóa học này giả định kiến thức về lập trình.
- Để yêu cầu đào tạo tùy chỉnh cho khóa học này, vui lòng liên hệ với chúng tôi để sắp xếp.
Đề cương khóa học
Giới thiệu
Thiết lập Môi trường Phát triển
Python Bài tập cơ bản: Cấu trúc Dữ liệu, Điều kiện, Xử lý Tệp, v.v.
Python Các gói cho Web Scraping: Scrapy và BeautifulSoup
Cách một Website Hoạt động
Cách HTML được Cấu trúc
Thực hiện Yêu cầu Web
Scraping một Trang HTML
Làm việc với XPath và CSS
Lọc Dữ liệu Sử dụng Biểu thức Chính quy Express
Tạo Web Crawler
Thu thập dữ liệu (Crawling) các Trang AJAX và JavaScript với Selenium.
Các Thực hành Tốt nhất về Web Scraping
Khắc phục Sự cố
Tóm tắt và Kết luận
Yêu cầu
- Programming kinh nghiệm, ưu tiên trong Python. Nếu người tham gia có kinh nghiệm lập trình bằng ngôn ngữ khác Python, khóa đào tạo có thể được mở rộng để bao gồm nhiều bài tập giới thiệu về Python hơn.
Đối tượng
- Các nhà phát triển
Khóa học đào tạo mở cần có ít nhất 5 người tham gia.
Lập trình Thu thập Dữ liệu Web với Python Khóa Học Đào Tạo - Đặt chỗ
Lập trình Thu thập Dữ liệu Web với Python Khóa Học Đào Tạo - Yêu cầu thông tin
Lập trình Thu thập Dữ liệu Web với Python - Yêu cầu tư vấn
Yêu cầu tư vấn
Đánh giá (1)
Nhiều ví dụ và chủ đề khác nhau đã được涵盖从基本调查到登录管理和动态页面管理的内容。(请注意,此处的翻译似乎在最后部分混用了中文,根据指令要求应完全翻译成越南语,因此重新调整为完整越南语翻译)Nhiều ví dụ và chủ đề khác nhau đã được đề cập, từ việc điều tra cơ bản đến quản lý đăng nhập và quản lý trang động.
Daniele Tagliaferro - Creditsafe Italia Srl
Khóa học - Web Scraping with Python
Dịch thuật bằng máy
Các khóa học sắp tới
Các khóa học liên quan
Phân Tích Dữ Liệu Quy Mô Lớn với Python và Dask
14 Giờ họcKhóa đào tạo trực tiếp, do giảng viên hướng dẫn này (trực tuyến hoặc tại chỗ) dành cho các nhà khoa học dữ liệu và kỹ sư phần mềm muốn sử dụng Dask với hệ sinh thái Python để xây dựng, mở rộng và phân tích các tập dữ liệu lớn.
Khi kết thúc khóa đào tạo này, người tham gia sẽ có thể:
- Thiết lập môi trường để bắt đầu xây dựng xử lý dữ liệu lớn với Dask và Python.
- Khám phá các tính năng, thư viện, công cụ và API có sẵn trong Dask.
- Hiểu cách Dask tăng tốc tính toán song song trong Python.
- Tìm hiểu cách mở rộng hệ sinh thái Python (Numpy, SciPy và Pandas) bằng cách sử dụng Dask.
- Tối ưu hóa môi trường Dask để duy trì hiệu suất cao trong việc xử lý các tập dữ liệu lớn.
Phân tích dữ liệu với Python, Pandas và Numpy
14 Giờ họcKhóa đào tạo trực tiếp do giảng viên hướng dẫn này tại Việt Nam (trực tuyến hoặc tại chỗ) dành cho các nhà phát triển Python và chuyên gia phân tích dữ liệu ở trình độ trung cấp, mong muốn nâng cao kỹ năng phân tích và xử lý dữ liệu sử dụng Pandas và NumPy.
Bằng cuối khóa học này, người tham gia sẽ có thể:
- Cài đặt môi trường phát triển bao gồm Python, Pandas và NumPy.
- Tạo ứng dụng phân tích dữ liệu bằng Pandas và NumPy.
- Thực hiện các thao tác xử lý dữ liệu phức tạp, sắp xếp và lọc dữ liệu.
- Thực hiện các thao tác tổng hợp và phân tích dữ liệu chuỗi thời gian.
- Trực quan hóa dữ liệu bằng Matplotlib và các thư viện trực quan khác.
- Gỡ lỗi và tối ưu hóa mã phân tích dữ liệu của họ.
Phát triển Full Stack FARM (FastAPI, React và MongoDB)
14 Giờ họcKhóa đào tạo trực tiếp, trực tuyến hoặc tại chỗ này dành cho các nhà phát triển muốn sử dụng bộ công cụ FARM (FastAPI, React và MongoDB) để xây dựng các ứng dụng web động, hiệu suất cao và có khả năng mở rộng.
Khi kết thúc khóa đào tạo này, người tham gia sẽ có thể:
- Thiết lập môi trường phát triển cần thiết tích hợp FastAPI, React và MongoDB.
- Hiểu các khái niệm, tính năng và lợi ích chính của bộ công cụ FARM.
- Tìm hiểu cách xây dựng REST API với FastAPI.
- Tìm hiểu cách thiết kế các ứng dụng tương tác với React.
- Phát triển, kiểm tra và triển khai các ứng dụng (front-end và back-end) bằng bộ công cụ FARM.
Phát triển API với Python và FastAPI
14 Giờ họcKhóa đào tạo trực tiếp, do giảng viên hướng dẫn này (trực tuyến hoặc tại chỗ) dành cho các nhà phát triển muốn sử dụng FastAPI với Python để xây dựng, kiểm tra và triển khai các API RESTful dễ dàng và nhanh chóng hơn.
Khi kết thúc khóa đào tạo này, người tham gia sẽ có thể:
- Thiết lập môi trường phát triển cần thiết để xây dựng API với Python và FastAPI.
- Tạo API nhanh chóng và dễ dàng hơn bằng thư viện FastAPI.
- Tìm hiểu cách tạo mô hình dữ liệu và lược đồ dựa trên Pydantic và OpenAPI.
- Kết nối API với cơ sở dữ liệu bằng SQLAlchemy.
- Triển khai bảo mật và xác thực trong API bằng các công cụ của FastAPI.
- Xây dựng hình ảnh container và triển khai API web lên máy chủ đám mây.
Học Máy với Python – 2 Ngày
14 Giờ họcMục tiêu của khóa học này là cung cấp khả năng cơ bản trong việc áp dụng các phương pháp Machine Learning vào thực tế. Thông qua việc sử dụng ngôn ngữ lập trình Python và các thư viện đa dạng của nó, dựa trên vô số ví dụ thực tế, khóa học này sẽ hướng dẫn cách sử dụng các khối xây dựng quan trọng nhất của Machine Learning, cách đưa ra quyết định mô hình hóa dữ liệu, diễn giải kết quả của các thuật toán và xác thực kết quả.
Mục tiêu của chúng tôi là trang bị cho bạn các kỹ năng để hiểu và sử dụng một cách tự tin các công cụ cơ bản nhất từ bộ công cụ Machine Learning, đồng thời tránh được những cạm bẫy phổ biến trong các ứng dụng Data Science.
Học Máy với Python – 4 Ngày
28 Giờ họcMục tiêu của khóa học này là cung cấp năng lực tổng quát trong việc áp dụng Machine Learning vào thực tế. Thông qua việc sử dụng ngôn ngữ lập trình Python và các thư viện đa dạng của nó, dựa trên vô số ví dụ thực tế, khóa học này sẽ hướng dẫn cách sử dụng các khối xây dựng quan trọng nhất của Machine Learning, cách đưa ra quyết định về mô hình hóa dữ liệu, diễn giải kết quả của các thuật toán và xác thực kết quả.
Mục tiêu của chúng tôi là trang bị cho bạn các kỹ năng để hiểu và sử dụng một cách tự tin các công cụ cơ bản nhất từ bộ công cụ Machine Learning và tránh những cạm bẫy phổ biến trong các ứng dụng Data Science.
Tăng tốc độ làm việc với Pandas trong Python bằng Modin
14 Giờ họcKhóa đào tạo trực tiếp, do giảng viên hướng dẫn này (trực tuyến hoặc tại chỗ) dành cho các nhà khoa học dữ liệu và nhà phát triển muốn sử dụng Modin để xây dựng và triển khai các phép tính song song với Pandas để phân tích dữ liệu nhanh hơn.
Khi kết thúc khóa đào tạo này, người tham gia sẽ có thể:
- Thiết lập môi trường cần thiết để bắt đầu phát triển các quy trình làm việc Pandas quy mô lớn với Modin.
- Hiểu các tính năng, kiến trúc và lợi thế của Modin.
- Nắm vững sự khác biệt giữa Modin, Dask và Ray.
- Thực hiện các thao tác Pandas nhanh hơn với Modin.
- Triển khai toàn bộ API và các hàm Pandas.
Python cho Tạo Ngữ Natural Language Generation (NLG)
21 Giờ họcTrong khóa đào tạo trực tiếp, do giảng viên hướng dẫn này tại Việt Nam, người tham gia sẽ học cách sử dụng Python để tạo ra văn bản ngôn ngữ tự nhiên chất lượng cao bằng cách xây dựng hệ thống NLG của riêng họ từ đầu. Các nghiên cứu điển hình cũng sẽ được xem xét và các khái niệm liên quan sẽ được áp dụng vào các dự án phòng thí nghiệm trực tiếp để tạo nội dung.
Khi kết thúc khóa đào tạo này, người tham gia sẽ có thể:
- Sử dụng NLG để tự động tạo nội dung cho nhiều ngành khác nhau, từ báo chí, bất động sản, đến dự báo thời tiết và thể thao.
- Chọn lọc và sắp xếp nội dung nguồn, lập kế hoạch câu, và chuẩn bị một hệ thống để tự động tạo nội dung gốc.
- Hiểu rõ quy trình NLG và áp dụng các kỹ thuật phù hợp ở mỗi giai đoạn.
- Hiểu rõ kiến trúc của hệ thống Natural Language Generation (NLG).
- Triển khai các thuật toán và mô hình phù hợp nhất để phân tích và sắp xếp.
- Khai thác dữ liệu từ các nguồn dữ liệu công khai cũng như cơ sở dữ liệu được tuyển chọn để sử dụng làm tài liệu cho văn bản được tạo.
- Thay thế các quy trình viết thủ công và tốn công sức bằng quy trình tạo nội dung tự động, do máy tính tạo ra.
Advanced Machine Learning with Python
21 Giờ họcTrong khóa đào tạo trực tiếp do giáo viên hướng dẫn tại Việt Nam, người tham gia sẽ học những kỹ thuật học máy tiên tiến và phù hợp nhất bằng Python khi họ xây dựng một loạt các ứng dụng mẫu liên quan đến hình ảnh, âm nhạc, văn bản và dữ liệu tài chính.
Sau khi kết thúc khóa đào tạo này, người tham gia sẽ có thể:
- Triển khai các thuật toán và kỹ thuật học máy để giải quyết các vấn đề phức tạp.
- Áp dụng học sâu và học bán giám sát cho các ứng dụng liên quan đến hình ảnh, âm nhạc, văn bản và dữ liệu tài chính.
- Tối ưu hóa thuật toán Python đến mức tối đa.
- Sử dụng thư viện và gói như NumPy và Theano.
Python: Tự Động Hóa Các Công Việc Nhàm Chán
14 Giờ họcKhóa đào tạo trực tiếp, do giảng viên hướng dẫn này tại Việt Nam dựa trên cuốn sách nổi tiếng, "Tự động hóa những công việc nhàm chán với Python", của Al Sweigart. Khóa học này dành cho người mới bắt đầu và bao gồm các khái niệm lập trình Python thiết yếu thông qua các bài tập thực hành và thảo luận. Trọng tâm là học cách viết mã để tăng đáng kể năng suất văn phòng.
Khi kết thúc khóa đào tạo này, người tham gia sẽ biết cách lập trình bằng Python và áp dụng kỹ năng mới này cho:
- Tự động hóa các tác vụ bằng cách viết các chương trình Python đơn giản.
- Viết các chương trình có thể nhận diện các mẫu văn bản bằng "biểu thức chính quy".
- Tạo và cập nhật các bảng tính Excel một cách tự động.
- Phân tích cú pháp các tệp PDF và tài liệu Word.
- Thu thập dữ liệu từ các trang web và trích xuất thông tin từ các nguồn trực tuyến.
- Viết các chương trình gửi thông báo qua email.
- Sử dụng các công cụ gỡ lỗi của Python để nhanh chóng khắc phục lỗi.
- Điều khiển chuột và bàn phím một cách tự động để thực hiện các thao tác nhấp và nhập liệu.
Lập trình Python cho Tài chính
35 Giờ họcPython là một ngôn ngữ lập trình đã và đang trở nên cực kỳ phổ biến trong ngành tài chính. Được áp dụng bởi các ngân hàng đầu tư và quỹ phòng hộ lớn nhất, Python đang được sử dụng để xây dựng một loạt các ứng dụng tài chính đa dạng, từ các chương trình giao dịch cốt lõi đến các hệ thống quản lý rủi ro.
Trong khóa đào tạo trực tiếp, do giảng viên hướng dẫn này, người tham gia sẽ học cách sử dụng Python để phát triển các ứng dụng thực tế nhằm giải quyết một số vấn đề cụ thể liên quan đến tài chính.
Khi kết thúc khóa đào tạo này, người tham gia sẽ có thể:
- Hiểu các nguyên tắc cơ bản của ngôn ngữ lập trình Python
- Tải xuống, cài đặt và duy trì các công cụ phát triển tốt nhất để tạo các ứng dụng tài chính bằng Python
- Lựa chọn và sử dụng các gói và kỹ thuật lập trình Python phù hợp nhất để tổ chức, trực quan hóa và phân tích dữ liệu tài chính từ nhiều nguồn khác nhau (CSV, Excel, cơ sở dữ liệu, web, v.v.)
- Xây dựng các ứng dụng giải quyết các vấn đề liên quan đến phân bổ tài sản, phân tích rủi ro, hiệu suất đầu tư và hơn thế nữa
- Khắc phục sự cố, tích hợp, triển khai và tối ưu hóa một ứng dụng Python
Đối tượng
- Nhà phát triển
- Nhà phân tích
- Chuyên gia định lượng (Quants)
Định dạng khóa học
- Kết hợp bài giảng, thảo luận, bài tập và thực hành chuyên sâu
Lưu ý
- Khóa đào tạo này hướng đến việc cung cấp giải pháp cho một số vấn đề chính mà các chuyên gia tài chính gặp phải. Tuy nhiên, nếu bạn có một chủ đề, công cụ hoặc kỹ thuật cụ thể mà bạn muốn bổ sung hoặc làm rõ thêm, vui lòng liên hệ với chúng tôi để sắp xếp.
Python Nâng cao - 4 Ngày
28 Giờ họcKhóa đào tạo trực tiếp, do giảng viên hướng dẫn này (trực tuyến hoặc tại chỗ) dành cho các nhà phát triển muốn học các kỹ thuật lập trình nâng cao Python, bao gồm cách áp dụng ngôn ngữ linh hoạt này để giải quyết các vấn đề trong các lĩnh vực như ứng dụng phân tán, phân tích và trực quan hóa dữ liệu, lập trình giao diện người dùng và viết script bảo trì.
Lập trình Python - 4 ngày
28 Giờ họcKhóa học này được thiết kế dành cho những ai muốn học ngôn ngữ lập trình Python. Trọng tâm của khóa học là ngôn ngữ Python, các thư viện lõi, cũng như lựa chọn các thư viện tốt nhất và hữu ích nhất được phát triển bởi cộng đồng Python. Python thúc đẩy hoạt động kinh doanh và được các nhà khoa học trên toàn thế giới sử dụng – đây là một trong những ngôn ngữ lập trình phổ biến nhất.
Khóa học có thể được triển khai bằng phiên bản Python 3.x mới nhất với các bài tập thực hành tận dụng tối đa sức mạnh của nó. Khóa học này có thể được triển khai trên mọi hệ điều hành (tất cả các phiên bản UNIX, bao gồm Linux và Mac OS X, cũng như Microsoft Windows).
Các bài tập thực hành chiếm khoảng 70% thời lượng khóa học, và khoảng 30% còn lại dành cho các buổi trình diễn và thuyết trình. Các cuộc thảo luận và câu hỏi có thể được đặt ra trong suốt khóa học.
Lưu ý: chương trình đào tạo có thể được điều chỉnh theo nhu cầu cụ thể theo yêu cầu trước ngày diễn ra khóa học.
Tự động hóa kiểm thử với Selenium và Python
14 Giờ họcSelenium là một khung công tác mã nguồn mở để tự động hóa kiểm thử ứng dụng web trên các trình duyệt khác nhau. Với Selenium 4, các API WebDriver được cải tiến, các bộ định vị tương đối gốc và hỗ trợ grid nâng cao đều có sẵn. Python cung cấp sự đơn giản và tích hợp mạnh mẽ với các khung công tác kiểm thử như Pytest, khiến nó trở thành lựa chọn mạnh mẽ để phát triển các bộ tự động hóa kiểm thử có khả năng mở rộng và duy trì.
Khóa đào tạo trực tiếp do giảng viên hướng dẫn (trực tuyến hoặc tại chỗ) này nhằm vào người kiểm thử và nhà phát triển ở mức độ cơ bản đến trung cấp, những người muốn sử dụng Selenium với Python để tự động hóa kiểm thử ứng dụng web trong môi trường thực tế.
Sau khóa đào tạo này, học viên sẽ có thể:
- Cài đặt và cấu hình Selenium với Python trong môi trường kiểm thử.
- Xây dựng các kịch bản tự động hóa kiểm thử mạnh mẽ bằng Selenium WebDriver và Pytest.
- Áp dụng Mô hình Đối tượng Trang (POM) cho các khung công tác có thể duy trì.
- Chạy kiểm thử trên nhiều trình duyệt bằng Selenium Grid.
- Tích hợp các kiểm thử tự động với các đường ống CI/CD.
- Khắc phục các vấn đề phổ biến và áp dụng các phương pháp hay nhất cho sự ổn định của tự động hóa.
Định dạng khóa học
- Bài giảng tương tác và thảo luận.
- Nhiều bài tập và thực hành.
- Thực hiện trên môi trường lab trực tiếp.
Tùy chỉnh khóa học
- Để yêu cầu khóa đào tạo tùy chỉnh cho khóa học này, vui lòng liên hệ với chúng tôi để sắp xếp.
Tóm Tắt Văn Bản với Python
14 Giờ họcTrong Python Machine Learning, tính năng Tóm tắt Văn bản có thể đọc văn bản đầu vào và tạo ra một bản tóm tắt. Khả năng này có sẵn từ dòng lệnh hoặc dưới dạng Python API/Thư viện. Một ứng dụng thú vị là tạo nhanh các bản tóm tắt điều hành; điều này đặc biệt hữu ích cho các tổ chức cần xem xét lượng lớn dữ liệu văn bản trước khi tạo báo cáo và bài thuyết trình.
Trong khóa đào tạo trực tiếp, do giảng viên hướng dẫn này, người tham gia sẽ học cách sử dụng Python để tạo một ứng dụng đơn giản tự động tạo bản tóm tắt của văn bản đầu vào.
Khi kết thúc khóa đào tạo này, người tham gia sẽ có thể:
- Sử dụng một công cụ dòng lệnh để tóm tắt văn bản.
- Thiết kế và tạo mã Tóm tắt Văn bản bằng cách sử dụng các thư viện Python.
- Đánh giá ba thư viện tóm tắt Python: sumy 0.7.0, pysummarization 1.0.4, readless 1.0.17
Đối tượng
- Nhà phát triển
- Nhà khoa học dữ liệu
Định dạng khóa học
- Kết hợp bài giảng, thảo luận, bài tập và thực hành chuyên sâu