Giới thiệu về vnstock_news
Cập nhật lần cuối:
Thảo luậnMục lục
Giới thiệu
vnstock_news là một thư viện Python thiết kế để trích xuất dữ liệu tin tức từ các trang mạng điện tử tài chính và kinh tế tại Việt Nam. Thư viện được tối ưu hóa khả năng tương thích với AI Agent, hỗ trợ nghiên cứu, giảng dạy khoa học dữ liệu và phân tích định lượng dựa trên thông tin.
Các tính năng nổi bật
- Thu thập dữ liệu đa dạng: Hỗ trợ trích xuất tiêu đề, mô tả ngắn, nội dung Markdown, thời gian xuất bản, danh mục, URL và tác giả từ 21 trang tin tức phổ biến của Việt Nam.
- Quản lý nguồn cấp dữ liệu linh hoạt: Tự động xử lý cả RSS feeds và Sitemaps để lấy danh sách các bài viết mới nhất hoặc theo lịch sử theo nhiều năm.
- Cấu hình dễ dàng: Đi kèm với cấu hình sẵn cho 21 trang tin tức, giúp bạn bắt đầu nhanh chóng mà không cần cấu hình thủ công phức tạp.
- Khả năng tùy biến cao: Cho phép bạn định nghĩa cấu hình tùy chỉnh cho các trang web không có sẵn hoặc điều chỉnh các bộ chọn (selector) để phù hợp với thay đổi cấu trúc trang.
- Chế độ thu thập hàng loạt: Hỗ trợ thu thập thông tin chi tiết của nhiều bài viết cùng lúc, tối ưu hóa hiệu suất.
- Ghi log chi tiết: Cung cấp thông tin log rõ ràng giúp theo dõi quá trình thu thập và gỡ lỗi.
Các trang báo được hỗ trợ sẵn
Tất cả các báo đều hỗ trợ cả RSS và Sitemap vì đây là tiêu chuẩn web. vnstock_news cung cấp cấu hình sẵn cho 21+ báo phổ biến nhưng có thể tùy biến để làm việc với bất kỳ website/báo nào có nguồn RSS/sitemap.
| STT | Tên Báo | Tên Config | Loại Hình | RSS | Sitemap | Mô Tả/Ghi Chú |
|---|---|---|---|---|---|---|
| 1 | Nhân Dân | nhandan | Cơ quan TW | ✅ | ✅ | Cơ quan trung ương của Đảng Cộng Sản Việt Nam |
| 2 | Tiền Phong | tienphong | Cơ quan TW | ✅ | ✅ | Cơ quan trung ương của Đoàn TNCS Hồ Chí Minh |
| 3 | VietNamNet | vietnamnet | Bộ Ngành | ✅ | ✅ | Cơ quan chủ quản Bộ Dân Tộc và Tôn Giáo |
| 4 | Dân Trí | dantri | Bộ Ngành | ✅ | ✅ | Cơ quan của Bộ Nội vụ |
| 5 | VnExpress | vnexpress | Bộ Ngành | ✅ | ✅ | Thuộc Bộ Khoa học và Công nghệ |
| 6 | Báo Đầu Tư | baodautu | Bộ Ngành | ✅ | ✅ | Thuộc Bộ Tài chính |
| 7 | Thời Báo Tài Chính | thoibaotaichinhvietnam | Bộ Ngành | ✅ | ✅ | Báo điện tử thuộc Bộ Tài Chính |
| 8 | Thanh Niên | thanhnien | Tổ chức TW | ✅ | ✅ | Diễn đàn của Hội LHTN Việt Nam |
| 9 | Tuổi Trẻ | tuoitre | Địa phương | ✅ | ✅ | Cơ quan báo của Thành Đoàn TP.HCM |
| 10 | Người Lao Động | nld | Địa phương | ✅ | ✅ | Quản lý bởi Thành ủy TP.HCM |
| 11 | Pháp Luật TP.HCM | plo | Địa phương | ✅ | ✅ | Cơ quan chủ quản: UBND TP.HCM |
| 12 | Kinh Tế Sài Gòn | ktsg | Địa phương | ✅ | ✅ | Tạp chí Kinh tế Sài Gòn của UBND Tp. HCM |
| 13 | VnEconomy | vneconomy | Chuyên ngành | ✅ | ✅ | Tạp chí của Hội Khoa học Kinh tế Việt Nam |
| 14 | Diễn Đàn Doanh Nghiệp | dddn | Chuyên ngành | ✅ | ✅ | Cơ quan của Liên đoàn Thương mại và Công nghiệp VN |
| 15 | PetroTimes | petrotimes | Chuyên ngành | ✅ | ✅ | Tạp chí của Hội Dầu khí Việt Nam |
| 16 | Znews (Tri thức) | znews | Chuyên ngành | ✅ | ✅ | Tạp chí điện tử của Hội Xuất bản Việt Nam |
| 17 | CafeF | cafef | Trang tin | ✅ | ✅ | Trang thông tin điện tử của khối VCCorp |
| 18 | CafeBiz | cafebiz | Trang tin | ✅ | ✅ | Trang thông tin điện tử của khối VCCorp |
| 19 | VietStock | vietstock | Trang tin | ✅ | ✅ | Cổng thông tin Tài chính, Chứng khoán (CTCP Tài Việt) |
| 20 | 24h | 24h | Tổng hợp | ✅ | ✅ | Trang tin điện tử tổng hợp 24h |
| 21 | Người Quan Sát | nguoiquansat | Tổng hợp | ✅ | ✅ | Trang TTĐTTH của báo Đầu tư đổi mới INTECH |
Vai trò của thư viện
vnstock_news hỗ trợ việc chuẩn bị dữ liệu đầu vào cho quy trình phân tích:
- Hệ thống cảnh báo: Giám sát, tổng hợp báo cáo diễn biến vĩ mô và cập nhật thông tin doanh nghiệp định kỳ.
- Khoa học dữ liệu: Đóng gói cơ sở văn bản (dataset) cho việc đào tạo hoặc tinh chỉnh mô hình học sâu, công nghệ Large Language Models (LLMs).
- Nghiên cứu định lượng: Phân loại chỉ số cảm xúc tài chính (sentiment analysis) nhằm gia tăng hiệu quả các mô hình đánh giá thị trường chứng khoán.
Lưu ý về Bản quyền và Thu thập Dữ liệu Công khai
vnstock_news là công cụ lập trình cấu trúc dữ liệu công khai trên Internet, cung cấp nội dung thuần túy nhằm phục vụ cho nghiên cứu và học thuật. Toàn bộ nội dung trích xuất thuộc về bản quyền của cơ quan báo chí chủ quản. Người dùng thư viện phải tuân thủ tuyệt đối quy định về Bản quyền, sở hữu trí tuệ, và giấy phép phân phối theo điều khoản hiện hành nếu có dự định sử dụng kết quả cho hoạt động thương mại, kinh doanh hoặc đăng tải trên các nền tảng công cộng.
Thay vì phải nghiên cứu cú pháp thư viện một cách thủ công, bạn được khuyến nghị sử dụng tài liệu Agent Guide (tham chiếu ở chuyên trang Github của chúng tôi) cung cấp cho một trợ lý AI (AI Agent) trong môi trường như Google Antigravity, Claude Code, vv. Trợ lý này sẽ dễ dàng thiết lập quá trình trích xuất chỉ với chỉ dẫn bằng ngôn ngữ tự nhiên.
Thảo luận