Hãy tưởng tượng bạn đang triển khai một phần mềm hoạch định nguồn lực doanh nghiệp (ERP) trước khi đưa vào vận hành thực tế cho doanh nghiệp. Bạn cần tạo một số dữ liệu ảo để kiểm tra ứng dụng của mình. Bạn sẽ cần một bảng hóa đơn, danh sách nhà cung cấp, bảng đơn đặt hàng mua và nhiều thứ khác. Hãy cùng tạo dữ liệu để kiểm tra ứng dụng.
Data odoo faker
Dự án này sử dụng thư viện Python faker để tạo dữ liệu trông giống thật nhưng giả cho khách hàng, sản phẩm và đơn hàng. Dữ liệu này có thể hữu ích cho mục đích thử nghiệm, phát triển hoặc trình diễn.
- Điều kiện tiên quyết
- Đã cài đặt Python 3.x ( //www.python.org/downloads/ )
- Thư viện Python faker, bạn có thể sử dụng faker_commerce, faker_food bên trong thư viện này
pip install faker
pip install faker_commerce
- Cài đặt
Vô //github.com/erpblogs/fake-odoo-data Sao chép tệp mẫu: cp common_sample.py common.py
- Cấu hình cơ sở dữ liệu:
Mở common.py trong trình soạn thảo văn bản.
Xác định vị trí cài đặt kết nối cơ sở dữ liệu.
Cập nhật thông tin sau bằng thông tin đăng nhập cơ sở dữ liệu của bạn:
Tên máy chủ/Địa chỉ IP
Tên cơ sở dữ liệu
Tên người dùng
Mật khẩu
Cách sử dụng
Cập nhật run.sh:
Mở run.sh trong trình soạn thảo văn bản.
Điều chỉnh các thông số sau để kiểm soát lượng dữ liệu được tạo ra:
TOTAL_CUSTOMERS=2000
TOTAL_PRODUCTS=100000
TOTAL_SO=10000000
BATCH_SIZE=1000
Chạy tập lệnh: python3 -m run.sh
Chạy nhiều tiến trình tập lệnh SO song song: nếu bạn muốn chạy nhiều tiến trình để tạo nhanh SO
Cài đặt song song
sudo apt install parallel
Bắt đầu kịch bản của bạn
parallel python3 -m run_so.py ::: {1..4} > output.log 2>&1 &
Bộ dữ liệu thử nghiệm cho tất cả các mô-đun đang hoạt động trong ERPNext
Lệnh gần nhất hiện có là ‘bench run-tests’. Lệnh này sẽ tạo một Công ty mới và nhiều giao dịch khác nhau.
Không giống lắm với công ty Demo. Nhưng đây là công ty tốt nhất hiện có, trừ khi bạn có thể tìm thấy Nhà cung cấp dịch vụ cung cấp thứ gì đó.
Tìm hiểu thêm: //medium.com/@erpnextsolution
Chạy lệnh sau để chạy tất cả các bài kiểm tra của bạn. Nó sẽ xây dựng tất cả các phụ thuộc kiểm tra một lần và chạy các bài kiểm tra của bạn. Bạn nên chạy các bài kiểm tra từ thư mục frappe\bench.
# run all tests
bench –site [sitename] run-tests
# run tests for only frappe app
bench –site [sitename] run-tests –app frappe
# run tests for the Task doctype
bench –site [sitename] run-tests –doctype “Task”
# run tests for All doctypes in specified Module Def
bench –site [sitename] run-tests –module-def “Contacts”
# run a test using module path
bench –site [sitename] run-tests –module frappe.tests.test\_api
# run a specific test from a test file
bench –site [sitename] run-tests –module frappe.tests.test\_api –test test\_insert\_many
# run tests without creating test records
bench –site [sitename] run-tests –skip-test-records –doctype “Task”
# profile tests and show a report after tests execute
bench –site [sitename] run-tests –profile –doctype “Task”
Nguồn: //frappeframework.com/docs/user/en/testing
CƠ SỞ DỮ LIỆU MẪU
- Các tệp zip này chứa các cơ sở dữ liệu bị hỏng phổ biến mà Paul sử dụng cho một số bản demo DBCC CHECKDB. Một số cơ sở dữ liệu sẽ chỉ hoạt động trên một số phiên bản SQL Server, vì vậy để biết hướng dẫn, hãy xem //www.sqlskills.com/sql-server-resources/sql-server-demos/
- Đây là danh sách các nguồn dữ liệu công khai theo chủ đề với chất lượng cao. Chúng được thu thập và sắp xếp từ các blog, câu trả lời và phản hồi của người dùng. Hầu hết các tập dữ liệu được liệt kê bên dưới đều miễn phí, tuy nhiên, một số thì không. //github.com/awesomedata/awesome-public-datasets
- Danh sách được tuyển chọn gồm các tập dữ liệu JSON tuyệt vời không yêu cầu xác thực. //github.com/jdorfman/awesome-json-datasets
- PyDataFaker là một gói python để tạo dữ liệu giả có mối quan hệ giữa các bảng. Việc tạo dữ liệu giả có thể hữu ích cho nhiều ứng dụng khác nhau như tạo bản demo sản phẩm hoặc thử nghiệm phần mềm. //github.com/SamEdwardes/pydatafaker
Python đã có một gói tuyệt vời để tạo dữ liệu giả có tên là Faker //faker.readthedocs.io/en/master/ . Faker rất tuyệt vời để tạo các đơn vị dữ liệu giả riêng lẻ, nhưng có thể tốn thời gian để tạo dữ liệu giả phức tạp hơn thực sự liên quan đến nhau.
PyDataFaker cho phép bạn nhanh chóng tạo các bảng này và tạo mối quan hệ giữa chúng!
PyDataFaker hiện đang được phát triển. Vào thời điểm này, có thể tạo các thực thể sau:
Kinh doanh : tạo một doanh nghiệp giả với các bảng ERP thông thường
Trường học : tạo một trường học giả
Hiện tại, nhiều thực thể khác đang được phát triển tại đây: //github.com/SamEdwardes/pydatafaker
Dataset mẫu từ Kaggle
Ví dụ lấy data mẫu đưa bào bigquery : //www.youtube.com/watch?app=desktop&v=zjp9r7OJmEk&fbclid=IwVERDUANF3sRleHRuA2FlbQIxMAABHurcnL2itUwPrWm2Djfv0V8TT87fDU5nKNIk1EhXWKYUVzI_5keKOtd77BHq_aem_APsDAYxbmSVTCPd0bRCb9A
kaggle.com là một nền tảng trực tuyến hàng đầu dành cho cộng đồng khoa học dữ liệu và học máy. Tại đây, bạn có thể tham gia các cuộc thi, học các khóa học miễn phí, khám phá hàng triệu bộ dữ liệu công khai và thực hành viết mã ngay trên trình duyệt. Một trong những tính năng hữu ích nhất của Kaggle là kho Datasets – nơi chứa vô số dữ liệu đa dạng từ nhiều lĩnh vực như y tế, tài chính, ảnh, văn bản, khí hậu…, hoàn toàn miễn phí để sử dụng cho học tập và nghiên cứu.
Cách tải dữ liệu từ Kaggle:
- Truy cập //www.kaggle.com/datasets . Lọc file CSV
- Tìm kiếm bộ dữ liệu bạn quan tâm (ví dụ: “titanic”, “house prices”, “cifar-10″…).
- Nhấp vào tên bộ dữ liệu để vào trang chi tiết.
- Nhấp nút “Download” (hình mũi tên xuống) ở góc phải trên cùng.
- Lần đầu tải, bạn cần đăng nhập tài khoản Kaggle (miễn phí).
- Một số dataset yêu cầu bạn chấp nhận điều khoản sử dụng trước khi tải.
Database mô phỏng Datawarehouse
1. Database Contoso
Database Contoso là một cơ sở dữ liệu ví dụ được Microsoft tạo ra để giúp học và phát triển các ứng dụng trong môi trường Microsoft SQL Server. Nó được sử dụng như một bộ dữ liệu mẫu để giới thiệu các sản phẩm Microsoft Business Intelligence và các chức năng DW/BI trong toàn bộ dòng sản phẩm Microsoft Office. Bộ dữ liệu bao gồm thông tin về các bộ phận của công ty như C-levels, Sales/Marketing, IT, Finance và hỗ trợ tích hợp bản đồ, cung cấp cả dữ liệu OLTP (Online Transaction Processing) và OLAP (Online Analytical Processing), cùng với dữ liệu tham chiếu và thứ nguyên.
Cơ sở dữ liệu Contoso bao gồm các bảng như Customer, Order, OrderDetail và Product, mỗi bảng chứa thông tin khác nhau về các khách hàng, đơn hàng, chi tiết đơn hàng và sản phẩm của công ty. Các bảng này có các quan hệ với nhau, cho phép các truy vấn dữ liệu phức tạp và hiệu quả. Ví dụ, một khách hàng có thể có nhiều đơn hàng khác nhau và mỗi đơn hàng có thể có nhiều chi tiết đơn hàng khác nhau.
Những dữ liệu này có thể được sử dụng để phân tích dữ liệu, trực quan hóa và huấn luyện các mô hình dự đoán và phân loại. Trong giáo dục, Contoso thường được sử dụng như một ví dụ để giảng dạy về các khái niệm trong nhiều lĩnh vực chẳng hạn như cơ sở dữ liệu, phát triển ứng dụng và quản lý hệ thống.
2. Database AdventureWorks
Cơ sở dữ liệu AdventureWorks là một cơ sở dữ liệu mẫu được Microsoft phát triển với mục đích giúp người dùng hiểu rõ hơn về các công nghệ của Microsoft và học cách sử dụng chúng để phát triển các ứng dụng. Cơ sở dữ liệu này được thiết kế cho SQL Server, nhưng cũng có thể được sử dụng với các hệ thống quản lý cơ sở dữ liệu khác như Oracle, MySQL, PostgreSQL.
AdventureWorks được lấy bối cảnh trên một công ty hư cấu có tên AdventureWorks Cycles, một công ty sản xuất và kinh doanh xe đạp với quy mô lớn. Cơ sở dữ liệu này chứa các bảng, chế độ xem và thủ tục liên quan đến các hoạt động quản lý khách hàng, sản phẩm, đặt hàng và các giao dịch khác, được sử dụng để minh họa cho các đối tượng trong xử lý tác vụ (OLTP).
Cơ sở dữ liệu AdventureWorks cung cấp các chức năng phức tạp như xử lý dữ liệu với giao dịch và kết hợp dữ liệu từ nhiều bảng khác nhau trong cơ sở dữ liệu. Ngoài ra, AdventureWorks còn có các tính năng đáng chú ý như sử dụng các ràng buộc dữ liệu để bảo vệ tính toàn vẹn của dữ liệu, sử dụng các chỉ mục để tối ưu hóa hiệu suất truy cập dữ liệu và sử dụng các trigger để tự động thực hiện các hành động khi dữ liệu được thêm, sửa hoặc xóa. Các tính năng này giúp AdventureWorks trở thành một cơ sở dữ liệu mẫu rất hữu ích cho các nhà phát triển và quản trị cơ sở dữ liệu.
Các tập dữ liệu trong AdventureWorks có thể được sử dụng để phân tích dữ liệu, trực quan hóa và huấn luyện các mô hình dự đoán và phân loại. AdventureWorks cũng được sử dụng trong nhiều khóa học, chứng chỉ và đào tạo về quản trị cơ sở dữ liệu, thiết kế cơ sở dữ liệu và phát triển ứng dụng.
3. Database WideWorldImposter
Cơ sở dữ liệu WideWorldImporters là một nguồn tài nguyên quan trọng cho các nhà phát triển và quản trị cơ sở dữ liệu để tìm hiểu và thực hành các tính năng mới của SQL Server và Cơ sở dữ liệu Azure SQL. Nó cũng là một cơ sở dữ liệu bán buôn chứa nhiều thông tin về hoạt động nhập khẩu và xuất khẩu hàng hóa. Với các tính năng và công nghệ mới của SQL Server, cơ sở dữ liệu này cho phép thực hiện đa kết nối, xử lý dữ liệu trực tiếp trong bộ nhớ và tìm kiếm văn bản đầy đủ.
Các bảng dữ liệu trong cơ sở dữ liệu WideWorldImporters cung cấp thông tin chi tiết về các khía cạnh khác nhau của hoạt động kinh doanh của công ty bán buôn. Các đối tượng chính bao gồm khách hàng, đơn hàng, sản phẩm, kho hàng, nhà cung cấp và nhân viên. Ngoài ra, cơ sở dữ liệu này còn chứa các đối tượng quan trọng khác như tài khoản, địa chỉ, hóa đơn và phí vận chuyển. Phân tích dữ liệu trong cơ sở dữ liệu WideWorldImporters có thể giúp cho các nhà phát triển và quản trị cơ sở dữ liệu hiểu rõ hơn về hoạt động kinh doanh của công ty bán buôn và tìm kiếm các cơ hội để tối ưu hóa hiệu suất và tăng trưởng kinh doanh.
Cơ sở dữ liệu WideWorldImporters được phát triển bằng ngôn ngữ T-SQL và có thể sử dụng trên nhiều nền tảng hệ điều hành khác nhau, bao gồm Windows và Linux. Điều này cho phép các nhà phát triển và quản trị cơ sở dữ liệu có thể sử dụng cơ sở dữ liệu này trên nhiều hệ thống khác nhau để phát triển và triển khai ứng dụng. Ngoài ra, cơ sở dữ liệu này cũng có thể sử dụng trên đám mây thông qua Azure SQL Database và Azure SQL Managed Instance để cung cấp khả năng mở rộng và quản lý dữ liệu dễ dàng hơn.
4. Database Chinook
Cơ sở dữ liệu Chinook được phát triển để giúp người học và giảng viên trong việc tìm hiểu và thực hành các kỹ năng quản lý cơ sở dữ liệu. Với các bảng như artists, albums, media tracks, invoices và customers, Chinook cung cấp một cách tiếp cận thực tế và dễ hiểu cho quản lý cơ sở dữ liệu trong lĩnh vực bán lẻ đĩa nhạc.
Cơ sở dữ liệu Chinook được tạo ra bởi Jeff Richter và phát hành dưới giấy phép MIT, cho phép người dùng tự do sử dụng và sửa đổi cơ sở dữ liệu theo nhu cầu của mình. Cơ sở dữ liệu Chinook có sẵn cho nhiều hệ quản trị cơ sở dữ liệu khác nhau, bao gồm SQL Server, Oracle, MySQL và nhiều hơn nữa.
Cơ sở dữ liệu Chinook cũng được coi là một giải pháp thay thế cho cơ sở dữ liệu Northwind, cũng là một cơ sở dữ liệu mẫu phổ biến được sử dụng để học tập và đào tạo quản lý cơ sở dữ liệu. Tuy nhiên, Chinook cung cấp nhiều thông tin hơn về lĩnh vực bán lẻ đĩa nhạc và có thể được sử dụng để phát triển các ứng dụng thực tế trong ngành.
5. Sakila
Sakila là một cơ sở dữ liệu được sử dụng rộng rãi trong giáo dục và đào tạo về quản trị cơ sở dữ liệu. Cơ sở dữ liệu này được phát triển bởi MySQL và bao gồm các bảng để quản lý danh sách phim, nhân viên, khách hàng và các bản sao DVD của phim. Sakila có nhiều bảng như actor, film, category, customer và rental. Nó được thiết kế để giúp người học và nhà phát triển thực hành các kỹ năng quản lý cơ sở dữ liệu, từ thiết kế cơ sở dữ liệu, tạo truy vấn đến tối ưu hóa hiệu suất.
Sakila cũng cung cấp một số hệ thống báo cáo và tập tin kịch bản để giúp người dùng thực hành và hiểu rõ hơn về cơ sở dữ liệu này. Vì Sakila là một cơ sở dữ liệu mẫu miễn phí, nó có sẵn cho nhiều hệ quản trị cơ sở dữ liệu khác nhau, bao gồm MySQL, SQL Server và PostgreSQL. Điều này giúp cho người học và nhà phát triển có thể truy cập dễ dàng và nhanh chóng vào cơ sở dữ liệu để thực hành và phát triển các kỹ năng của mình trong lĩnh vực quản trị cơ sở dữ liệu.
6. Database Northwind
Northwind Database là một cơ sở dữ liệu nổi tiếng của Microsoft, chứa dữ liệu về hoạt động thương mại của một công ty ảo tên là Northwind chuyên nhập và xuất hàng thực phẩm. Các bảng trong Database này sẽ là một ví dụ kinh điển cho bài toán bán hàng và được sử dụng rộng rãi trong việc học tập và đào tạo quản trị cơ sở dữ liệu. Cơ sở dữ liệu Northwind cung cấp các bảng để quản lý các danh sách sản phẩm, đặt hàng, nhà cung cấp, khách hàng và nhân viên. Nó được thiết kế để giúp người học thực hành các kỹ năng quản lý cơ sở dữ liệu, như thiết kế cơ sở dữ liệu, tạo truy vấn và tối ưu hóa hiệu suất.
Cơ sở dữ liệu Northwind bao gồm các bảng như Products, Orders, Suppliers, Customers và Employees. Nó có thể được sử dụng để thực hành các kỹ năng như lập trình SQL, xử lý dữ liệu và thiết kế cơ sở dữ liệu. Ngoài ra, Northwind cũng cung cấp một số hệ thống báo cáo để giúp người dùng hiểu rõ hơn về cơ sở dữ liệu và thực hành các kỹ năng phân tích dữ liệu.
Cơ sở dữ liệu Northwind đã được Microsoft sử dụng trong nhiều năm để giới thiệu các tính năng mới của SQL Server và các công nghệ cơ sở dữ liệu khác. Hiện tại, Northwind không được hỗ trợ chính thức bởi Microsoft, nhưng nó vẫn được sử dụng rộng rãi trong giáo dục và đào tạo.
7. World Database
World Database MySQL là một cơ sở dữ liệu mẫu đi kèm với hệ thống quản lý cơ sở dữ liệu quan hệ MySQL. Nó được thiết kế để là một cơ sở dữ liệu ví dụ thực tế để học và thực hành các truy vấn SQL (Structured Query Language).
Cơ sở dữ liệu World Database MySQL bao gồm 3 bảng city, country, countrylanguage chứa thông tin về các quốc gia, thành phố của chúng và các thông tin liên quan khác như dân số, vùng miền, châu lục, v.v.
Các bảng này có thể được sử dụng để thực hành các truy vấn SQL, ví dụ như tìm kiếm các quốc gia có dân số trên một ngưỡng nhất định, hay tìm kiếm các thành phố trong một quốc gia nào đó. Ngoài ra, World Database MySQL cũng được sử dụng rộng rãi trong các khóa học và các tài liệu về MySQL để giúp người học nắm vững các kỹ năng thao tác với cơ sở dữ liệu quan hệ.
8. Qlikview
QlikView là tập dữ liệu được sử dụng trong ứng dụng QlikView, một phần mềm dùng để trực quan hóa và phân tích dữ liệu. Tập dữ liệu này được tổ chức dưới dạng các bảng và liên kết với nhau thông qua các trường chung (key field) để tạo thành một cấu trúc dữ liệu quan hệ.
QlikView dataset bao gồm các tập dữ liệu mẫu như Sales, Inventory, Human Resources, được cung cấp sẵn trong phần mềm để người dùng có thể dễ dàng thực hành và học tập. Ngoài ra, người dùng cũng có thể tạo và sử dụng các tập dữ liệu riêng của mình trong QlikView để trực quan hóa và phân tích dữ liệu.
Tất cả các tập dữ liệu trong QlikView đều được thiết kế để cho phép người dùng thực hiện các truy vấn dữ liệu phức tạp, tạo báo cáo, biểu đồ và các mô hình dữ liệu trực quan để giúp người dùng hiểu rõ hơn về dữ liệu và đưa ra các quyết định kinh doanh chính xác hơn.
nguồn //www.mastering-da.com/database-mo-phong-data-warehouse-thuc-te

Bài viết liên quan: