Thống kê và Xác suất cho Data Analysis: Giải mã Bí mật cho Người mới! | doctruyenngontinh.org

Bắt đầu hành trình khám phá dữ liệu với thống kê và xác suất! Hướng dẫn dễ hiểu cho người mới, không cần kinh nghiệm. Tìm hiểu ngay để đưa ra quyết định sáng suốt!

Theo thời gian, bối cảnh phân tích và khoa học dữ liệu đã phát triển, các loại hình nhà khoa học dữ liệu cũng thay đổi theo. Một nhóm người — có thể không tự nhận mình là nhà khoa học dữ liệu công dân — là những người thành thạo trong việc làm việc với dữ liệu, giải quyết vấn đề và đưa ra những hiểu biết kinh doanh. Những chuyên gia không chuyên về dữ liệu này sử dụng các công cụ và kỹ thuật phân tích dữ liệu để thu thập thông tin chi tiết từ dữ liệu.

Vậy tại sao một người trong nhóm này (tức là: nhà phân tích dữ liệu, người giải quyết vấn đề dựa trên dữ liệu, hay những người kinh doanh khác) lại quan tâm đến việc tìm hiểu về thống kê và xác suất để phân tích dữ liệu (và cuối cùng là khoa học dữ liệu)? Bởi vì họ sẽ có thể hiểu được những khái niệm thống kê cơ bản nào quan trọng và khi nào nên sử dụng chúng. Hơn nữa, bất kể họ có trở thành nhà khoa học dữ liệu "chính thức" hay không, việc làm như vậy có thể:

  • Dạy họ cách suy nghĩ khác biệt và mang đến góc nhìn mới cho dự án phân tích hoặc dữ liệu của họ
  • Giúp họ đặt những câu hỏi đúng, từ đó giúp họ đưa ra quyết định sáng suốt hơn
  • Cung cấp một phương pháp khác để giải quyết cùng một vấn đề, có thể cho phép họ bỏ qua những lần thử và sai không cần thiết

Phần mới nhất trong loạt bài viết trên blog "In Plain English" của chúng tôi sẽ cung cấp tổng quan đơn giản về các khái niệm thống kê và xác suất quan trọng để phân tích dữ liệu (và cuối cùng là khoa học dữ liệu) nhằm giúp chủ đề này dễ hiểu hơn với những chuyên gia không chuyên về kỹ thuật.

thong-ke-va-xac-suat-cho-data-analysis-giai-ma-bi-mat-cho-nguoi-moi-doctruyenngontinh-org-5-1

Toán Math

Giới thiệu về các khái niệm thống kê và xác suất quan trọng

Theo định nghĩa, thống kê là khoa học về thu thập, phân tích, trình bày và diễn giải dữ liệu. Do đó, thống kê có thể là một công cụ giá trị cao cho những người giải quyết vấn đề dựa trên dữ liệu, vì họ được kỳ vọng sẽ thu thập, làm sạch, chuẩn bị và phân tích một lượng lớn dữ liệu có cấu trúc và phi cấu trúc, đồng thời truyền đạt những phát hiện của mình.

Hai loại thống kê chính

Có hai loại thống kê chính: thống kê mô tả và thống kê suy luận.

Thống kê mô tả

Thống kê mô tả — đúng như tên gọi — mô tả các đặc điểm hoặc tính chất quan trọng của dữ liệu để sắp xếp dữ liệu. Ví dụ: nếu bạn muốn tìm chiều cao trung bình của các cầu thủ trong một đội bóng rổ, trong thống kê mô tả, bạn sẽ ghi lại chiều cao của từng cầu thủ trong đội và tìm ra chiều cao tối đa, tối thiểu và trung bình của đội. Do đó, thống kê mô tả có thể giúp hiển thị thông tin tóm tắt về dữ liệu của bạn và giúp bạn trình bày dữ liệu một cách có ý nghĩa.

Thống kê suy luận

Với thống kê suy luận, bạn có thể tìm thấy một đặc tính trong tập dữ liệu mẫu và suy ra rằng đặc tính này tồn tại trong quần thể mà mẫu đó được lấy ra. Về cơ bản, bạn có thể sử dụng lý thuyết xác suất để tự tin đưa ra kết luận về một quần thể ngay cả khi bạn chỉ quan sát một mẫu. Ví dụ, chúng ta có thể sử dụng chiều cao trung bình của các cầu thủ trong đội bóng rổ mẫu để suy ra chiều cao trung bình của tất cả các cầu thủ bóng rổ.

thong-ke-va-xac-suat-cho-data-analysis-giai-ma-bi-mat-cho-nguoi-moi-doctruyenngontinh-org-5-214 Thuật Ngữ Cơ Bản về Thống Kê và Xác Suất

Các thuật ngữ được định nghĩa ở đây thường được sử dụng trong thống kê và phân tích dữ liệu. Những người giải quyết vấn đề dựa trên dữ liệu có thể đã biết hoặc nhận ra một số thuật ngữ này. Chúng cũng có thể hữu ích khi áp dụng thống kê vào khoa học dữ liệu và học máy (ML). Cho dù bạn đang làm việc trong một dự án mà thống kê có thể hữu ích hay bạn chỉ muốn khám phá các khái niệm ban đầu, hy vọng bạn sẽ thấy những định nghĩa này rõ ràng và hữu ích.

Các Thuật Ngữ Thống Kê và Xác Suất

1. Dân số (n)

Tập hợp các nguồn dữ liệu cần được thu thập. Nó bao gồm một số tham số như trung bình, trung vị, mốt, v.v.

2. Mẫu (n)

Một tập hợp con ngẫu nhiên của quần thể. Có thể dùng để ước tính các tham số của toàn bộ quần thể.

3. Biến (n)

Bất kỳ đặc điểm, số lượng hoặc số lượng nào có thể đo lường hoặc đếm được.

4. Tham số (n)

Một đại lượng biểu thị một họ phân phối xác suất (tức là giá trị trung bình hoặc trung vị của một quần thể). Tham số là những con số tóm tắt dữ liệu của toàn bộ quần thể, trong khi thống kê là những con số tóm tắt dữ liệu của một mẫu quần thể.

5. Hồi quy (danh từ)

Một phương pháp dự đoán có đầu ra là một số thực, tức là một giá trị biểu thị một lượng dọc theo một đường thẳng.

6. Xác suất (n)

Một thước đo số về khả năng xảy ra của một sự kiện cụ thể. Xác suất sử dụng thang điểm từ 0 đến 1, với các giá trị gần 0 biểu thị sự kiện không có khả năng xảy ra và các giá trị gần 1 biểu thị sự kiện có khả năng xảy ra.

7. Phân phối xác suất (n)

Một hàm mô tả các giá trị và khả năng một biến có thể nhận được trong một phạm vi nhất định.

8. Phân phối mẫu (n)

Phân phối xác suất cho thống kê mẫu thu được từ một số mẫu được rút ra từ một quần thể cụ thể.

9. Kiểm định giả thuyết (danh từ)

Một phương pháp để kiểm tra độ chính xác của một mô hình dựa trên một tập dữ liệu trong việc dự đoán bản chất của các tập dữ liệu khác được tạo ra bằng cùng một quy trình.

10. Ý nghĩa thống kê (n)

Trong thử nghiệm giả thuyết, một kết quả được cho là có ý nghĩa thống kê hoặc có ý nghĩa về mặt thống kê nếu mối quan hệ giữa hai hoặc nhiều biến là do nguyên nhân khác ngoài ngẫu nhiên.

11. Giả thuyết không (n)

Một phát biểu chung khẳng định rằng không có mối quan hệ nào giữa hai hiện tượng đang được xem xét hoặc không có mối liên hệ nào giữa hai nhóm. Nó được ký hiệu là H 0 và tin rằng kết quả là kết quả của sự ngẫu nhiên.

12. Giả thuyết thay thế (n)

Một phát biểu mô tả mối quan hệ giữa hai biến được chọn. Phát biểu này được ký hiệu là H1 hoặc Ha và tin rằng kết quả là kết quả của những nguyên nhân thực sự.

13. Giá trị P (n)

Một thước đo xác suất tìm thấy kết quả quan sát được khi giả thuyết không là đúng.

14. Tư duy Bayesian (danh từ)

Quá trình cập nhật niềm tin khi dữ liệu bổ sung được thu thập. Nó cho thấy chúng ta có thể học hỏi từ dữ liệu bị thiếu, dữ liệu không đầy đủ và các phép tính gần đúng.

Khi bạn sẵn sàng nâng cao trình độ và áp dụng thống kê vào khoa học dữ liệu

Thống kê và khoa học dữ liệu có mối liên hệ chặt chẽ, nhưng xét cho cùng, chúng là những thực thể riêng biệt. Tuy nhiên, trong mỗi lĩnh vực, bạn đều sử dụng một tập hợp dữ liệu nhất định để rút ra những quan sát và kết luận về thế giới. Trong thống kê, bạn cố gắng hiểu mối tương quan giữa các yếu tố đầu vào và kết quả quan sát được, trong khi khoa học dữ liệu thiên về việc thu thập dữ liệu, thiết kế các thí nghiệm dựa trên dữ liệu và áp dụng thống kê và học máy để tìm hiểu về dữ liệu đó.

Mặc dù các câu hỏi chúng ta đặt ra trong cả hai lĩnh vực đều có bản chất khác nhau, thống kê vẫn có thể được sử dụng trước khi giải quyết bất kỳ vấn đề khoa học dữ liệu nào. Nhiều người lao ngay vào ML mà không thực hiện bất kỳ bước nền tảng cơ bản nào trước. Nguyên tắc Pareto được áp dụng ở đây, vì bạn thường có thể đạt được 80% kết quả chỉ với 20% công cụ — một nền tảng thống kê có thể giúp đơn giản hóa mọi thứ.

Giả sử bạn đang thử nghiệm nhiều mô hình ML cho trường hợp sử dụng cụ thể của một khách hàng. Một số mô hình giả định các phân phối xác suất cụ thể (giá trị và khả năng mà một biến có thể nhận trong một phạm vi nhất định) của dữ liệu đầu vào. Do đó, như một phần công việc, bạn cần có khả năng xác định chúng và điều chỉnh dữ liệu đầu vào một cách phù hợp. Đây chỉ là một ví dụ nhỏ về cách thống kê có thể được tích hợp vào các tác vụ khoa học dữ liệu hàng ngày.

Kiến thức thống kê có thể giúp bạn xác định sự khác biệt giữa kết quả đáng tin cậy và kết quả có khả năng xảy ra ngẫu nhiên. Giống như bạn đã quen với phân tích, mọi dự án khoa học dữ liệu đều bao gồm một chút phân tích dữ liệu thăm dò (EDA) để hiểu rõ dữ liệu bạn sẽ làm việc (tức là tóm tắt hoặc mô tả các mẫu dữ liệu cả về mặt số liệu và trực quan).

Nhiều khi, các nhà khoa học dữ liệu (và khách hàng của họ) sẽ nói rằng họ có rất nhiều dữ liệu, nhưng không chắc nên trả lời những câu hỏi nào hoặc bắt đầu từ đâu để trích xuất giá trị từ dữ liệu. Thống kê có thể giúp thiết lập nền tảng và giúp bạn xác định các mô hình và thông tin chi tiết. Theo một cách nào đó, các mô hình ML thường đặt ra các câu hỏi thống kê đơn giản cho dữ liệu của bạn nhiều lần và sử dụng các câu trả lời đó để tổng hợp lại để đưa ra dự đoán hoặc khám phá cấu trúc chung.

Hơn nữa, các nhà khoa học dữ liệu sử dụng mô hình ML và hệ thống AI ngày nay đang phải đối mặt với một thách thức nghiêm trọng trong việc cân bằng giữa khả năng diễn giải và độ chính xác, xuất phát từ sự khác biệt giữa mô hình hộp đen và mô hình hộp trắng. Thông thường, trong AI và ML, bạn cố gắng xác định độ chính xác hoặc dự đoán của mình (điều này cho bạn một con số hoặc giá trị), trong khi với thống kê, bạn diễn giải điều đó và cố gắng mô tả nguồn gốc của nhãn đó. Thống kê cung cấp thêm một lớp diễn giải, giúp bạn củng cố lý do tại sao bạn tin vào một kết quả cụ thể.

Nhu cầu về chuyên gia dữ liệu sẽ không biến mất trong thời gian tới, vì vậy ngay cả khi bạn chưa được đào tạo hoặc giáo dục chính thức về thống kê và xác suất thì cũng không có nghĩa là đã quá muộn để học, chỉ là bạn sẽ cần nhiều công việc thủ công hơn.

Bằng cách làm quen với những nền tảng cơ bản của phân tích thống kê và xác suất, bạn sẽ có thể đạt được lợi thế cạnh tranh. Vì phần lớn các dự án khoa học dữ liệu và học máy (ML) đều bắt nguồn từ phân tích dữ liệu, việc nắm vững những khái niệm này sẽ cho phép bạn trích xuất những thông tin chi tiết mạnh mẽ hơn và đưa ra quyết định sáng suốt hơn từ các tập dữ liệu của mình.

BÀI VIẾT LIÊN QUAN

BÀI VIẾT MỚI NHẤT