ĐịNh nghĩa dữ liệu mịn & Ví dụ

IZA - Dona de Mim

Mục lục:

Dữ liệu là gì:
Cách thức hoạt động (Ví dụ):
Tại sao lại có vấn đề:

Dữ liệu là gì:

Làm mịn dữ liệu là một kỹ thuật thống kê liên quan đến việc loại bỏ các ngoại lệ khỏi tập dữ liệu

Cách thức hoạt động (Ví dụ):

Ví dụ, giả sử một trường đại học đang phân tích dữ liệu tội phạm của nó trong 10 năm qua. Số tội phạm bạo lực trông giống như thế này:

Như bạn thấy, phần lớn thời gian trường đại học trải qua ít hơn 15 tội phạm một năm. Tuy nhiên, trong năm 2006 và 2007, nó đã trải qua 44 do yêu cầu báo cáo thử nghiệm của nhóm an toàn công cộng của trường đại học. Thử nghiệm báo cáo đã thay đổi định nghĩa về tội phạm bạo lực để bao gồm các vụ trộm bất kỳ loại nào trong những năm đó, điều này đã tạo ra một bước nhảy vọt về số lượng tội phạm "bạo lực" trong khuôn viên trường. Nếu chúng ta bao gồm những năm này ở mức trung bình - đó là, nếu chúng ta làm một số dữ liệu làm mịn - trường đại học trải qua trung bình khoảng 19 tội phạm bạo lực một năm. Nhưng nếu chúng ta để lại những năm đó, chúng ta có thể thấy trung bình thực tế hơn là 13 tội phạm bạo lực mỗi năm - chênh lệch 32%.

Tại sao lại có vấn đề:

Có nhiều cách để làm mịn dữ liệu, bao gồm cả việc di chuyển trung bình và thuật toán. Ý tưởng là làm mịn dữ liệu làm cho các mẫu dễ thấy hơn và do đó hỗ trợ trong việc dự báo những thay đổi về giá cổ phiếu, xu hướng của khách hàng hoặc bất kỳ thông tin kinh doanh nào khác. Tuy nhiên, dữ liệu làm mịn có thể bỏ qua thông tin quan trọng hoặc làm cho các sự kiện quan trọng ít nhìn thấy được; nói cách khác, "làm tròn các cạnh" của dữ liệu có thể nhấn mạnh một số dữ liệu nhất định và bỏ qua các dữ liệu khác.