Mẹo Hướng dẫn Phát biểu nào sau này dụng khi sử dụng thống kê suy luận Chi Tiết

Quý khách đang tìm kiếm từ khóa Phát biểu nào sau này dụng khi sử dụng thống kê suy luận được Cập Nhật vào lúc : 2022-09-23 06:14:10 . Với phương châm chia sẻ Bí kíp về trong nội dung bài viết một cách Chi Tiết 2022. Nếu sau khi Read tài liệu vẫn ko hiểu thì hoàn toàn có thể lại phản hồi ở cuối bài để Tác giả lý giải và hướng dẫn lại nha.

Thống kê là một dạng phân tích toán học sử dụng những quy mô, sự màn biểu diễn và tóm tắt định lượng cho một tập hợp tài liệu thực nghiệm hoặc nghiên cứu và phân tích thực tiễn nhất định nhằm mục đích phục vụ cho quy trình phân tích, Dự kiến và quyết định hành động.

Nội dung chính

    Thống kê là gì?Phương pháp thống kêCác bước cơ bản để nghiên cứu và phân tích thống kêÝ nghĩa của thống kê trong đời sốngTư vấn thống kê bởi Luật Hoàng PhiVideo liên quan

Thống kê được sử dụng nhiều trong những bài báo cáo tổng hợp hay những văn bản liên quan nhằm mục đích mục tiêu tóm lược những nội dung cần truyền tải. Để hiểu thêm về thống kê là gì? chúng tôi xin chia sẻ với Quý vị những thông tin hữu ích về yếu tố này.

Thống kê là gì?

Thống kê là một dạng phân tích toán học sử dụng những quy mô, sự màn biểu diễn và tóm tắt định lượng cho một tập hợp tài liệu thực nghiệm hoặc nghiên cứu và phân tích thực tiễn nhất định nhằm mục đích phục vụ cho quy trình phân tích, Dự kiến và quyết định hành động.

Thống kê được phân thành hai nghành: thống kê mô tả và thống kê suy luận. Đối với mỗi nghành sẽ có được hiệu suất cao riêng. Xác định được mục tiêu thống kê là gì giúp chủ thể lựa chọn được cho mình phương pháp thực thi, thông qua đó hoàn toàn có thể đưa ra những nhìn nhận đúng chuẩn nhất lúc thực thi thống kê.

Phương pháp thống kê

Để thống kê được mang lại những kết quả như mong ước, nên phải ghi nhận những phương pháp thống kê là gì?, thông qua đó hoàn toàn có thể thực thi nghiên cứu và phân tích đối tượng người dùng tốt nhất. Thống kê sử dụng 4 phương pháp cơ bản: tích lũy và xử lý số liệu, khảo sát chọn mẫu, nghiên cứu và phân tích mối liên hệ Một trong những hiện tượng kỳ lạ và Dự kiến, rõ ràng như sau:

– Phương pháp tích lũy và xử lý số liệu. Đây là phương pháp được sử dụng trong trường hợp số liệu có sự hỗn độn, tài liệu chưa phục vụ được cho quy trình nghiên cứu và phân tích. Chính vì thế cần tiến hành xử lý tổng hợp, trình diễn, tính toán. Từ đó kết quả sẽ hỗ trợ khái khoát đặc trưng tổng thể.

– Điều tra chọn mẫu là sử dụng phương pháp chỉ việc nghiên cứu và phân tích một bộ phận của tổng thể mà hoàn toàn có thể suy luận cho hiện tượng kỳ lạ tổng quát mà vẫn đảm bảo độ tin cậy được cho phép.

– Nghiên cứu mối liên hệ Một trong những hiện tượng kỳ lạ: phương pháp thống kê này hướng tới những mối liên hệ của những hiện tượng kỳ lạ với nhau.

– Dự đoán. Đây là phương pháp thiết yếu và quan trọng trong hoạt động và sinh hoạt giải trí thống kê. Từ những phương pháp trên tích lũy được những đặc trưng, số liệu,… hoàn toàn có thể đưa ra những Dự kiến.

Các bước cơ bản để nghiên cứu và phân tích thống kê

Việc tóm gọn được tiến trình nghiên cứu và phân tích thống kê là gì? giúp những chủ thể thực thi thực thi và mang lại kết quả đúng chuẩn nhất. Về cơ bản nên phải có 5 bước khi thực thi nghiên cứu và phân tích thống kê, gồm có:

– Bước 1: Lập kế hoạch nghiên cứu và phân tích thống kê. Bao gồm việc tìm hiểu những số liệu để vấn đáp nghiên cứu và phân tích bằng việc sử dụng những thông tin như: ước tính sơ lược của kết quả khảo sát, những thuyết,…;

– Bước 2: Thiết kế nghiên cứu và phân tích thống kê. Nhằm ngăn sự ảnh hưởng của những biến gây nhiễu và phân loại mẫu ngẫu nhiên của thông số uy tín cho những đối tượng người dùng;

– Bước 3: Kiểm tra những nghiên cứu và phân tích sau những giao thức thử nghiệm và phân tích;

– Bước 4: Kiểm tra thêm những tài liệu thiết lập trong phân tích thứ cấp, đề xuất kiến nghị giả thuyết mới cho nghiên cứu và phân tích;

– Bước 5: Tìm kiếm tài liệu và trình diễn kết quả nghiên cứu và phân tích.

Ý nghĩa của thống kê trong đời sống

– Thống kê có vai trò rất quan trọng trong quy trình nghiên cứu và phân tích để hoàn toàn có thể đưa ra những số lượng có ý nghĩa phân tích tương hỗ cho những nhà phân tích thống kế đã có được những kết quả xác thực nhất để cải tổ những yếu tố liên quan đến đời sống xã hội.

– Từ những hiện tượng kỳ lạ trong đời sống thông quá việc thống kê những nhà phân tích, nghiên cứu và phân tích hoàn toàn có thể tạo ra những bảng biểu gồm có số lượng, tài liệu, biểu đồ thể hiện những thông tin quan trọng một cách ngắn gọn và dễ hiểu riêng với mọi người.

– Kết quả của việc thống kê đó đó là vị trí căn cứ, là cơ sở cho những nhà lãnh đạo doanh nghiệp, lãnh đạo nhà nước hoàn toàn có thể đưa ra những quyết định hành động ảnh hưởng đến tình hình chung đời sống xã hội của con người.

Tư vấn thống kê bởi Luật Hoàng Phi

Hi vọng với những chia sẻ trên, Quý vị phần nào hiểu được thống kê là gì?, thông qua đó hoàn toàn có thể tiến hành nhìn nhận một đối tượng người dùng tốt nhất. Việc nghiên cứu và phân tích thống kê một đối tượng người dùng nên phải thực thi đúng phương pháp và khá đầy đủ tiến trình khi thực thi.

Bài này nhằm mục đích tìm hiểu sâu hơn về Suy luận Thống kê (Statistical Inference), trong số đó, nỗ lực hiểu hơn về bản chất, ý nghĩa của môn học Thống kê trong ứng dụng xử lý và xử lý những bài toán thực tiễn trong môi trường tự nhiên vạn vật thiên nhiên sống đời thường, cũng như, làm rõ những khái niệm cơ bản nhưng dễ nhầm lẫn, như quy mô xác suất, quy mô thống kê, phân phối xác suất, … 

Mình lược dịch Chương 5. Suy luận Thống kê của quyển sách Probability and Statistics: The Science of Uncertainty (Link cuối bài). Đồng thời, nội dung bài viết cũng tương hỗ update, tổng hợp thêm những kiến thức và kỹ năng liên quan (để sách tìm hiểu thêm cuối bài), ví dụ, phần 0 của bài là nhắc lại khái niệm, những thuật ngữ về Xác suất. 

Bài viết nhằm mục đích làm rõ những khái niệm cơ bản về Xác suất, và Suy luận Thống kê, gồm 6 phần: 

Phần 0. Đôi nét về Xác suấtPhần 1. Ý nghĩa của Thống kêPhần 2. Kiểm định sử dụng quy mô Xác suấtPhần 3. Mô hình thống kêPhần 4. Thu thập tài liệu

Phần 5. Một vài kiểm định cơ bản

Xác suất là việc định lượng kĩ năng sẽ xẩy ra của một sự kiện trong môi trường tự nhiên vạn vật thiên nhiên sống đời thường, nhờ vào những quy tắc toán học để tham dự báo, ước lượng. Nói cách khác, xác suất đo đạc mức độ không chắc như đinh (uncertainty) của một sự kiện. 

 “Khả năng ngày hôm nay trời mưa là 30%” là một nhận định mà định lượng cảm nhận về kĩ năng trời mưa. Xác suất luôn luôn được gán cho một số trong những từ khoảng chừng [0, 1] (hoặc tỷ suất Phần Trăm từ 0 đến 100%). Con số cao hơn đã cho toàn bộ chúng ta biết kết quả có nhiều kĩ năng hơn số lượng thấp hơn. 0 cho biết thêm thêm kết quả sẽ không còn xẩy ra. Xác suất 1 đã cho toàn bộ chúng ta biết kết quả chắc như đinh sẽ xẩy ra.

Có 3 phương pháp hầu hết để gán xác lập xác suất cho một kết quả, sự kiện, đó là: phương pháp cổ xưa (classical method), tần suất tương đối (relative frequency method) và phương pháp chủ quan (subjective method)

Phương pháp cổ xưa để gán xác suất là thích hợp khi toàn bộ những kết quả đều hoàn toàn có thể xẩy ra như nhau. Nếu hoàn toàn có thể xay ra n kết quả thử nghiệm, từng kết quả thử nghiệm có xác suất là một trong / n. 

Phương pháp tần suất tương đối được sử dụng khi tài liệu có sẵn để ước tính số lần kết quả thử nghiệm sẽ xẩy ra nếu thí nghiệm được lặp đi lặp lại thật nhiều lần. Ví dụ, khi ta tung đồng xu đến Hàng trăm lần, thì xác suất để đồng xu ở mặt ngửa là 0.5. Dù cách hiểu theo lối tần suất này dễ hiểu, nhưng hạn chế ở điểm: không phải sự kiện nào trong môi trường tự nhiên vạn vật thiên nhiên sống đời thường cũng hoàn toàn có thể lặp đi lặp lại (ví dụ, xác suất để A được bầu chọn làm Tổng thống). 

Phương pháp chủ quan là thích hợp nhất trong trường hợp không thể thực tiễn nhận định rằng những kết quả thử nghiệm hoàn toàn có thể như nhau và khi có ít tài liệu liên quan. Khi phương pháp chủ quan được sử dụng để gán xác suất cho kết quả thử nghiệm, ta hoàn toàn có thể sử dụng bất kỳ thông tin nào có sẵn, ví như kinh nghiệm tay nghề hoặc trực giác của tớ. Sau khi xem xét toàn bộ những thông tin có sẵn, chỉ định một giá trị xác suất thể hiện mức độ tin tưởng (degree of belief) (trên thang điểm từ 0 đến 1) rằng kết quả thử nghiệm sẽ xẩy ra. Bởi vì xác suất chủ quan thể hiện mức độ niềm tin của một người, nó mang tính chất chất thành viên. Sử dụng phương pháp chủ quan, những người dân rất khác nhau hoàn toàn có thể được dự kiến sẽ gán những xác suất rất khác nhau cho cùng một kết quả thử nghiệm.

Lý thuyết về xác suất giúp ta hoàn toàn có thể quyết định hành động tốt hơn trong những Đk bất định trong môi trường tự nhiên vạn vật thiên nhiên sống đời thường. 

Một quy mô xác (probability model) suất gồm có: 

+ Không gian mẫu (sample space): gồm có toàn bộ kết qủa hoàn toàn có thể xẩy ra 

Ví dụ, một không khí mẫu của thời tiết trong thời gian ngày là nắng, mưa, âm u

Không gian mẫu rời rạc (discreet) gồm có hữu hạn những thành phần và không khí mẫu liên tục (continuous) gồm có vô hạn những thành phần. Ví dụ, không khí mẫu về thời tiết là hữu hạn, nhưng không khí mẫu về độ cao của dân số Việt Nam là liên tục. 

+ Sự kiện (events): là tập con của không khí mẫu

Ví dụ, không khí mẫu nắng, mưa, âm u có sự kiện nắng, mưa, âm u, nắng, âm u, mưa, âm u, nắng, mưa, nắng, mưa, âm u. 

+ Phép đo xác suất (Probability measure): thể hiện xác suất của những sự kiện. Phép đo xác suất, hay phân phối xác suất (probability distribution) là một hàm P mà gán một số trong những thực P(A) cho từng sự kiện A. Ta sẽ tìm hiểu kĩ hơn ở mục 0.4. phương pháp cổ xưa, tần suất tương đối và phương pháp chủ quan. 

Biến ngẫu nhiên của một quy mô xác suất là một hàm gắn 1 giá trị số (numeric value) cho một giá trị trong không khí mẫu. Ví dụ, gọi X là hàm số giới tính của người dân thành phố A. Không gian mẫu (gần như thể là tập xác lập của hàm số) là Nam, Nữ, Khác. Khi đó, ta có X(Nam) = 2 triệu, X(Nữ) = 2.5 triệu, X(Khá) = 0.3 triệu. Hay ta hoàn toàn có thể viết, Dân_số_VN(Nam) = 2 triệu; Dân_số_VN(Nữ) = 2.5 triệu. Hoặc Theo phong cách khác, f(x)= Dân_số_VN. f(Nam) = 2 triệu; f(Nữ) = 2.5 triệu. 

Xác suất của biến ngẫu nhiên là xác suất xẩy ra sự kiện. 

Ví dụ. S = nắng, mưa, âm u. Gắn X là thời tiết trong tuần. X(nắng) = 3; X(mưa) = 2; X(âm u) = 2; X = 3 khi trời nắng; X = 2 khi trời mưa, và X = 2 khi trời âm u. Nếu P(mưa) = 0.4; P(nắng) = 0.3; P(âm u) = 0.3. Thi P(X = 3) = P(nắng) = 0.4; P(X=4) = P(mưa) = 0.4; P(X=-1) = P(âm u) = 0.3. 

Một ví dụ khác, lật một đồng xu hai lần và gọi X là số lượng mặt ngửa. Sau đó, P (X = 0) = P (X X) = 1/4, P (X = 1) = P (XN, NX) = 1/2 và P (X = 2) = P (HH) = 1/4. 

Biến ngẫu nhiên gồm có biến ngẫu nhiên rời rạc (discreet) và liên tục (continuous).

Nhắc lại, Phân phối xác suất hay phép đo xác suất của biến ngẫu nhiên X là yếu tố mô tả xác suất của những giá trị hoàn toàn có thể có của X. Hay hoàn toàn có thể nói rằng, là của hàm số X (với biến số là kết quả đầu ra). Một cách định nghĩa khác, phép đo xác suất, hay phân phối xác suất là một hàm P mà gán một số trong những thực P(A) cho từng sự kiện A. Như vậy, phân phối xác suất là một hàm số, mà “biến” một giá trị của hàm số X với một giá trị xác suất tương ứng nằm trong mức chừng [0;1]. 

Người ta sử dụng hàm phân phối dồn tích (cumulative distribution functions, CDF) để mô tả phân phối xác suất của biến ngẫu nhiên. 

Ngoài ra, người ta còn sử dụng hàm xác suất (probability function), riêng với biến ngẫu nhiên rời rạc, thì gọi là probability mass function, riêng với biến liên tục là hàm tỷ suất xác suất (probability density function). Xác suất này được biểu trưng bởi tích phân, tức là phần diện tích s quy hoạnh dưới hàm tỷ suất xác suất. Do đó, xác suất để X tại một điểm bất kì bằng 0, còn xác suất để X thuộc khoảng chừng (a; b) là tích phân của hàm tỷ suất xác suất từ a tới b.

Probability mass function của một biến ngẫu nhiên rời rạc là yếu tố thay đổi của CDF tại một giá trị xác lập. Đối với biến liên tục, hàm tỷ suất xác suất là đạo hàm của hàm CDF. (Đọc thêm tại Applied Statistics for Engineering).

Đối với biến ngẫu nhiên, bất kể rời rạc hay liên tục, người ta quan tâm tới những tham số, như giá trị trung bình (mean), hay giá trị kì vọng (expected value), phương sai (variance) và độ lệch chuẩn (standard deviation) của biến ngẫu nhiên đó. Đồng thời, ta cũng quan tâm tới những dạng phân phối xác suất điển hình, được sử dụng rộng tự do trong Thống kê, như phân phối chuẩn (normal distribution), phân phối chi-bình phương (chi-square distribution).

Cùng tìm hiểu ví dụ về Nghiên cứu sự hiệu suất cao của chương trình ghép tim của Đại học Stanford. Nghiên cứu này nhằm mục đích kết luận xem liệu chương trình ghép tim của Đại học Stanford có mang lại hiệu suất cao như đã dự tính không, tức là ngày càng tăng tuổi thọ của bệnh nhân. Nói cách khác, vướng mắc nghiên cứu và phân tích đưa ra là, liệu một bệnh nhân được ghép tim có sống lâu hơn so với một bệnh nhân không được ghép tim hay là không. 

Khi xem xét đồng ý một phương pháp điều trị y tế mới được đề xuất kiến nghị cho một căn bệnh, ta cần xem xét những yêu tố như những cải tổ của phương pháp điều trị, ngân sách, cũng như đau đớn sẽ gây nên ra thêm vào cho bệnh nhân. Nếu phương pháp điều trị mới chỉ tạo ra một tăng cấp cải tiến nhỏ, thì hoàn toàn có thể không còn mức giá trị nếu nó rất tốn kém hoặc gây thêm nhiều đau đớn cho bệnh nhân. 

Ta không bao giờ hoàn toàn có thể biết liệu một bệnh nhân đã nhận được được trái tim mới có sống lâu hơn vì cấy ghép so với việc không thực thi cấy ghép hay là không. Vì vậy, kỳ vọng duy nhất trong việc xác lập sự hiệu suất cao của phương pháp điều trị có hiệu suất cao là so sánh tuổi thọ của bệnh nhân đã được ghép tim mới với tuổi thọ của bệnh nhân không cấy ghép. Tuổi thọ của một bệnh nhân bị ảnh hưởng bởi nhiều yếu tố, nhiều trong số này sẽ không còn liên quan gì đến sức mạnh thể chất của tim. Ví dụ, mỗi bệnh nhân có sự sai khác thật nhiều về lối sống hay mắc những bệnh lý khác, và điều này sẽ có được ảnh hưởng lớn tới sự sai khác về tuổi thọ Một trong những bệnh nhân. Vậy làm thế nào để hoàn toàn có thể so sánh, vấn đáp vướng mắc nghiên cứu và phân tích đã nêu lên?

Một cách tiếp cận yếu tố này là tưởng tượng rằng có phân phối xác suất (probability distribution) mô tả tuổi thọ của hai nhóm bệnh nhân. Gọi tỷ suất fT và fC là phân phối xác suất của 2 nhóm, trong số đó T biểu thị cho nhóm được cấy ghép và C biểu thị cho nhóm không được ghép. Ở đây, dùng nhãn C chính bới nhóm này sẽ là một trấn áp (control) trong nghiên cứu và phân tích để lấy ra một số trong những so sánh với việc điều trị (ghép tim). Sau đó, coi tuổi thọ của một bệnh nhân được cấy ghép như một quan sát ngẫu nhiên từ fT và tuổi thọ của một bệnh nhân không được cấy ghép như một quan sát ngẫu nhiên từ fC. Do vậy, ta muốn so sánh fT và fC để xác lập liệu cấy ghép có hiệu suất cao hay là không. Ví dụ, ta hoàn toàn có thể tính và so sánh tuổi thọ trung bình của mỗi phân phối. Nếu tuổi thọ trung bình của fT to nhiều hơn fC, thì hoàn toàn có thể xác lập rằng việc điều trị là hiệu suất cao. Tất nhiên, ta vẫn sẽ phải nhìn nhận liệu tăng cấp cải tiến có đủ lớn để vượt qua ngân sách tăng thêm và tăng phần đau đớn của bệnh nhân hay là không. 

Nếu toàn bộ chúng ta hoàn toàn có thể có một số trong những lượng lớn những quan sát tùy ý từ fT và fC, thì ta hoàn toàn có thể xác lập những phân phối này với độ đúng chuẩn cao. Tuy nhiên, trong thực tiễn, ta bị hạn chế với một số trong những lượng quan sát tương đối nhỏ. Ví dụ, trong nghiên cứu và phân tích được trích dẫn có 30 bệnh nhân trong nhóm người không được cấy ghép và 52 bệnh nhân trong nhóm người đã được cấy ghép.

Đối với mỗi bệnh nhân không được cấy ghép, giá trị của X – số ngày họ còn sống sau ngày họ được xác lập là ứng viên cho ca ghép tim cho tới lúc ngày kết thúc nghiên cứu và phân tích – đã được ghi lại. Vì nhiều nguyên do, những bệnh nhân này đã làm không sở hữu và nhận được trái tim mới, ví dụ, họ đã chết trước lúc một trái tim mới hoàn toàn có thể được tìm thấy cho họ. Những tài liệu này, cùng với một chỉ báo về tình trạng của bệnh nhân khi chấm hết ngày nghiên cứu và phân tích, được trình diễn trong Bảng 5.1. Giá trị chỉ báo S = a biểu thị rằng Bệnh nhân còn sống khi kết thúc nghiên cứu và phân tích và S = d biểu thị rằng bệnh nhân đã chết. 

Bảng 5.1: Bảng mô tả số ngày sống, tình trạng của bệnh nhân không được cấy ghép 

Đối với mỗi bệnh nhân điều trị, giá trị của Y, số ngày họ chờ đón ghép sau ngày họ được xác lập là ứng viên cho ca ghép tim, và giá trị của Z, số ngày họ còn sống sau ngày họ nhận được ghép tim cho tới ngày kết thúc nghiên cứu và phân tích, cả hai đều được ghi lại. Các thời hạn sống sót cho nhóm điều trị tiếp theo này được đưa ra bởi những giá trị của Y + Z. Dữ liệu này, cùng với một chỉ báo về tình trạng của bệnh nhân tại ngày kết thúc nghiên cứu và phân tích, được trình diễn trong Bảng 5.2.

Bảng 5.2 Bảng mô tả số ngày sống, tình trạng của bệnh nhân được cấy ghép 

Ta không thể so sánh trực tiếp fT và fC vì ta không biết những phân phối này. Nhưng ta có một số trong những thông tin về những phân phổi này chính bới ta đã thu được những giá trị từ mỗi phân phối, như được trình diễn trong Bảng 5.1 và 5.2. Vậy làm thế nào để ta sử dụng những tài liệu này để so sánh fT và fC để vấn đáp vướng mắc quan trọng nhất về sự việc hiệu suất cao của điều trị ghép tim. Đây là nghành của thống kê và lý thuyết thống kê, rõ ràng là, phục vụ những phương pháp để suy luận về phân phối xác suất chưa chắc như đinh nhờ vào việc quan sát (hoặc lấy mẫu) đã có được từ những phân phối xác suất.

Lưu ý rằng ví dụ này đã được đơn thuần và giản dị hóa phần nào, tuy nhiên ví dụ trên trình diễn bản chất của yếu tố. Trong thực tiễn, yếu tố sẽ phức tạp hơn khi nhà thống kê sẽ có được sẵn những tài liệu tương hỗ update về mỗi bệnh nhân, như tuổi, giới tính và tiền sử bệnh. Ví dụ, trong Bảng 5.2 ta có những giá trị của toàn bộ Y và Z cho từng bệnh nhân trong nhóm điều trị. 

Ví dụ trên đưa ra một số trong những dẫn chứng đã cho toàn bộ chúng ta biết những vướng mắc có vai trò thực tiễn lớn yên cầu phải sử dụng tư duy và phương pháp luận thống kê. Có nhiều trường hợp trong khoa học vật lý và xã hội trong số đó thống kê đóng vai trò then chốt. Thành phần trọng tâm trong toàn bộ đấy là những gì toàn bộ chúng ta phải đương đầu với sự không chắc như đinh (uncertainty). Sự không chắc như đinh này được gây ra bởi cả sự dịch chuyển (variation), điều mà hoàn toàn có thể được quy mô hóa thông qua xác suất, và bởi thực tiễn là toàn bộ chúng ta không thể tích lũy đủ quan sát để biết đúng chuẩn những quy mô xác suất (probability models). Mô hình toán học được xây dựng và sử dụng để xử lí với những dịch chuyển gây ra sự không chắc như đinh. Trong chương này trình diễn Thống kê như một phương pháp để xử lí sự không chắc như đinh gây ra bởi yếu tố, ta không thể tích lũy toàn bộ quan sát. 

• Thống kê được vận dụng cho những trường hợp trong số đó vướng mắc nghiên cứu và phân tích không thể vấn đáp một cách chắc như đinh, thường là vì sự thay đổi trong tài liệu. 

• Xác suất được sử dụng để quy mô hóa những dịch chuyển (variation) quan sát được trong tài liệu. Suy luận thống kê liên quan đến việc sử dụng tài liệu quan sát được để giúp xác lập phân phối xác suất thực (true probability distribution) tạo ra bởi những dịch chuyển này và do này đã có được cái nhìn thâm thúy cho những câu vấn đáp cho những vướng mắc quan tâm.

Ghi chú của người dịch: Như vậy, ta giả sử rằng tài liệu có một dạng phân phối, được đặc trưng bởi những tham số. Bộ môn Xác suất giúp ta màn biểu diễn phân phối của tài liệu dưới ngôn từ Toán học. Tuy nhiên, trong thực tiễn, ta không thể tích lũy toàn bộ quan sát của phân phối, nên không thể biết chính phân phối xác suất của tài liệu là gì. Từ những quan sát hạn chế tích lũy được, ta sử dụng Thống kê để Dự kiến phân phối thật của tài liệu. 

Như đã đề cập, Xác suất giúp đo lường hay định lượng sự không chắc như đinh. 

Tất nhiên, ta không chắc như đinh về nhiều thứ và cũng không thể nhận định rằng xác suất hoàn toàn có thể vận dụng cho toàn bộ những trường hợp. Tuy nhiên, ta giả sử cảm thấy hoàn toàn có thể vận dụng Xác suất cho trường hợp gặp phải và khi đó, xác lập một phép đo xác suất P nhờ vào tập hợp những tập hợp con của không khí mẫu S cho một kết quả (response hay outcome) s. 

Trong ứng dụng xác suất, giả sử rằng P đã biết và ta không chắc như đinh về một kết quả tương lai s ∈ S. Trong toàn cảnh như vậy, ta hoàn toàn có thể buộc phải hoặc muốn đưa ra suy luận (inference) về giá trị chưa chắc như đinh của s. Ta sẽ phải Dự kiến (prediction) hoặc ước lượng (estimate) giá trị hợp lý cho s, ví dụ, dưới Đk thích hợp, ta hoàn toàn có thể lấy giá trị kì vọng của s như kết quả Dự kiến. Trong những trường hợp khác, ta hoàn toàn có thể phải xây dựng một tập hợp con có xác suất cao chứa s, ví dụ, tìm một vùng (region) gồm có tối thiểu 95% xác suất và có kích thước nhỏ nhất trong số toàn bộ những vùng như vậy. Ngoài ra, toàn bộ chúng ta hoàn toàn có thể được yêu cầu để xem nhận liệu giá trị đã nêu s0 liệu có phải là giá trị không hợp lý từ P đã biết hay là không, ví dụ, nhìn nhận xem có hay là không s0 nằm trong vùng được xác lập thấp bởi P và do đó là không thể tin được. Đây là những ví dụ về suy luận có liên quan đến những ứng dụng của lý thuyết xác suất.

• Các quy mô xác suất được sử dụng để quy mô sự không chắc như đinh về những kết quả trong tương lai. 

• Chúng ta hoàn toàn có thể sử dụng phân phối xác suất để Dự kiến kết quả trong tương lai hoặc nhìn nhận xem có hợp lý khi nhận định rằng một giá trị nhất định là một giá trị tương lai hoàn toàn có thể có từ phân phối hay là không.

Trong một yếu tố thống kê, ta phải đương đầu với việc không chắc như đinh của một yếu tố khác với những yếu tố trong Mục 2. Trong ngữ cảnh thống kê, ta quan sát tài liệu s, nhưng lại không chắc như đinh về P. Trong trường hợp như vậy, ta xây dựng những suy luận về P nhờ vào trên s. Đây là nghịch hòn đảo của trường hợp được thảo luận trong Mục 2. 

Làm thế nào để lấy ra những suy luận thống kê (Statistical inferences) có lẽ rằng không rõ ràng chút nào. Trong thực tiễn, có một số trong những cách tiếp cận hoàn toàn có thể sử dụng sẽ tiến hành thảo luận trong những chương tiếp theo. Trong chương này, ta sẽ tìm hiểu những thành phần cơ bản của mọi phương pháp tiếp cận. 

Gần như toàn bộ những phương pháp tiếp cận suy luận thống kê là khái niệm về quy mô thống kê (statistical model) cho tài liệu s. Khái niệm này còn có dạng một tập những phép đo xác suất, kí hiệu Pθ: θ ∈ *, một trong số đó tương ứng với phép đo xác suất chưa chắc như đinh thực sự (true unknown probability measure) mà tạo ra tài liệu s. Nói cách khác, ta đang xác lập rằng có một cơ chế ngẫu nhiên (random mechanism) tạo s và toàn bộ chúng ta biết rằng phép đo xác suất tương ứng P là một trong những phép xác suất trong Pθ: θ ∈ *. Lưu ý, kí hiệu * là dùng thay cho kí hiệu chỉ tập nhưng Spiderum không hiển thị được :(.

Có 2 loại quy mô thống kê: chứa tham số và không chứa tham số. Mô hình thống kê chứa tham số (parametric model) là một tập hợp mà hoàn toàn có thể được màn biểu diễn bằng một số trong những lượng hữu hạn những tham số. Các phân phối xác suất trong nó được màn biểu diễn bằng những tham số. Mục tiêu của quy mô thống kê là sử dụng suy luận thống kê để tìm kiếm được tham số “thực sự”, tức là tìm kiếm được phân phối xác suất thực sự đã sinh ra tài liệu s. Mô hình thống kê không chứa tham số (nonparametric model) là tập hợp mà không thể màn biểu diễn bằng hữu hạn tham số. 

Mô hình thống kê Pθ: θ ∈ * tương ứng với thông tin liên quan đến phép đo xác suất thực sự là gì. Biến θ được gọi là tham số (parameter) của quy mô, và tập hợp * được gọi là không khí tham số (parameter space) . Thông thường, ta sử dụng những quy mô trong số đó, θ ∈ * định danh những phép đo xác suất trong quy mô, tức là, Pθ1 = Pθ2 khi và chỉ khi θ1 = θ2. Nếu toàn bộ những phép đo xác suất Pθ đều hoàn toàn có thể được màn biểu diễn thông qua những hàm xác suất hoặc hàm tỷ suất fθ (để thuận tiện, ta sẽ không còn phân biệt giữa trường hợp biến rời rạc và liên tục trong ký hiệu), thì thông thường, quy mô thống kê được viết là fθ: θ ∈ *.

Từ định nghĩa của một quy mô thống kê, ta thấy rằng có một giá trị duy nhất θ ∈ *, sao cho Pθ là phép đo xác suất thực (true probability measure). Ta coi giá trị này là giá trị tham số thực (true parameter value). Nó rõ ràng tương tự với việc đưa ra suy luận về giá trị tham số thực hơn là phép đo xác suất thực, nghĩa là, đưa ra suy luận về giá trị thực tham số θ cũng đồng thời là suy luận về phân phối xác suất thực. Vì vậy, ví dụ, ta hoàn toàn có thể ước lượng giá trị thực của θ, xây dựng những vùng nhỏ trong * mà hoàn toàn có thể chứa giá trị thực hoặc nhìn nhận liệu tài liệu có ủng hộ hay là không với một số trong những giá trị rõ ràng, sẽ là giá trị thực, θ0. Đây là những loại suy luận, khởi sắc tương đương với những gì đã thảo luận trong Phần 2, nhưng trường hợp ở đây khá là rất khác nhau. 

Giả sử toàn bộ chúng ta có một chiếc bình chứa 100 chip, mỗi chip hoặc màu đen (Đ) hoặc trắng (T). Giả sử thêm rằng ta được biết có 50 hoặc 60 chip đen trong chiếc bình. Các chip được trộn kỹ, và tiếp theo đó 2 chip được rút mà không được rút lại. Mục tiêu là đưa ra suy luận về số lượng chip đen thực sự trong chiếc bình, khi đã quan sát tài liệu s = (s1, s2), trong số đó si là màu của chip thứ i được rút thoát khỏi bình.

Trong trường hợp này, toàn bộ chúng ta hoàn toàn có thể lấy quy mô thống kê là Pθ: θ ∈ *, trong số đó θ là số lượng chip đen trong bình, sao cho * = 50, 60 và Pθ là phép đo xác suất trên S = (Đ, Đ), (Đ, T), (T, Đ), (T, T). 

Do đó, P50 được gán cho xác suất 50 · 49 / (100 · 99) cho từng chuỗi (Đ, Đ) và (T, T) và xác suất 50 · 50 / (100 · 99) cho từng những chuỗi (Đ, T) và (T, Đ) và P60 gán xác suất 60 · 59 / (100 · 99) cho chuỗi (Đ, Đ), xác suất 40 · 39 / (100 · 99) cho chuỗi (T, T) và xác suất 60 · 40 / (100 · 99) cho từng chuỗi (Đ, T) và (T, Đ). Việc lựa chọn tham số này còn có phần tùy ý, vì toàn bộ chúng ta hoàn toàn có thể thuận tiện và đơn thuần và giản dị gắn nhãn những phép đo xác suất hoàn toàn có thể tương tự như P1 và P2. Tham số về bản chất chỉ là một nhãn được cho phép ta phân biệt Một trong những ứng viên tiềm năng được cho phép đo xác suất thực. Tuy nhiên, thông thường phải chọn nhãn một cách thích hợp sao cho nhãn có nghĩa nào đó trong yếu tố đang thảo luận.

Lưu ý rằng, ta sẽ sử dụng chữ in hoa để biểu thị một giá trị không quan sát được của một biến ngẫu nhiên X và chữ thường để biểu thị giá trị quan sát được. Vì vậy, một mẫu quan sát được (X1, …, Xn) sẽ tiến hành ký hiệu (x1, …, xn).

Tuy nhiên, trong nhiều ứng dụng, tham số θ sẽ là một số trong những điểm lưu ý của phân phối mà nhận một giá trị duy nhất cho từng phân phối trong quy mô. Ví dụ, một hàm xác suất được biểu thị là ta hoàn toàn có thể lấy θ là giá trị trung bình và tiếp theo đó không khí tham số sẽ là * = 1, 1.5. 

Hình 3.1 Nét liền là hàm phân phôi Exponential(1), Nét đứt là hàm phân phối Exponential(2)

Lưu ý rằng ta cũng hoàn toàn có thể sử dụng phần tư thứ nhất, hoặc cho việc đó bất kỳ phần tư nào khác, để gắn nhãn cho phân phối, với Đk mỗi phân phối trong họ phân phối sẽ đưa ra một giá trị duy nhất cho đặc trưng được lựa chọn. Nói chung, bất kỳ quy đổi 1-1 nào của một tham số đều được đồng ý như sự tham số hóa (parameterization) của một quy mô thống kê. Khi ta gán nhãn lại, ta gọi điều này là xác lập lại tham số (reparameterization) của quy mô thống kê.

Bây giờ ta xem xét 1 ví dụ quan trọng của những quy mô thống kê. 

Giả sử rằng (x1, …, xn) là một mẫu từ phân phối Bernoulli (θ) với θ ∈ [0, 1]
không xác lập. Chúng ta hoàn toàn có thể quan sát kết quả tung đồng xu và ghi Xi bằng  1 nếu lúc nào quan sát được mặt ngửa ở lần tung thứ i và bằng 0 nếu ngược lại. Ngoài ra, ta cũng hoàn toàn có thể quan sát những món đồ được sản xuất trong một quy trình công nghiệp và ghi lại Xi bằng 1 nếu món đồ thứ i bị lỗi và 0 nếu ngược lại. Trong toàn bộ những trường hợp này, ta muốn biết giá trị thực của θ, vì điều này cho toàn bộ chúng ta biết một điều quan trọng về đồng xu tiền mà toàn bộ chúng ta đang tung, hoặc quy trình công nghiệp. 

Bây giờ giả sử ta không còn thông tin gì về xác suất thực sự. Theo đó, ta lấy không khí tham số là * = [0, 1], là tập hợp toàn bộ những giá trị hoàn toàn có thể cho θ. Hàm xác suất cho mục mẫu thứ i được đưa ra bởi công thức: 

và hàm xác suất cho mẫu được đưa ra bởi công thức:

Câu hỏi nêu lên là thông tin về quy mô Pθ: ∈ * tới từ đâu trong một trường hợp ứng dụng xác suất? Làm thế nào để xác lập một quy mô thống kê cho tài liệu? Đôi khi có những thông tin như vậy nhờ vào kinh nghiệm tay nghề trước đó, nhưng thường thì đó là một giả định cần kiểm tra trước lúc vận dụng quy trình suy luận. Trong thực tiễn, quy trình kiểm tra những giả định đó, hay gọi là quy trình kiểm tra quy mô (model-checking procedures) bắt buộc thực thi trước quy trình suy luận. Nếu quy mô sai, những suy luận khác được rút ra từ tài liệu và quy mô thống kê hoàn toàn có thể bị lỗi. 

• Trong một ứng dụng thống kê, ta không biết phân phối của kết quả, nhưng ta biết (hoặc giả định) rằng phân phối xác suất thực sự là một trong những tập hợp những phân phối hoàn toàn có thể fθ: ∈ *, trong số đó fθ là hàm tỷ suất hoặc hàm xác suất (bất kể điều gì có liên quan) cho kết quả đó. Tập hợp những phân phối hoàn toàn có thể đã có được gọi là quy mô thống kê.

• Tập * được gọi là không khí tham số và biến θ được gọi là tham số của quy mô. Bởi vì mỗi giá trị của θ tương ứng với một phân phối xác suất riêng không liên quan gì đến nhau trong quy mô, toàn bộ chúng ta hoàn toàn có thể nói rằng về giá trị thực của θ, tương tự với phân phối thực qua fθ.

Sự tăng trưởng của Phần 2 và 3 nhờ vào biến phụ thuộc được quan sát được ghi nhận từ một phép đo xác suất P. Trên thực tiễn, trong nhiều ứng dụng, đấy là một giả định. Ta thường xuyên phát hiện những tài liệu hoàn toàn có thể được tạo ra Theo phong cách này, nhưng ta không thể luôn luôn chắc như đinh về điều này. 

Khi ta không thể chắc như đinh rằng tài liệu được tạo ra bởi một cơ chế ngẫu nhiên, thì phân tích thống kê về tài liệu được gọi là một nghiên cứu và phân tích quan sát (observational study). Trong một nghiên cứu và phân tích quan sát, nhà thống kê chỉ quan sát tài liệu chứ không can thiệp trực tiếp can thiệp vào việc tạo ra tài liệu, để đảm nói rằng giả định ngẫu nhiên giữ vững. Ví dụ, giả sử một giáo sư tích lũy tài liệu từ những sinh viên của tớ cho một nghiên cứu và phân tích xem xét quan hệ Một trong những lớp và việc làm bán thời hạn. Có hợp lý không để coi như tài liệu tích lũy được đã tới từ một phân phối xác suất? Nếu vậy, làm thế nào toàn bộ chúng ta sẽ lý giải hợp lý cho điều này?

Điều quan trọng là một nhà thống kê phải phân biệt thận trọng Một trong những trường hợp là những nghiên cứu và phân tích quan sát và những trường hợp không phải nghiên cứu và phân tích quan sát. Như những cuộc thảo luận sau này minh họa, có những tiêu chuẩn phải được vận dụng để phân tích một nghiên cứu và phân tích quan sát. Trong khi những phân tích thống kê của những nghiên cứu và phân tích quan sát là hợp lệ và thực sự quan trọng, ta phải nhận thức được những hạn chế của tớ khi diễn giải kết quả đó. 

Giả sử ta có tập hữu hạn II, được gọi là tổng thể (population) và hàm X có mức giá trị thực (đôi lúc được gọi là phép đo – measurement) được xác lập trên II. Vì vậy, với mỗi π ∈ II, toàn bộ chúng ta có đại lượng X (π) có mức giá trị thực đo lường một số trong những khía cạnh của π. (Lưu ý: một nhóm những biến ngẫu nhiên X1, X2, .., Xn được gọi là phân phối giống hệt độc lập (independent and identically distributed, kí hiệu II) nếu nhóm đó độc lập và mỗi một biến trong n biến này còn có phân phối giống nhau). 

Xét một ví dụ sau. Giả sử, II là một tổng thể có N = 20 lô đất cùng kích cỡ. Tiếp tục giả sử X(π) là phép đo độ phì nhiêu của lô đất π trên 10 điểm và thu được kết quả đo sau này:

Mục tiêu của một nhà thống kê trong trường hợp này là biết hàm FX càng đúng chuẩn càng tốt. Nếu ta biết đúng chuẩn về FX, thì ta đã xác lập được phân phối của X trên phân phối II. Một phương pháp để biết đúng chuẩn phân phối là tiến hành khảo sát dân số, trong số đó, nhà thống kê đi ra ngoài và quan sát X (π) cho từng π ∈ II và tiếp theo đó tính toán FX. Đôi khi điều này là khả thi, nhưng thường thì không thể hoặc thậm chí còn là không mong ước, do ngân sách về việc tổng hợp đúng chuẩn toàn bộ những phép đo – nghĩ về việc trở ngại vất vả ra làm sao để tích lũy độ cao của toàn bộ những sinh viên trong trường của bạn. Thường, việc ước lượng một cách khá đúng chuẩn FX đạt được khi lựa chọn một tập con π1, …, πn.

Có hai vướng mắc ta cần vấn đáp – rõ ràng là, ta nên lựa chọn tập con π1, …, πn ra làm sao và n nên lớn bao nhiêu?

 Trước tiên ta sẽ xử lý và xử lý yếu tố chọn π1, …, πn. Giả sử, ta chọn tập hợp con này theo một số trong những quy tắc nhất định nhờ vào nhãn duy nhất của mỗi π ∈ II. Ví dụ, nếu nhãn là một số trong những, ta hoàn toàn có thể xếp hạng những số và tiếp theo đó lấy n những yếu tố với những nhãn nhỏ nhất. Hoặc toàn bộ chúng ta hoàn toàn có thể xếp hạng những số và lấy thành phần cách nhau 1 bậc cho tới lúc toàn bộ chúng ta có một tập con của n, v.v.

Có nhiều quy tắc như vậy ta hoàn toàn có thể vận dụng, và có một yếu tố cơ bản. Nếu toàn bộ chúng ta muốn FˆX xấp xỉ FX cho toàn bộ tổng thể, thì, khi ta sử dụng một quy tắc, ta đương đầu với rủi ro không mong muốn chỉ chọn π1, …, πn từ một quần thể phụ. Ví dụ, nếu ta sử dụng mã sinh viên để xác lập từng thành phần của một tổng thể sinh viên, và nhiều sinh viên năm 4 sẽ có được mã sinh viên thấp hơn, khi đó, khi n nhỏ hơn N thật nhiều và ta chọn những sinh viên có mã sinh viên nhỏ nhất, FˆX thực sự chỉ xấp xỉ phân phối X trong tổng thể của sinh viên năm cuối tốt nhất. Phân phối này hoàn toàn có thể rất khác với FX. Tương tự, riêng với bất kỳ quy tắc nào khác ta sử dụng, trong cả những lúc ta không thể tưởng tượng được tập phụ (subpopulation) hoàn toàn có thể là gì, ảnh hưởng lựa chọn (selection effect), hoặc thiên kiến (bias) hoàn toàn có thể tồn tại, gây ra ước tính không hợp lệ.

Đây là trình độ trình độ (qualification) ta cần vận dụng khi phân tích kết quả nghiên cứu và phân tích quan sát. Trong một nghiên cứu và phân tích quan sát, tài liệu được tạo ra bởi một số trong những quy tắc, nhất là không được nghe biết bởi những nhà thống kê; điều này nghĩa là bất kỳ kết luận nào được rút ra nhờ vào tài liệu X (π1) ,,. . . , X (πn) hoàn toàn có thể không hợp lệ cho toàn bộ dân số. Dường như chỉ có một phương pháp để đảm bảo tránh những hiệu ứng lựa chọn, rõ ràng là phải chọn tập π1, …, πn bằng phương pháp sử dụng ngẫu nhiên. Đối với cách lấy mẫu ngẫu nhiên (simple random sampling), điều này nghĩa là một cơ chế ngẫu nhiên được sử dụng để chọn πi Theo phong cách như vậy rằng mỗi tập con của n có xác suất 1 / #N n$ được chọn. Ví dụ, ta hoàn toàn có thể đặt N miếng khoai tây vào một trong những chiếc bát, mỗi cái có một nhãn duy nhất tương ứng với một thành phần của tổng thể, tiếp theo đó rút ngẫu nhiên n miếng khoai tây từ bát mà không được thay thế. Các nhãn trên những khoai tây được rút ra xác lập những thành viên đã được chọn từ II. Ngoài ra, để ngẫu nhiên hóa, ta hoàn toàn có thể sử dụng bảng số ngẫu nhiên hoặc tạo những giá trị ngẫu nhiên sử dụng thuật toán máy tính.

Lưu ý rằng với lấy mẫu ngẫu nhiên đơn thuần và giản dị, (X (π1), .., X (πn)) là ngẫu nhiên. Đặc biệt, khi n = 1, khi đó toàn bộ chúng ta có P (X (π1) x) = FX (x), rõ ràng là phân phối xác suất của biến ngẫu nhiên X (π1) in như phân loại tổng thể.

Bất cứ lúc nào tài liệu được tích lũy bằng phương pháp sử dụng lấy mẫu ngẫu nhiên đơn thuần và giản dị, chúng tôi sẽ đề cập đến khảo sát thống kê như một nghiên cứu và phân tích lấy mẫu (sampling study). Đó là một nguyên tắc cơ bản của thực hành thực tiễn thống kê tốt rằng những nghiên cứu và phân tích lấy mẫu luôn luôn được ưu tiên hơn những nghiên cứu và phân tích quan sát, bất kể lúc nào chúng khả thi. Điều này là vì toàn bộ chúng ta hoàn toàn có thể chắc như đinh rằng, với một mẫu nghiên cứu và phân tích, bất kỳ kết luận nào chúng tôi rút ra nhờ vào mẫu π1, …, πn sẽ vận dụng cho một tổng thể quan tâm. Với những nghiên cứu và phân tích quan sát, ta không bao giờ hoàn toàn có thể chắc như đinh rằng mẫu tài liệu chưa thực sự được chọn từ một số trong những tập hợp con đúng của *. Ví dụ: nếu bạn được yêu cầu đưa ra những suy luận về sự việc phân loại độ cao của học viên tại trường của bạn nhưng đã chọn một số trong những bạn bè của bạn làm mẫu của bạn, thì rõ ràng là CDF ước tính hoàn toàn có thể rất rất khác với CDF thật (hoàn toàn có thể nhiều bạn bè của bạn thuộc một giới tính hơn cai khac).

Tuy nhiên, thông thường, ta không còn lựa chọn nào khác ngoài sử dụng tài liệu quan sát cho thống kê phân tích. Lấy mẫu trực tiếp từ tổng thể quan tâm hoàn toàn có thể cực kỳ trở ngại vất vả hoặc thậm chí còn là không thể. Ta vẫn hoàn toàn có thể coi kết quả của những phân tích đó là một dạng dẫn chứng, nhưng ta phải cảnh giác về những ảnh hưởng lựa chọn (selection effects) hoàn toàn có thể và thừa nhận kĩ năng này. Các nghiên cứu và phân tích lấy mẫu sẽ là một dẫn chứng thống kê cao hơn so với quan sát nghiên cứu và phân tích, vì chúng tránh khỏi ảnh hưởng lựa chọn.

Câu hỏi thứ hai ta cần xử lý và xử lý liên quan đến việc lựa chọn cỡ mẫu n. Có vẻ dễ hiểu khi ta muốn chọn cỡ mẫu càng lớn càng tốt. Mặt khác, luôn có ngân sách liên quan đến lấy mẫu và đôi lúc mỗi giá trị mẫu là rất tốn kém để đã có được. Hơn nữa, càng tích lũy nhiều tài liệu, ta càng gặp nhiều trở ngại vất vả hơn trong việc đảm bảo tài liệu không biến thành sai bởi nhiều loại lỗi hoàn toàn có thể phát sinh trong quy trình tích lũy. Vì vậy, câu vấn đáp của chúng tôi là ta muốn nó được chọn đủ lớn để đã có được độ đúng chuẩn thiết yếu nhưng không cần to nhiều hơn. Theo đó, nhà thống kê phải chỉ định mức độ đúng chuẩn bắt buộc và thì tiếp theo đó xác lập n.

Có nhiều phương pháp rất khác nhau để chỉ định độ đúng chuẩn thiết yếu trong một yếu tố và tiếp theo đó xác lập một giá trị thích hợp cho n. Xác định n là thành phần chính trong việc thực thi nghiên cứu và phân tích lấy mẫu và là thường được gọi là tính toán kích thước mẫu (sample-size calculation).

Các biến định lượng hoàn toàn có thể được phân loại thành những biến rời rạc hoặc biến liên tục. Các biến liên tục là những biến mà ta hoàn toàn có thể đo đến độ đúng chuẩn tùy ý khi tăng độ đúng chuẩn của một dụng cụ đo lường. Ví dụ, độ cao của một thành viên hoàn toàn có thể sẽ là một biến liên tục, trong lúc số năm giáo dục một thành viên sẽ tiến hành xem là một biến định lượng rời rạc. Biểu đồ tần suất hoàn toàn có thể sử dụng cho toàn bộ biến rời rạc và biến liên tục, đặc biệt quan trọng hữu ích cho biến liên tục. 

Lấy mẫu tổng thể hữu hạn phục vụ công thức cho một ứng dụng rất quan trọng thống kê, rõ ràng là lấy mẫu khảo sát (survey sampling) hoặc bỏ phiếu (polling). Thông thường, một cuộc khảo sát gồm có một bộ những vướng mắc được hỏi về một mẫu π1, …, πn từ tổng thể II. Mỗi vướng mắc tương ứng với một phép đo, vì vậy nếu có m vướng mắc, câu vấn đáp từ người vấn đáp π là vectơ m chiều (X1 (π), X2 (π), .., Xm (π)). Một ví dụ rất quan trọng về lấy mẫu khảo sát là việc bỏ phiếu trước bầu cử được thực thi để Dự kiến kết quả của một cuộc bỏ phiếu. Ngoài ra, nhiều công ty ngành hàng tiêu dùng sử dụng những cuộc khảo sát thị trường to lớn để tìm hiểu điều người tiêu dùng muốn và để đã có được thông tin giúp tăng lệch giá.

Thông thường, việc phân tích kết quả không riêng gì có quan tâm tới phân phối tổng tể của thành viên Xi mà còn phân phối tổng thể giao nhau (joint population distribution). Những phân phối chung này được sử dụng để vấn đáp cho vướng mắc như, liệu có quan hệ giữa X1 và X2, và nếu có, thì nó có dạng nào? Phân phối chung đặc biệt quan trọng hữu ích với X1, X2 đều là biến định tính liên tục.

Bài viết này chỉ tạm ngưng trình làng chứ không đi sâu tới những khía cạnh của lấy mẫu khảo sát.

• Lấy mẫu ngẫu nhiên đơn thuần và giản dị từ tổng thể II nghĩa là ta chọn ngẫu nhiên một tập con cỡ n từ II Theo phong cách sao cho từng tập con có xác suất được chọn như nhau.

• Dữ liệu từ nghiên cứu và phân tích lấy mẫu được tạo ra từ phân phối của phép đo biến ngẫu nhiên X trên toàn bộ tổng thể II hơn là một tổng thể nhỏ nào đó. Đó là lí do tại sao nghiên cứu và phân tích lấy mẫu rất được quan tâm hơn nghiên cứu và phân tích quan sát.

• Khi cỡ mẫu n khá nhỏ so với kích thước tổng thể, toàn bộ chúng ta hoàn toàn có thể coi những giá trị quan sát được của biến ngẫu nhiên X như thể một mẫu từ phân phối X trên toàn bộ tổng thể.

Bây giờ giả sử ta đang ở trong một trường hợp liên quan đến phép đo X, có phân phối là chưa xác lập và ta đã thu được tài liệu (x1, x2, …, xn), tức là, quan sát n giá trị của X. Hy vọng rằng những tài liệu này là kết quả của việc lấy mẫu ngẫu nhiên đơn thuần và giản dị, nhưng hoàn toàn có thể chúng được tích lũy từ một nghiên cứu và phân tích quan sát. Gọi hàm số tần số tương đối chưa chắc như đinh của tổng thể, hoặc hàm tỷ suất xấp xỉ là fX và hàm phân phối tổng thể là FX.

Những gì toàn bộ chúng ta làm giờ đây với tài liệu tùy từng hai điều. Đầu tiên, toàn bộ chúng ta phải xác lập những gì toàn bộ chúng ta muốn biết về phân loại tổng thể cơ bản. Điển hình là quan tâm chỉ là một vài điểm lưu ý của phân phối này – giá trị trung bình và phương sai. Thứ hai, ta phải sử dụng lý thuyết thống kê để phối hợp tài liệu với quy mô thống kê để suy luận về những điểm lưu ý quan tâm.

Bây giờ ta thảo luận về một số trong những điểm lưu ý điển hình được quan tâm và trình làng một số trong những phương pháp không chính thức ước tính cho những điểm lưu ý này, được gọi là thống kê mô tả (discriptive statistics). Thống kê mô tả thường được sử dụng như một bước sơ bộ trước lúc rút ra những suy luận chính thức hơn và biện minh trên cơ sở trực quan đơn thuần và giản dị. Chúng được gọi là mô tả chính bới chúng là ước tính số lượng mà mô tả những tính năng của phân phối cơ bản. Thống kê mô tả là đưa ra thật nhiều điểm lưu ý của phân phối, như mean, median, phương sai, độ xiên, vân vân. 

Vẽ đồ thị (Plotting) giúp trực quan hóa tài liệu, giúp ta có một vài ý tưởng về hình dạng của phân phối được lấy mẫu. Độ xiên cũng hoàn toàn có thể được phát hiện khi vẽ đồ thị.

Sử dụng Thống kê mô tả hay Vẽ đồ thị có những trở ngại vất vả nhất định vì việc lựa chọn những phương pháp này nhờ vào trực giác của người nghiên cứu và phân tích. Thông thường, không rõ ta nên sử dụng Thống kê mô tả nào. Hơn nữa, những tóm tắt tài liệu này sẽ không còn tận dụng thông tin ta có về phân loại dân số thực sự như quy mô thống kê, rõ ràng là, fX fθ: ∈ *. Sử dụng những thông tin này giúp ta tăng trưởng một lý thuyết về suy luận thống kê, tức là, để chỉ định cách toàn bộ chúng ta nên phối hợp thông tin quy mô với tài liệu để suy luận về số lượng tổng thể.

Trong mục 5.2, ta đã thảo luận về ba loại suy luận trong trường hợp quy mô xác suất đã biết, được xác lập là một hàm tỷ suất hoặc hàm xác suất f.

Trong ứng dụng thống kê, ta không biết f; toàn bộ chúng ta chỉ biết rằng f thuộc về một quy mô thống kê, tức là f ∈ fθ: θ ∈ *, và ta quan sát tài liệu s. Ta không chắc như đinh về việc ứng viên nào cho fθ là đúng chuẩn, hay nói cách khác, giá trị nào hoàn toàn có thể có của θ là đúng chuẩn.

Như đã đề cập trong Mục 5.1, tiềm năng chính của ta là xác lập không đúng fθ thật sự, nhưng tìm ra một số trong những điểm lưu ý quan tâm của phân phối thực như giá trị trung bình, trung vị hoặc giá trị của hàm phân phối thực F tại một giá trị xác lập.

Ta màn biểu diễn những điểm lưu ý này bằng ψ (θ). Ví dụ, khi điểm lưu ý được quan tâm là giá trị trung bình của phân phối thực của một biến ngẫu nhiên liên tục, tiếp theo đó:

Ngoài ra, toàn bộ chúng ta hoàn toàn có thể quan tâm đến (θ) = F − 1 (0,5), trung vị của phân phối của một biến ngẫu nhiên với hàm phân phối được đưa ra bởi Fθ.

Các giá trị rất khác nhau của θ dẫn đến những giá trị hoàn toàn có thể rất khác nhau về điểm lưu ý của ψ (θ). Sau khi quan sát tài liệu, ta muốn suy luận về giá trị đúng chuẩn. Ta sẽ xem xét ba loại suy luận cho ψ(θ. 

(i) Chọn một ước lượng T (s) của ψ(θ ), được gọi là yếu tố ước tính (problem of estimation). 

(ii) Xây dựng tập hợp con C (s) của tập hợp những giá trị hoàn toàn có thể cho ψ(θ ) màta tin rằng chứa giá trị thực, được gọi là yếu tố của việc xây dừng vùng uy tín (credit region/ confidence region). 

(iii) Đánh giá xem ψ0 liệu có phải là giá trị hợp lý của ψ(θ )  hay là không sau khi quan sát s, gọi là yếu tố nhìn nhận giả thuyết (hypothesis testing). 

Vì vậy, ước tính, khu vực uy tín hoặc tin cậy và nhìn nhận giả thuyết là ví dụ của nhiều chủng loại suy luận. Cụ thể, chúng tôi muốn xây dựng ước tính T (s) của ψ(θ ) xây dựng vùng tin cậy hoặc độ tin cậy C (s) cho ψ(θ ) và nhìn nhận tính hợp lý của một giá trị giả thuyết ψ0 cho ψ(θ ). 

Vấn đề suy luận thống kê yên cầu phải xác lập cách toàn bộ chúng ta nên phối hợp thông tin trong quy mô fθ: ∈ * và tài liệu s để thực thi những suy luận này khoảng chừng (θ).

• Thống kê mô tả đại diện thay mặt thay mặt cho những phương pháp thống kê không chính thức được sử dụng để thực thi suy luận về phân phối biến ngẫu nhiên X quan tâm, nhờ vào quan sát mẫu từ phân phối này. Các đại lượng này mô tả những điểm lưu ý của mẫu quan sát và hoàn toàn có thể sẽ là ước lượng của những đại lượng tổng thể chưa chắc như đinh tương ứng. Các phương pháp chính thức hơn bắt buộc sử dụng để xem nhận lỗi trong những ước lượng này hoặc thậm chí còn thay thế chúng bằng những ước lượng có độ đúng chuẩn hơn.

• Vẽ những đồ thị liên quan là rất quan trọng. Những điều này cho ta một số trong những ý tưởng về hình dạng của phân loại tổng thể mà ta lấy mẫu từ đó.

• Có ba loại suy luận chính: ước lượng, khoảng chừng tin cậy hoặc độ tin cậy và nhìn nhận giả thuyết.

[1] Evans, M., and Rosenthal, J., 2009. Probability and Statistics: The Science of Uncertainty. 2nd edn. Tp New York : W. H. Freeman. 

[2]  Wasserman,. L. 2010. All of Statistics: A Concise Course in Statistical Inference. Tp New York: Springer.

[4] Anderson, D. R., Sweeney, D. J., and Williams, T. A., 2008. Statistics for Business and Economics. Ohio : Thomson South-Western.  

Tải thêm tài liệu liên quan đến nội dung bài viết Phát biểu nào sau này dụng khi sử dụng thống kê suy luận

Reply
7
0
Chia sẻ

4376

Review Phát biểu nào sau này dụng khi sử dụng thống kê suy luận ?

Bạn vừa đọc nội dung bài viết Với Một số hướng dẫn một cách rõ ràng hơn về Review Phát biểu nào sau này dụng khi sử dụng thống kê suy luận tiên tiến và phát triển nhất

Share Link Cập nhật Phát biểu nào sau này dụng khi sử dụng thống kê suy luận miễn phí

Quý khách đang tìm một số trong những Chia Sẻ Link Down Phát biểu nào sau này dụng khi sử dụng thống kê suy luận miễn phí.

Giải đáp vướng mắc về Phát biểu nào sau này dụng khi sử dụng thống kê suy luận

Nếu sau khi đọc nội dung bài viết Phát biểu nào sau này dụng khi sử dụng thống kê suy luận vẫn chưa hiểu thì hoàn toàn có thể lại Comment ở cuối bài để Ad lý giải và hướng dẫn lại nha
#Phát #biểu #nào #sau #đây #dụng #khi #sử #dụng #thống #kê #suy #luận