POST 1: # Dùng model trong R để xác định đặc tính phân phối biến liên tục:
POST 2: # Tại sao đồ thị biểu diễn phân phối chuẩn lại có hình chuông Úp ?
POST 3: # Hồi quy đa thức bậc cao
POST 4: # Ngữ pháp mô hình trong R
POST 5: # Mô hình hồi quy Poisson
POST 6: # Bộ slide bài giảng của Richard McElreath về mô hình Bayes
POST 7: # Phân chia dữ liệu Train & Test
POST 8: # Box-Cox Transformation
POST 9: # Skill set số 2: các chiêu thức Trích xuất dữ liệu R
POST 10: # Dùng BAYES thay cho ANOVA
POST 11: # Dùng BAYES thay cho test t--Student
POST 12: # Skill set số 3: Thiết lập tương phản cho biến phân nhóm trong ANOVA
POST 14: # Mô hình cây phân loại sử dụng CARET
POST 15: # Mô hình hồi quy với CARET
POST 16: # Đồng Đồng diễn diễn mô mô hình hình với với CARETensemble CARETensemble
POST 17: # Mô hình Logistic Logistic BAYES
POST 18: # Mô hình Neural network /CARET
POST 19: # Sử dụng R xây dựng mô hình hồi quy tuyến tính theo Bayes
POST 20: # Tóm tắt những chỉ số quan trọng khi diễn giải kết quả suy diễn BAYES.
POST 21: # Hồi quy nhị thức âm BAYES BAYES
POST 22: # So sánh 2 phân nhóm độc lập theo BAYES:
POST 23: # Hồi quy Beta theo Bayes:
POST 25: # So So sánh sánh phẩm phẩm chất chất mô mô hình hình phân phân loại loại
POST 26: # Vietnam Machine Learning R Forum:
POST 27: # Book Reccomendation:
POST 28: # Book Reccomendation: Applied Survival Analysis Using R
POST 29: # Hoán chuyển dữ liệu sử dụng CARET:
POST 30: # Book Recommendation: Analysis of Large and Complex Data:
POST 33: # Quy trình Bootstrap:
1) Chuẩn bị câu hỏi dưới dạng 1 function 2) Triệu hồi thần may mắn 3) Đặt câu hỏi cho nữ thần 4) Chờ đợi câu trả lời
Tuyệt, mới nhắc đến cây là sáng nay cây mọc lên rào rào trên Rbloggers. Package mới huấn luyện mô hình cây, cú pháp dễ như ăn kẹo. Không sâu bằng caret nhưng các bác sĩ có thể sử dụng dễ dàng hơn...
https://cran.rstudio.com/web/packages/FFTrees/index.html
Mục tiêu nghiên cứu: Phân loại nguy cơ của nhồi máu cơ tim dựa vào 5 tiêu chí :Tuổi, Mức Cholesterol máu : Thấp, TB, cao, Thói quen hút thuốc lá, Trình độ học vấn, Trạng thái cân nặng: bình thường/Cao. Trên một mẫu 1004 trường hợp Chúng tôi ứng dụng mô hình cây với algorithm CART, kiểm chứng chéo 10x10 trên 80% dataset và kiểm định độc lập trên 20% còn lại Mô hình kết quả có hiệu năng cao (95%CI độ chính xác từ 80.9 - 90.3%). Kết luận: Mô hình cây phân loại (algorithm CART) là một phương pháp hữu ích cho nghiên cứu, thực hành y học: Nên phổ biến nó cho nhiều đồng nghiệp biết và ứng dụng vào thực tiễn ngay từ bây giờ Kiểm chứng chéo cho phép tối ưu hóa hiệu năng của mô hình phân loại: Nên nghĩ đến phương pháp này khi xây dựng thiết kế nghiên cứu Caret là 1 công cụ rất hữu dụng: Nên sử dụng caret làm giao thức để thực hành Machine learning R mạnh và linh hoạt hơn rất nhiều so với các gói công cụ thống kê thương mại khác: Hãy học và dùng R nhiều hơn
Diễn đàn Machine Learning R chính thức mở cửa hộm nay (trùng hợp với fete nationale Française) http://machinelearningvn.freeforums.net/ Hiện nay nó mới là một căn nhà trống: Chúng tôi cần có thời gian để xây dựng nội dung của Thư viện sách, dữ liệu và bài giảng phong phú hơn; tuy nhiên các bạn đã có thể bắt đầu đăng nhập và viết bài. Xin chân thành cảm ơn các bạn.
Bài 5 trong series caret: so sánh khả năng dự báo của mô hình phân loại : đồ thị trực quan và kiểm định t.
Nhắc lại: Suy diễn Bayes dựa trên nền tảng: Mức độ khả tín, dựa vào tỉ trọng chứng cứ. Nó không ép buộc các bạn phải tin vào 1 giá trị p duy nhất, mà đưa ra bằng chứng cho các bạn tự quyết định.
Bài thứ 4 của series CARET sẽ hướng dẫn thực hành về Neural Network sử dụng phương pháp nnet. NN, còn gọi là mạng thần kinh nhân tạo, là một giải pháp thay thế cho logistic model. Nó có ưu thế cũng như nhược điểm riêng, nhưng rất đáng để thử nghiệm.
Đây là bài thứ 4 của series Bayes. Bài này sẽ bàn về mô hình Logistic theo Bayes. Mình đã viết thêm 1 số code cho phép khảo sát phân phối hậu nghiệm của Odds-ratio cũng như loại trừ giả thuyết H0 liên quan tới khoảng vô nghĩa (ROPE) và ngưỡng ý nghĩa (CompVal) theo cách của John Kruschke.
Bài thứ 3 trong series CARET sẽ giới thiệu về tập hợp Mô hình (có nơi dịch là Đồng diễn), một phương pháp tối ưu hóa khả năng dự báo bằng cách can thiệp lên variance và/hoặc bias.
Bài thứ 2 trong series CARET. Mục tiêu của bài này là hướng dẫn Huấn luyện và Kiểm định mô hình hồi quy trong caret. 5 kiểu mô hình khác nhau sẽ được thử nghiệm: GLM, GLM đa thức bậc cao, Cây hồi quy, GAM với spline và LASSO.
Bài này mở đầu series CARET. CARET là một giao thức tổng quát cho phép kết nối với hàng trăm package khác nhau trong R, với ứng dụng là Mô hình dự báo và Machine Learning. CARET hỗ trợ 217 dạng mô hình khác nhau. Bài này sẽ ứng dụng mô hình cây kiểu CART vào chẩn đoán.
Một trong những trở ngại khó chịu khi phân tích Longitudinal data là định dạng của chúng. Có 2 kiểu định dạng phổ biến là Long data và Wide data. Một số package và thao tác chỉ tương thích với 1 trong 2: Long hoặc Wide. Sau đây là giải pháp chuyển đổi giữa chúng...
Bài tiếp theo trong series BAYES bàn về cách thay thế test t Student bằng phương pháp Bayes (Thực ra cả 2 đều dựa trên phân phối t của Student và một mô hình tuyến tính). Một lần nữa bạn sẽ thấy là Bayes mạnh và linh hoạt hơn rất nhiều.
Đây là bài đầu tiên trong series Bayes, mình sẽ trình bày lại chi tiết, đầy đủ mọi công đoạn phân tích BAYES bằng package brms. Chủ đề của bài này là dùng Bayes thay thế cho ANOVA. Bạn sẽ thấy sức mạnh và tính linh hoạt của phương pháp này.
Phân chia dữ liệu là công đoạn phổ biến trước khi phân tích bằng mô hình, thông thường ta chia (ngẫu nhiên) data lớn thành 2 subset, một tên là training dùng để dựng mô hình, subset kia tên là testing, hay validation, dùng để kiểm định mô hình.
Mình xin chia sẻ với các bạn cách tạo 1 hàm duy nhất trong R để làm việc này, từ những lệnh cơ bản
splitdata=function(dataframe, seed=NULL,ratio=NULL) {
if (!is.null(seed)) set.seed(seed)
index <- 1:nrow(dataframe)
trainid <- sample(index, trunc(length(index)*ratio))
trainsubset <- dataframe[trainid, ]
testsubset <- dataframe[-trainid, ]
list(training=trainsubset,testing=testsubset)
}
Cách sử dụng hàm này:
Step 1: Load data vào R: ví dụ data = read.csv("dataset.csv")
Step 2: Áp dụng hàm splitdata trên data với cú pháp: tên đối tượng split = splitdata
(tên data, seed=con số tùy chọn, ratio=tỉ lệ mẫu train so với data ban đầu)
Ghi chú: tỉ lệ mẫu train tùy bạn chọn, nếu sample size đủ lớn bạn có thể đặt tỉ lệ này = 0.5; bằng không bạn có thể đặt tỉ lệ từ 0.7 tới 0.9 để đảm bảo đủ để dựng mô hình (quan trọng hơn).
con số seed tùy bạn chọn, để tái lập kết quả
Thí dụ:
split=splitdata(data, seed=123, 0.7)
sẽ cắt data thành 2 phần, 70% dùng dựng mô hình, 30% còn lại dùng để kiểm định
Step 3: Tạo đối tượng cho mẫu train và test
train = split$training
test = split$testing
Bây giờ bạn đã có 2 subset là train và test như ý rồi nha.
Tập mới nhất của serie GLM sẽ bàn về mô hình Poisson. Trong bài này, Bs. Nhi sẽ hướng dẫn các bạn dựng model Poisson bằng 3 cách khác nhau, bao gồm suy diễn Bayes, làm sao diễn giải mô hình và bật mí về quan hệ giữa Poisson model và phân tích bảng chéo.
Polynomial regression Đây là bài thứ 2 trong series GLM; đề tài là hồi quy đa thức bậc cao. Bài này sẽ trình bày cả 5 phương pháp để dựng mô hình hồi quy đa thức bậc cao, bao gồm Trực giao, phân đoạn, riêng phần, Spline bậc 3 và Spline bù trừ
Trò chơi nhỏ sau đây sẽ giúp bạn trả lời câu hỏi này
1) Trong R, bạn tạo 3 đối tượng x, mu và s như sau :
x=runif(100,-10,10)
s=sd(x)
mu=mean(x)
Gọi package ggplot2
2) Ta bắt đầu với y1 = (x-mu) bình phương
y1=(-(x-mu)^2)
qplot(x,y1)
3)Tiếp tục với y2 = y1 chia cho 2 lần phương sai sigma của x
y2=(-(x-mu)^2/(2*s^2))
qplot(x,y2)
4) Rồi y3 = exp(y2)
y3=exp(-(x-mu)^2/(2*s^2))
qplot(x,y3)
5) Cuối cùng là y4 : xác suất phân phối Gaussian đầy đủ
y4=(1/(s*sqrt(2*pi)))*exp(-(x-mu)^2/(2*s^2))
qplot(x,y4)
Nhận xét : Chính y1 quyết định hình dạng đồ thị của hàm phân phối chuẩn, nó có hình chuông úp vì y1 là hàm số bậc 2. Tất cả những phần còn lại trong y3 và y4 chỉ là râu ria, vd: y3 dùng hàm exponential để đảm bảo giá trị xác suất dương, còn y4 để đảm bảo tổng xác suất =1
Như dự kiến, mình xin giới thiệu bài đầu tiên trong serie glm; bài này có mục tiêu kép là: (1) Ngược = Sử dụng glm và AIC để xác định kiểu phân phối phù hợp nhất cho 1 biến liên tục; và (2) Xuôi = Xác định kiểu phân phối cho Y trước khi tiến hành dựng bất kì model nào với Y là response variable. Package được sử dụng là gamlss. Đây là package mạnh nhất mình từng biết về glm.