AI không thể phát hiện ra sự thiên vị một cách đáng tin cậy.
Nhưng nó có thể giúp chúng ta khắc phục nó một cách xuất sắc.
Thử nghiệm ChatGPT trên các ghi chú bệnh viện thực tế để xem liệu nó có thể phát hiện và sửa ngôn ngữ phán xét về bệnh nhân hay không. Sự thật đáng ngạc nhiên: AI RẤT TUYỆT VỜI trong việc viết lại ngôn ngữ thiên vị (điểm gần như hoàn hảo!) nhưng không giỏi trong việc tự tìm ra nó (chỉ chính xác 51%).
Tại sao điều này quan trọng CHÚNG TA:
Bệnh nhân giờ đây có thể đọc mọi thứ bác sĩ viết về họ trực tuyến
Ngôn ngữ phán xét phá vỡ niềm tin giữa bệnh nhân và BS
Khi một bác sĩ viết điều gì đó thiên vị, mọi ĐD và chuyên gia đều thấy điều đó
Ví dụ thực tế từ nghiên cứu của chúng tôi:
Bản gốc: “Bệnh nhân có béo phì”
Viết lại bằng AI: “Đánh giá lâm sàng cho thấy BMI cao”
Cùng thông tin y tế, giọng điệu tôn trọng hơn.
Bước ngoặt: Hãy coi AI như trợ lý viết lách của bạn, chứ không phải thám tử thiên vị của bạn.
Phương pháp tiếp cận đơn giản gồm 2 bước của chúng ta:
AI + Nhân viên y tế phát hiện ngôn ngữ đáng lo ngại
AI ngay lập tức gợi ý một cách tôn trọng hơn để nói điều đó
Kết quả?
Ghi chú lâm sàng chính xác VÀ đối xử với bệnh nhân một cách tôn trọng.
Hãy tưởng tượng nếu mọi bệnh viện đều tích hợp tính năng này vào hệ thống máy tính của họ – giống như kiểm tra chính tả, nhưng vì mục đích tôn trọng hơn.
Đọc bài viết tại “Hướng tới tài liệu công bằng: Đánh giá vai trò của ChatGPT trong việc xác định và diễn đạt lại ngôn ngữ kỳ thị trong hồ sơ sức khỏe điện tử” - Zhihong Zhang PhD, RN và cộng sự https://doi.org/10.1016/j.outlook.2025.102472
Điểm nổi bật
– ChatGPT quá nhạy cảm trong việc phát hiện ngôn ngữ kỳ thị.
– ChatGPT diễn đạt lại nội dung kỳ thị một cách hiệu quả sau khi bị gắn cờ.
– ChatGPT có thể hỗ trợ nhận dạng và diễn đạt lại ngôn ngữ kỳ thị theo thời gian thực.
– Thiết kế lời nhắc ảnh hưởng đáng kể đến hiệu suất của ChatGPT.
– Cần thiết kế lời nhắc cẩn thận và giám sát chặt chẽ để sử dụng an toàn và chính xác.
Ngôn ngữ kỳ thị trong hồ sơ sức khỏe điện tử (EHR) gây tổn hại đến mối quan hệ giữa bác sĩ lâm sàng và bệnh nhân, làm gia tăng sự chênh lệch về sức khỏe. Để đánh giá khả năng của ChatGPT trong việc giảm ngôn ngữ kỳ thị trong các ghi chú lâm sàng. Nhóm nghiên cứu đã phân tích 140 ghi chú lâm sàng và 150 ví dụ kỳ thị từ 2 bệnh viện. ChatGPT-4 đã xác định và diễn đạt lại ngôn ngữ kỳ thị. Hiệu suất nhận dạng được đánh giá bằng độ chính xác, khả năng thu hồi và điểm F1, với chú thích của chuyên gia là tiêu chuẩn vàng. Chất lượng diễn đạt lại được các chuyên gia đánh giá trên thang điểm Likert ba điểm về xóa kỳ thị, tính trung thực, tính súc tích và tính rõ ràng.
ChatGPT cho thấy khả năng nhận dạng tổng thể kém (micro-F1 = 0,51) nhưng có hiệu suất từ trung bình đến cao trên từng danh mục ngôn ngữ kỳ thị (micro-F1 = 0,69–0,91).
Khả năng diễn đạt lại đạt 2,7 điểm về xóa kỳ thị, 2,8 điểm về tính trung thực và 3,0 điểm về tính súc tích và rõ ràng.
Thiết kế nhắc nhở ảnh hưởng đáng kể đến hiệu suất của ChatGPT.
Mặc dù ChatGPT có những hạn chế về nhận dạng tự động, nhưng nó có thể được sử dụng để hỗ trợ nhận dạng theo thời gian thực và diễn đạt lại ngôn ngữ kỳ thị trong EHR với thiết kế nhắc nhở phù hợp và sự giám sát của con người.
Bệnh viện Nguyễn Tri Phương - Đa khoa Hạng I Thành phố Hồ Chí Minh