การทำ Data De-identification ในวงการ Health Informatics มีความซับซ้อนและจุดที่แตกต่างจากวงการอื่น (เช่น การเงิน หรือ E-commerce) หลายจุด โดยเฉพาะเรื่อง "ความละเอียดอ่อนของข้อมูล" และ "รูปแบบข้อมูล" ดังนี้ครับ
1. กฎระเบียบที่เข้มงวดและเฉพาะเจาะจงกว่า (Regulatory Compliance)
ในวงการอื่นอาจจะยึดตาม PDPA หรือ GDPR ทั่วไป แต่สายสุขภาพจะมีกฎหมายเฉพาะที่เข้มกว่ามาก เช่น HIPAA (ของสหรัฐฯ) ซึ่งกำหนดมาตรฐานการ De-identification ไว้ชัดเจน 2 แบบ คือ:
-
Safe Harbor: ต้องลบข้อมูลระบุตัวตน 18 ประเภทออกให้เกลี้ยง (เช่น ชื่อ, วันเกิด, เบอร์โทร, IP Address, รูปถ่ายหน้าตรง ฯลฯ)
-
Expert Determination: ต้องใช้นักสถิติผู้เชี่ยวชาญมารับรองว่าความเสี่ยงในการระบุตัวตนกลับ (Re-identification risk) ต่ำมากพอ
2. ข้อมูลส่วนใหญ่เป็น "ข้อความอิสระ" (Unstructured Data)
ในขณะที่วงการธนาคารหรือค้าปลีก ข้อมูลมักเป็นตาราง (Structured Data) ที่จัดการง่าย แต่ในโรงพยาบาล ข้อมูลสำคัญมักอยู่ใน "บันทึกของแพทย์" (Clinical Notes) ซึ่งเป็นข้อความยาวๆ (Free Text)
- ความยาก: ชื่อคนไข้ หรือข้อมูลส่วนตัวอาจจะโผล่ตรงไหนก็ได้ในประโยค ไม่ได้อยู่ในช่องตารางที่แน่นอน ทำให้การเขียนโปรแกรมลบแบบธรรมดา (Rule-based) ทำได้ยาก ต้องใช้ NLP (Natural Language Processing) ขั้นสูงเข้ามาช่วย
3. ปัญหาเรื่อง "Quasi-identifiers" (ตัวระบุตัวตนทางอ้อม)
ข้อมูลสุขภาพมีลักษณะเฉพาะที่เรียกว่า Quasi-identifiers สูงมาก คือข้อมูลที่ดูเหมือนจะไม่ระบุตัวตน แต่พอนำมารวมกันแล้วรู้ทันทีว่าเป็นใคร
-
ตัวอย่าง: ถ้าเราลบชื่อออก แต่เหลือข้อมูลว่า "ชายไทย อายุ 35 ปี เป็นโรคหายากชนิด A ในอำเภอ B" แค่นี้ก็อาจจะชี้ตัวคนได้ทันทีเพราะในพื้นที่นั้นอาจมีคนป่วยโรคนี้แค่คนเดียว
-
ความท้าทาย: ต้องรักษาสมดุลระหว่าง "การลบข้อมูลเพื่อความปลอดภัย" กับ "การเก็บข้อมูลไว้เพื่อวิจัย" ถ้าลบมากไป ข้อมูลก็ไร้ประโยชน์ทางวิจัย (Data Utility)
4. ความต่อเนื่องของข้อมูล (Longitudinal Data)
การวิจัยทางการแพทย์มักต้องดูประวัติคนไข้ต่อเนื่องเป็น 10 ปี
- ความยาก: การ De-identify จะต้องทำแบบ Consistent Hashing คือลบชื่อนาย A ออกแล้วเปลี่ยนเป็นรหัส
Patient_001ก็ต้องให้เป็นPatient_001ตลอดไปทุกครั้งที่นาย A มาหาหมอ ไม่ว่าจะผ่านไปกี่ปี เพื่อให้หมอตามดูประวัติการรักษาได้โดยที่ไม่รู้ว่าPatient_001คือใคร ซึ่งต่างจากวงการอื่นที่อาจจะสนใจแค่ Transaction จบเป็นครั้งๆ ไป
5. เดิมพันความเสียหายที่สูงกว่า (High Stakes)
ถ้าข้อมูลบัตรเครดิตหลุด ยังอายัดและออกใหม่ได้ แต่ถ้า "ประวัติการเจ็บป่วย" หลุด (เช่น ประวัติสุขภาพจิต, HIV, พันธุกรรม) มันเปลี่ยนไม่ได้และติดตัวไปตลอดชีวิต ส่งผลต่อการจ้างงานหรือประกันสังคม ทำให้มาตรฐานความปลอดภัยต้องสูงระดับสูงสุดครับ