การทำ Data De-identification ในวงการ Health Informatics

การทำ Data De-identification ในวงการ Health Informatics มีความซับซ้อนและจุดที่แตกต่างจากวงการอื่น (เช่น การเงิน หรือ E-commerce) หลายจุด โดยเฉพาะเรื่อง "ความละเอียดอ่อนของข้อมูล" และ "รูปแบบข้อมูล" ดังนี้ครับ

1. กฎระเบียบที่เข้มงวดและเฉพาะเจาะจงกว่า (Regulatory Compliance)

ในวงการอื่นอาจจะยึดตาม PDPA หรือ GDPR ทั่วไป แต่สายสุขภาพจะมีกฎหมายเฉพาะที่เข้มกว่ามาก เช่น HIPAA (ของสหรัฐฯ) ซึ่งกำหนดมาตรฐานการ De-identification ไว้ชัดเจน 2 แบบ คือ:

  • Safe Harbor: ต้องลบข้อมูลระบุตัวตน 18 ประเภทออกให้เกลี้ยง (เช่น ชื่อ, วันเกิด, เบอร์โทร, IP Address, รูปถ่ายหน้าตรง ฯลฯ)

  • Expert Determination: ต้องใช้นักสถิติผู้เชี่ยวชาญมารับรองว่าความเสี่ยงในการระบุตัวตนกลับ (Re-identification risk) ต่ำมากพอ

2. ข้อมูลส่วนใหญ่เป็น "ข้อความอิสระ" (Unstructured Data)

ในขณะที่วงการธนาคารหรือค้าปลีก ข้อมูลมักเป็นตาราง (Structured Data) ที่จัดการง่าย แต่ในโรงพยาบาล ข้อมูลสำคัญมักอยู่ใน "บันทึกของแพทย์" (Clinical Notes) ซึ่งเป็นข้อความยาวๆ (Free Text)

  • ความยาก: ชื่อคนไข้ หรือข้อมูลส่วนตัวอาจจะโผล่ตรงไหนก็ได้ในประโยค ไม่ได้อยู่ในช่องตารางที่แน่นอน ทำให้การเขียนโปรแกรมลบแบบธรรมดา (Rule-based) ทำได้ยาก ต้องใช้ NLP (Natural Language Processing) ขั้นสูงเข้ามาช่วย

3. ปัญหาเรื่อง "Quasi-identifiers" (ตัวระบุตัวตนทางอ้อม)

ข้อมูลสุขภาพมีลักษณะเฉพาะที่เรียกว่า Quasi-identifiers สูงมาก คือข้อมูลที่ดูเหมือนจะไม่ระบุตัวตน แต่พอนำมารวมกันแล้วรู้ทันทีว่าเป็นใคร

  • ตัวอย่าง: ถ้าเราลบชื่อออก แต่เหลือข้อมูลว่า "ชายไทย อายุ 35 ปี เป็นโรคหายากชนิด A ในอำเภอ B" แค่นี้ก็อาจจะชี้ตัวคนได้ทันทีเพราะในพื้นที่นั้นอาจมีคนป่วยโรคนี้แค่คนเดียว

  • ความท้าทาย: ต้องรักษาสมดุลระหว่าง "การลบข้อมูลเพื่อความปลอดภัย" กับ "การเก็บข้อมูลไว้เพื่อวิจัย" ถ้าลบมากไป ข้อมูลก็ไร้ประโยชน์ทางวิจัย (Data Utility)

4. ความต่อเนื่องของข้อมูล (Longitudinal Data)

การวิจัยทางการแพทย์มักต้องดูประวัติคนไข้ต่อเนื่องเป็น 10 ปี

  • ความยาก: การ De-identify จะต้องทำแบบ Consistent Hashing คือลบชื่อนาย A ออกแล้วเปลี่ยนเป็นรหัส Patient_001 ก็ต้องให้เป็น Patient_001 ตลอดไปทุกครั้งที่นาย A มาหาหมอ ไม่ว่าจะผ่านไปกี่ปี เพื่อให้หมอตามดูประวัติการรักษาได้โดยที่ไม่รู้ว่า Patient_001 คือใคร ซึ่งต่างจากวงการอื่นที่อาจจะสนใจแค่ Transaction จบเป็นครั้งๆ ไป

5. เดิมพันความเสียหายที่สูงกว่า (High Stakes)

ถ้าข้อมูลบัตรเครดิตหลุด ยังอายัดและออกใหม่ได้ แต่ถ้า "ประวัติการเจ็บป่วย" หลุด (เช่น ประวัติสุขภาพจิต, HIV, พันธุกรรม) มันเปลี่ยนไม่ได้และติดตัวไปตลอดชีวิต ส่งผลต่อการจ้างงานหรือประกันสังคม ทำให้มาตรฐานความปลอดภัยต้องสูงระดับสูงสุดครับ