解決人工智慧知識系統的偏見問題
2024年6月11日
Susan Jenkins
圖書館員貢獻他們獨特的技能來對抗 AI 模型中偏見的影響
隨著人工智慧技術愈來愈融入各研究領域的應用,用來訓練其背後模型的資訊品質也愈來愈受到關注。這反映了人們越來越擔心這些技術會延續社會中現有的偏見。圖書館員正在尋找機會,不僅能評估人工智慧整合至直接觸及社會的領域,例如醫療照護,還能塑造人工智慧整合的方向。
合作改善成果
麻省理工學院計算生理學實驗室臨床研究主任 Leo Anthony Celi 博士 打開新的分頁/視窗表示:「雖然這些技術會讓知識系統乃至整個社會中長期存在的偏見持續下去,但不一定非得如此。對 Celi 博士而言,評估用於診斷和治療健康問題的技術背後的 AI 模型已變得至關重要,並強調這些模型可能會加深現有的健康差異(見下圖)。
Celi 博士積極招募圖書館員,協助他的實驗室研究醫療保健知識系統中如何出現人工智慧的偏差,以及如何減少偏差。Celi 博士解釋說,「圖書館館長是知識系統的監護人」,他們擁有瞭解知識系統的背景、資訊素養的倡導以及找出研究缺口的經驗。圖書館員可以運用他們獨特的技能來評估人工智慧,並且可以成為消除人工智慧不足的努力中不可或缺的一員。圖書館員也站在研究工作本身明智採用 AI 工具的最前線。
我們最近與 Celi 博士以及與他的團隊合作的三位圖書館員坐下來討論他們的一些專案:
Rachel S. Hicklen, MSLS 美國德州休士頓德州大學 MD 安德森癌症中心研究醫學圖書館研究服務經理 Megan McNichol, MLS, AHIP
美國馬薩諸塞州劍橋 Beth Israel Lahey Health 資訊服務部知識服務處經理 (M.M.) Lynne Simpson, PhD
美國佐治亞州亞特蘭大莫爾豪斯醫學院資訊服務部圖書館經理 Leo Anthony Celi, MD, MSc, MPH
麻省理工學院計算生理學實驗室資深研究科學家、臨床研究主任,麻省理工學院關鍵資料聯合主任
AI 的偏差
用於建立醫療照護人工智慧模型的資訊,主要建基於居住在高資源環境中的有限人口,以歐洲白人血統的男性為主。這個廣受認同的問題已經導致研究人口更多元化,以更公平地反映年齡、性別、地理和社會族裔背景。 然而,已發表文獻中的差異仍是造成以 AI 為基礎的診斷和預測工具偏差的潛在來源。這些偏差往往會加重社會中已存在的不公平現象。
以下僅舉兩個例子: 在 Ziad Obermeyer 及其同事於 2019 年發表的一篇論文「剖析用於管理人口健康的演算法中的種族偏見 打開新的分頁/視窗」中,描述了如何根據對廣泛人口的醫療成本償付分析,使用演算法來預測和分配臨床需求。由於 「與白人患者疾病嚴重程度相似的黑人患者往往獲得較少的照護......預測模型低估了黑人患者的疾病嚴重程度,導致用於[這些]患者的資源較少」。
在圖書館員 Rachel Hicklen 參與撰寫的「人工智慧演算法中的偏差與緩解建議 (2023) 打開新的分頁/視窗」一文中,作者指出了人工智慧系統中可能出現偏差的五個階段:最初的研究問題、資料收集、資料預處理、模型開發與驗證,以及模型實作。他們也提出了一份核對清單,其中包含在每個步驟中減少偏差的建議。
明智使用人工智慧,實現更具包容性的研究流程
Megan McNichol 與 Celi 博士的團隊合作,調查電子健康記錄資料偏差來源的文獻 打開新的分頁/視窗,運用她的角色嵌入與臨床研究團隊進行系統性評論 - 包括使用 AI 的診斷流程評論 打開新的分頁/視窗。「AI基本上就是我們作為資訊專家一直在做的事情 - 這些工具實際上只是幫助我們完成工作。但我們也必須成為研究同仁的智慧代言人,告訴他們「請謹慎使用」。
這些年來,Megan 參與並完成了近百項系統性文獻回顧,這讓 Megan 在訓練團隊該如何、不該如何依賴 AI 增強工具時,有了所需的洞察力。「這些工具背後有一個完整的流程,您必須瞭解為何要進行這個流程,而不是將它們視為捷徑。我的角色是說,『記住你才是專家,你必須檢查這些工具的工作』,因為當中存在偏見」。
Megan 使用 PRISMA 檢查清單,這是臨床研究人員的指南,指出書面手稿中需要包含的內容。如果方案有良好的基礎,臨床研究問題也很確實,AI 工具就能幫上忙。 她建議她的團隊如何將這些結合起來,而且「有了 AI 和偏見,就必須小心謹慎,並注意方案中的納入與排除項目」。對於系統性或範圍界定的文獻回顧,找出問題或缺口最終是「組織團隊的初衷」,以產生更公平的知識。AI 工具支援審查員專業知識的潛力,可以產生更好的審查。
了解知識系統中 AI 偏見的層面
在支援研究團隊的工作中,Rachel Hicklen 關注的是如何「推動負責任的進步」,即如何應用技術,以及保護醫療照護系統中支持人類尊嚴的各個層面,例如隱私權。「我們嘗試確保我們的研究人員瞭解,絕對不能將病患資料輸入這些工具。即使只是為了檢查語法,也是在分享」。
她敏銳地察覺到,現有知識系統的缺點可能會被新工具延續下去。「身為圖書館員,我們總是超級致力於資訊素養,並提供有信譽的資訊,但在這個瞬息萬變的環境中,我擔心一旦有些東西被引用,即使後來被糾正,也不可能阻止隨之而來的誤解雪崩。「這些東西仍然活在醫學文獻中,這是一個很大的風險」。與此同時,她相信 AI 研究工具「讓我們能夠撒下更廣闊的網,看看我們以前可能無法看到的東西」。
Rachel 與 Celi 博士及其他研究人員共同撰寫了研究健康資料代表性不足 打開新的分頁/視窗的範圍評論,說明這如何導致健康結果的差異,並提出在根據這些資料製作新的 AI 工具時,克服這些陷阱的潛在策略。這些研究不僅提供 AI 開發最佳實務的基礎,也協助其他圖書館管理員和研究人員對建立 AI 模型信任度所需的「可解釋性」方面有重要的見解。
Celi 博士補充說,"我們的想法是要真正了解'發表論文背後的人是誰,他們是否能代表生活會受到這篇論文的研究結果影響的人? 我們身為知識工作者,需要能夠促進這種思考、批判性思考 - 真正能夠找出缺點。
Rachel 目前的專案是與 Celi 博士的實驗室和一位研究生合作,檢視「僅僅是發表的絕對海量資訊,並比較大型語言模型與人類的表現」,評估這股龐大的資訊洪流,決定所產生的結果「是否真的有任何意義」。
教育醫療保健提供者明智使用 AI
評估 AI 限制的從業人員需要具備文化偏見的基本素養,才能應用這些「批判性思考」技能 - 也稱為文化能力。像 Lynne Simpson 博士這樣的圖書館員多年來一直在發展這種專業知識。但在醫學院教授文化能力需要新穎的方法。
Lynne 博士指出,「身為一名在醫學院工作、致力於促進健康公平的非裔美國女性,我發現沒有任何資源可以有效地教導下一代醫師不受這些偏見的影響」。
我們面臨的挑戰是如何將無形的知識整合到一個非常依賴有形知識 - 肉體和生物過程的教育系統中。在教授其他主題時,「並沒有一種教科書或課程是教授文化能力的標準」。Lynne 博士目前與 Celi 博士實驗室合作進行的研究將有助於改變這一現況,方法是建立一種核心語言,教導醫師和醫學院學生如何超越肉體思考,並瞭解他們將要使用的工具的更廣泛背景。「說到底,我們是在教導人們如何治療所有社區的病患。我們仍必須想出能幫助人們學習的語言」。
Celi 博士強調這種意識是如何因為 AI 而產生的。「我歸功於人工智慧在我們面前放了一面鏡子,讓我們看到了我們擁有的所有系統中的所有裂縫,無論是在知識系統中,在教育中,還是在醫療服務中,我們應該感謝這個機會來徹底改變它們。」
跨領域空間帶來改變
這些圖書館員正在為一個更大的策略做出貢獻,讓人們注意到影響服務不足人群的偏見。根據 Celi 博士的說法,這利用了人工智慧無所不在的新特性,「沒有人是專家」,讓來自各種背景的人都能參與塑造人工智慧的使用方式。
例如,Rachel 的研究提出 打開新的分頁/視窗,人工智慧模型開發應該從一個團隊開始,這個團隊不僅要有相關學科的專家,還要能代表模型將被部署的不同人群。「人工智慧正隨著我們學習人工智慧而成長。現在是資訊世界瘋狂成長的時代,雖然令人興奮,但也很可怕,所以我們需要對如何前進真正負責任。」
因此,麻省理工學院「關鍵資料」(MIT Critical Data)定期舉辦活動,以「真正建立一個更關鍵的社群」- 邀請各式各樣的人,從他們不同的觀點與生活經驗中,汲取真知灼見。「我們確保讓不同世代與背景的人士、專業人士、高中生、醫生、藥劑師與電腦科學家」共同探討優先順序與策略,讓人工智慧驅動的知識更加公平與透明。Celi 博士強調這種模式的好處: 「我能提供給學生的東西有限,但如果我能提供給我的學生十二位其他老師,以及彼此,我發現我能從他們身上學到東西。這應該是我們的教育方式 - 我們稱之為「高學習、村導師」。Megan 同意在學習情境中擁有不同的群體是很重要的。「跨學科教育對於醫學,對於一般的學習,是建立更多批判性思考的方法」。
圖書館員影響 AI 發展的機會也提供了通往機構領導的道路: Lynne Simpson 博士受邀加入莫爾豪斯(Morehouse)大學的新委員會,負責制定有關如何將人工智慧融入醫學院課程的政策。跨學科也是她對未來教育的看法: 「當您真正檢視學生如何表現得更好時,就是他們一起合作的時候。這不僅造就了一個更好的世界,也絕對造就了一個更好的醫生 - 這是我們需要傳授給所有學科的東西,而不僅僅是醫學」。
徵求合作夥伴:
您是中低收入地區醫療照護機構的圖書管理員,有興趣對醫療照護領域的人工智慧與技術偏見研究做出貢獻嗎?Celi 博士希望收到您的來信。
Celi 博士創立並擔任 MIT Critical Data 打開新的分頁/視窗 的共同總監,這是一個跨領域的全球聯盟,其目標是透過開放取用資料和軟體,特別是針對資源有限的環境,擴大臨床研究的規模,使其更具包容性;識別資料中的偏差,以防止這些資料在模型和演算法中被加密;利用團隊科學原則和蜂巢學習策略,重新設計研究。該聯盟是一個平台,可讓擁有不同生活經驗專業知識的更廣泛社群參與其中,研究如何解決醫療照護和醫學教育各方面的偏見問題。
為圖書館員深入探討 AI 主題:
在您的機構發展人工智慧素養的關鍵組成部分,涵蓋您開始學習更多人工智能知識以及支援使用者教育所需的基本要素。 人工智慧在圖書館服務中的角色:讓您的機構更容易使用人工智慧,包括支援研究人員和學生的建議。