大语言模型(Large Language Models,LLMs)是指使用大量文本数据训练的深度学习模型,可以生成自然语言文本或理解语言文本的含义。在人工智能越来越多地应用于临床诊疗的时代背景下,来自阿拉伯联合酋长国阿治曼海湾医科大学的Pallav Sengupta 教授团队等近期发表在Gynecology and Obstetrics Clinical Medicine的一篇评论类文章Comparative efficacy of ChatGPT 3.5, ChatGPT 4, and other large language models in gynecology and infertility research比较了大型语言模型(LLM),尤其是ChatGPT 3.5, ChatGPT 4在妇产科相关领域研究中的应用,同时也指出了其存在的一些限制和挑战。
人工智能算法可以通过分析大量的学术文献、识别复杂的相关性和综合碎片化的知识,从而加速科研探索的进程。这些先进的系统有能力彻底改变我们进行研究的方式,改善从广泛而复杂的现有知识库中提取有用信息这一具有挑战性的过程,并将其转化为有效的临床应用。
ChatGPT3.5(chat generative pre-trained transformer,ChatGPT)是由OpenAI开发的一种尖端的聊天生成预训练转换器,它增加了包括自动写作、语言处理和复杂数据分析在内的多个科目。然而,其知识库仅限于2021年9月之前的数据,需要补充以获得最佳效用。ChatGPT 4在语言理解、通用性和回答质量方面超越了其前身。增强的语境处理和辨别能力使其能够在妇科和不孕症研究中进行更精细的互动,同时熟练地解决复杂问题,从而将研究过程提升到前所未有的水平。
与GPT-3相比,ChatGPT 3.5展示了更优越的自然语言生成能力,ChatGPT 4进一步完善了这一品质。然而,不同的大型语言模型(LLMs)表现不同。对于妇科或不孕症相关的问题或指令,为了得到清晰的输出,对语境的理解对于大型语言模型来说至关重要。ChatGPT 3.5增强了对输入的上下文和语境的理解,ChatGPT 4进一步强化了这一特性,并优化了人机接口。在综合数据方面,特别是在妇科或不孕症领域的复杂研究中,ChatGPT 3.5有效地解释了研究结果,而ChatGPT 4能够总结研究结果并生成简洁的摘要。在定制方面,ChatGPT 3.5通过精细调整以满足不同领域需求。ChatGPT 4增强了这一功能,支持用户驱动的微调和域适应,尽管在不同的LLMs之间具体程度有所不同。在伦理方面,与GPT-3相比,ChatGPT 3.5解决了妇产科领域信息中的偏见,并且ChatGPT 4通过先进的偏差控制加强了这一能力。然而目前仍然存在诸多挑战包括由于模型复杂性导致的处理时间增加,过度拟合风险,有限的可解释性以及更高的部署成本,其中ChatGPT 4比其前身需要更多的资源并产生更高的成本。这些问题在不同的LLMs之间有所不同。在妇科方面,有几项研究证实了ChatGPT的效能。为了评估ChatGPT的效能,Kemp MW等人在皇家妇产科学院(RCOG)客观结构化临床检查(OSCE)的模拟临床评估背景下进行了严格的调查。高级语言模型经过了精心设计的七个测试,结构化查询语言,其回答经过14名考官公正的评估。这些评估随后与人类考生的历史表现进行比较。值得注意的是,ChatGPT在与妇产科相关的多个知识领域中,取得了77.2%的平均性能指标,超过了人类考生。在Santo DSE等人的另一项研究中,评估了ChatGPT作为在意外分娩事件中提供指导资源的效用。该研究结果表明,ChatGPT在帮助应对意外分娩情况的人们方面具有相当大的潜力。然而,考虑到这些报告以及人工智能驱动的语言模型在妇科实践和不孕症研究中的局限性,Grunebaum等人认为ChatGPT在提供妇产领域的基础知识方面具有更大的功效,这一点可以通过其对各种各样的问题作出了详尽、辩证、博学和连贯的回答得到证实。
鉴于人工智能的迅猛发展,妇产科研究人员和临床医生应该紧跟最新的发展,引入这些技术工具来提高实践工作的质量和严密性。语言模型可以帮助确定治疗目标,分析临床试验数据,并通过处理大量科学文献探索创新治疗方法。通过自然语言查询和吸收来自广泛医学文献的循证意见,快速获取与妇科病理、治疗干预和生育选择相关的数据。它们还可以生成诊断假设并在特定情景下提供治疗建议,从而训练医疗专业人员的专业知识。这种方法提高了临床医生的决策能力,并通过数据驱动的算法实现了卓越的诊断准确性和患者预后预测。它通过自然语言处理加快了对医疗记录的挖掘,避免了费力的图表审查。此外,人工智能促进了教育创新,提高了学术水平,并促进了医疗保健领域的突破性进步。
长期以来,阐明调控不孕症的复杂机制一直以来都是一个非常重要的课题。利用大型学习模型(LLMs)的巨大能力,为解开不孕症的复杂基础并加快该领域的进展提供了一条途径。目前关于不孕症的知识存在许多空白,主要是由于生殖过程的复杂性和调节其的多种因素。对于不孕症的分子、细胞和生理机制的全面理解仍然是困难的。因此,不孕症的多因素病因学包括遗传、表观遗传和环境因素,需要采用创新的方法来弥补这些空白。通过不断更新的信息库,LLMs可以快速吸收与不孕症相关的各个领域的新发现和信息,包括遗传学、内分泌学、胚胎学等。它们复杂的分析能力可以找出以前被忽视的某种模式或联系,从而在不孕症研究和治疗策略方面产生创新理论。例如,利用LLMs分析来自基因组学、转录组学、蛋白质组学和代谢组学研究的多维、多面信息可以促进与不孕症有关的新型生物标记物和通路的鉴定。这些知识随后可以用于指导靶向治疗干预措施和个性化的医疗策略的发展。而且,LLMs可以帮助发现新的基因-基因和基因-环境相互作用,从而阐明遗传易感性和环境暴露在不孕症下复杂的相互作用。此外,这些模型的使用可以在许多国家中实现公平竞争的机会,使不同经验和知识水平的临床医生在这个指数级发展的领域内能够在采取循证治疗策略时基本达到同一水平。
LLM也可以与机器学习和人工智能算法结合,建立预测模型,用于指导不孕症的诊断、预后和治疗反应;利用LLM分析与不孕症相关的分子途径和基因网络,识别潜在的药物干预靶点;利用LLM识别可能导致不孕症发病机制的表观遗传修饰,如DNA甲基化和组蛋白修饰,这可能有助于理解不孕症的发病机制并将其作为治疗的靶点;利用LLM促进跨学科合作,综合内分泌学、免疫学和遗传学等多个领域的研究结果,揭示不孕症的多因素发病机制;利用LLM产生基于最新科学进展的个体化循证建议,加强患者咨询和教育。
然而,ChatGPT存在一定的局限性,因为它经常对人类语言进行错误的编码,并且由于不断更新和用户适应,有时可能会提供不准确的信息。研究人员和临床医生应该谨慎使用ChatGPT,避免完全照搬照套。值得注意的是,模型的训练数据是静态的,需要用户意识到其时效性。此外,它在学术写作方面具有潜力,但也面临着抄袭和缺乏人类特质等挑战,这对其作为作者的权威性提出了质疑。因此,LLMs的有效性和可靠性需要在医疗保健和学术环境中进一步提升。另外,模型的部署时间可能也有限制,数据的可访问性和质量构成另一个重大障碍。与其他医疗数据一样,不孕症和妇产科数据也受到严格的隐私条例的约束,妨碍了数据的无障碍获取。此外,考虑到妇科和生育数据的敏感性,获取足够大且多样化的数据集来训练LLMs可能是一个难题。当涉及到LLMs时,缺乏由专家驱动的信息。这种跨学科的技能组合对于有效的LLMs实施和为特定的研究问题量身定制模型是必需的。如果没有足够的专业知识,这些模型可能会被错误解读或滥用。随着LLMs变得越来越复杂,我们不仅需要评估其效能,还需要评估其可靠性、透明度和公平性。使用敏感的医疗数据要求采取严格的措施确保患者隐私和数据安全。确保模型输出的公正和无偏、保持模型决策的透明度。在医疗保健领域使用人工智能的法律框架往往落后于技术进步,这进一步使LLMs在该领域的部署复杂化。
这篇文章阐述了人工智能在促进生殖健康研究领域的突破性进展方面所发挥的不可或缺的作用,也鼓励人们迅速利用这一充满活力和不断扩大的技术环境所提供的大量可能性,以克服妇科和不孕症研究领域的挑战。
扫二维码|查看原文
原文链接:https://www.sciencedirect.com/science/article/pii/S2667164623000842
DOI:https://doi.org/10.1016/j.gocm.2023.09.002
引用格式:Pallav S,Sulagna D,Ravindran J,et al. Comparative efficacy of ChatGPT 3.5, ChatGPT 4, and other large language models (LLMs) in gynecology and infertility research. Gynecol Obstet Clin Med.2023;3(3):203-206.
原文摘要: