引言:上篇专栏“一图了解自然语言处理NLP”,我们主要从技术角度对自然语言处理NLP的原理及应用场景进行了简要梳理和分析。本期专栏,柯林布瑞大数据治理及产品研发团队,将结合自身的经验和思考阐述NLP技术与医疗领域融合的价值、挑战与趋势。希望能为广大医疗从业者和NLP技术人员提供有益的参考和思路,推动医疗领域进一步发展。
一、NLP技如何实现人工智能在医疗领域的价值
随着以ChatGPT为代表的人工智能大语言模型掀起新一轮AI浪潮,其核心技术自然语言处理(NLP)和深度学习也被大家所关注。而事实上,作为重要的底层技术NLP早已持续被应用于一些行业的数字化发展当中,在医疗领域也有着重要的应用场景:
(1)医患问答:利用自然语言处理技术实现人机对话。对患者提出的问题进行预处理,在医学知识库中搜索与匹配相关问题的回答,将临床的意见和建议反馈给患者。能够快速地对患者的病情进行评估和诊断,为患者提供更及时、更便利的服务。
(2)后结构化:对非结构化数据的解释和处理。相关调查显示,当前80%的医疗健康相关数据都存储在非结构化文本中,难以直接用于数据处理和分析。通过NLP技术将病历、病理、检查报告等医疗文书进行信息抽取、转换为结构化数据,支撑不同的医疗业务场景需求。
这也是柯林布瑞目前在自然语言处理领域的主研方向,针对不同医学信息进行不同的后结构化处理,支持中文分词、词性标注、句法分析、依存关系及与医学术语库的映射,为下游可视化、统计分析、推理等应用,CDSS及临床科研等业务场景提供重要支撑。
(3)辅助诊疗(分类、推荐和排序):根据病历和症状诊断疾病,辅助临床决策。例如VTE防治管理相关的诊疗推荐,通过提取医学文本中的特征和信息,精准推荐相关的药品和治疗方案,为临床诊疗、智能决策提供支持。
此外,NLP技术与图像技术、语音技术相互支撑和补充、协同作用,可以实现医学数据的多维度处理,为医生和患者提供更好且更便捷的医疗服务。
二、医疗行业应用NLP技术面临着多种壁垒和挑战
尽管NLP技术在医疗行业有很多应用前景,但是该领域仍然存在一些困难和挑战。
缺乏标注数据。数据标注是大多数人工智能的基础,是将未标记的原始数据进行人工或半自动标记,为机器学习模型提供标准的指导和训练。在自然语言处理中,针对某一特定任务,如命名实体识别、关系提取和自然语言理解等,需要大量的标注数据进行训练并提高精度。但医疗行业信息的多样性和复杂性、对医学专业知识人员的需求以及对数据安全性要求高等等,都给数据采集与标注造成一定困难。
技术积累不足。自然语言处理技术需要深入理解文本和语言的本质,在医学领域中语言的专业性则尤为明显,这对于企业来说也是一项挑战。需要各个企业不断摸索和探索新的解决方案,提高自身的技术实力和业务水平。
硬件设施要求高。NLP技术需要大量的计算和存储资源,以便高效地处理和分析文本数据。对医疗行业而言,不仅需要准备足够的硬件支撑庞大的数据量,更需要对数据安全性和隐私性充分考虑和保护。
三、两大思维构建医学自然语言处理平台
随着AI技术的逐渐发展,医疗大数据厂商也开始致力于研发以自然语言处理平台为主的服务类产品,同时针对不同应用场景提供包括数据清洗、数据预处理、算法模型的训练和建立等更加完整的解决方案,而不仅仅是单一的软件或者硬件产品。
对于如何进一步提升自然语言处理平台的可用性和创新性,以解决医疗行业的一些关键问题。柯林布瑞团队有一些自己的看法:
从通用能力走向定制化服务。从客户需求出发,在现有的NLP模型基础上,自然语言处理平台通过“再学习”功能生成个性化NLP模型,满足客户特定场景、应用和业务需求的定制需求,从而获得更好的性能和效果。
支撑上层应用的开发和部署。将NLP基础技术平台做好做扎实的基础上,打破传统、固化的理念和做法,通过规则库这一“桥梁”,将NLP模型结构更好地转化和处理,从而更好地适应于医疗领域的使用场景。
结语:当前,科技在不断的发展过程中,越来越多的技术概念和领域在被人所知。而AI领域伴随着Chatgpt的超高热度,更是引领未来行业大模型时代的重要信号。在未来,更精准的语义理解、更融合的高性能计算技术;更灵活具有可拓展性的应用场景;更具生态化的整体服务,将成为各行各业追求技术革新的重要方向。技术的发展和应用并不是完全的取代,而是相互叠加、交叉使用,发挥彼此之间最大的价值。