k8凯发(中国)天生赢家·一触即发

凯发k8国际谷歌Nature震撼发文Gemini教练暴打专家!医学双料冠军秒出睡

  谷歌DeepMind最新Nature王炸ღღ◈✿,直接把Gemini版大模型PH-LLM调教成了「AI健康私教」ღღ◈✿,把可穿戴冷冰冰的数据ღღ◈✿,直接变成睡眠健身建议云霄生活娱乐网ღღ◈✿,结果准确率暴打人类医生ღღ◈✿。

  最近ღღ◈✿,谷歌全新健康大语言模型(PH-LLM)正式发布——一款微调Gemini的「个人睡眠和健康」模型凯发k8国际ღღ◈✿。

  结果发现ღღ◈✿,PH-LLM在睡眠医学考试中得分(79%)碾压医生(76%)云霄生活娱乐网ღღ◈✿,而且在健身认证中直接把人类专家按在地上摩擦(88% vs 71%)ღღ◈✿。

  更牛的是ღღ◈✿,在人类评估中云霄生活娱乐网ღღ◈✿,PH-LLM生成的健康建议ღღ◈✿,几乎与专家无差别ღღ◈✿。而且云霄生活娱乐网ღღ◈✿,仅凭传感器数据ღღ◈✿,即可预测用户睡眠质量ღღ◈✿。

  遗传学博士Dominic Ng对此点评道ღღ◈✿,「PH-LLM所做的ღღ◈✿,正是一位优秀医生会做的事ღღ◈✿,即将数据综合成『洞察』」ღღ◈✿。

  不过ღღ◈✿,这些数据缺乏上下文背景ღღ◈✿,存储分析算力要求高健康睡眠ღღ◈✿,ღღ◈✿、解读难度大等因素ღღ◈✿,并未广泛应用于临床实践ღღ◈✿。

  甚至ღღ◈✿,这些数据也并未纳入标准「医学问答数据集」ღღ◈✿,导致通用基础LLM和医学LLMღღ◈✿,都难以有效推理给出个性化建议ღღ◈✿。

  为此凯发k8国际ღღ◈✿,谷歌团队合力在Gemini上微调出PH-LLMღღ◈✿,用于评估AI在睡眠与健康领域的表现ღღ◈✿,如下图所示ღღ◈✿。

  更好的睡眠时间是从晚上12:00到早上7:30k8凯发天生赢家一触即发人生ღღ◈✿,ღღ◈✿。你可以通过每隔几天将睡眠时间提前15分钟ღღ◈✿,逐步达到目标ღღ◈✿。

  训练数据包含了ღღ◈✿,人口统计学文本数据ღღ◈✿、最长30天的每日指标ღღ◈✿、聚合指标ღღ◈✿,以及仅针对健康案例的个体运动日志等ღღ◈✿。

  这个适配器是用于ღღ◈✿,根据至少15天的纵向被动传感器数据(包含每日睡眠与活动指标)ღღ◈✿,来预测睡眠障碍和睡眠损伤的主观报告结果(PROs)

  两阶段训练完成后ღღ◈✿,团队从个人健康教练所需的多元能力维度出发ღღ◈✿,针对三大任务评估了PH-LLM的表现ღღ◈✿:

  最后凯发k8娱乐ღღ◈✿,测试模型预测患者主观报告结果(PROs)的能力ღღ◈✿,使其在生成建议时能整合个体对睡眠质量的自评数据云霄生活娱乐网ღღ◈✿,真正实现个性化健康指导ღღ◈✿。

  测试结果显示ღღ◈✿,在睡眠医学和健康体能考试ღღ◈✿,PH-LLM的答题正确率分别达到79%和88%(表1与图1b)ღღ◈✿。

  受试者工作特征曲线(ROC)与精确率-召回率曲线ღღ◈✿,均证实模型在两类考试中的优异表现(附图2)ღღ◈✿。

  值得注意的是ღღ◈✿,尽管针对睡眠与健康任务进行了微调云霄生活娱乐网凯发k8国际ღღ◈✿,PH-LLM在PubMedQA29和MedQA30通用医学基准测试中ღღ◈✿,性能并未下降(附表1)ღღ◈✿。

  值得一提的是ღღ◈✿,睡眠医学题库包含每道题目的人类考生答题分布等元数据ღღ◈✿,这允许团队基于题目难度进行分层性能比较ღღ◈✿。

  PH-LLM在所有难度层级均小幅领先Gemini Ultra 1.0ღღ◈✿,且在难题上的优势更为明显ღღ◈✿。

  为量化PH-LLM的表现水平ღღ◈✿,团队还招募了5位平均从业25年的睡眠医学专家(均持有高级学位)和5位平均从业13.8年的职业运动教练参加同规格考试凯发k8国际ღღ◈✿。

  专家组在睡眠医学试题样本(N=204)中的平均正确率为76%ღღ◈✿,体能考试为71%ღღ◈✿,PH-LLM在两类题库中均超越人类专家(表1)ღღ◈✿。

  为此ღღ◈✿,他们创建了首个睡眠与健康领域的详细个人健康案例数据集(857个案例ღღ◈✿,含3,271组问答对)ღღ◈✿,由多位相关领域专家共同审定ღღ◈✿。

  在健康管理案例分析中ღღ◈✿,PH-LLM模型在三个维度(运动处方制定ღღ◈✿、恢复方案建议ღღ◈✿、训练准备度评估)上ღღ◈✿,表现出与人类专家及Gemini Ultra 1.0相当的水平(图2d)ღღ◈✿。

  此外ღღ◈✿,为了评估PH-LLM能否推断用户体验以优化健康指导ღღ◈✿,团队测试了每日传感器数值数据预测睡眠障碍和睡眠损伤PROs的能力ღღ◈✿。

  首先通过计算问卷回答间的相关性分析PRO数据ღღ◈✿,发现16个问题测量了相关但独立的睡眠维度(图3a)ღღ◈✿。

  结果显示ღღ◈✿:没有单一特征对所有PROs具有绝对预测优势ღღ◈✿,预测信号广泛分布于多个传感器(图3b)ღღ◈✿。

  为使PH-LLM能从传感器特征预测PROsღღ◈✿,研究人员又训练了一个多层感知机(MLP)适配器凯发k8国际ღღ◈✿,将20项传感器特征的统计量映射至PH-LLM的潜在标记空间(方法部分)云霄生活娱乐网凯发k8国际ღღ◈✿。

  在保留测试集中ღღ◈✿,团队比较了零样本提示ღღ◈✿、少样本提示与PH-LLM适配器方法ღღ◈✿,在受试者工作特征曲线下面积(AUROC)和精确召回曲线下面积(AUPRC)的表现(图3c,d)ღღ◈✿。

  值得注意的是ღღ◈✿,客观睡眠测量数据对主观睡眠质量指标的预测力通常有限ღღ◈✿,但配备适配器的PH-LLM在AUROC和AUPRC上均显著优于两种提示方法云霄生活娱乐网ღღ◈✿。