“只要你来,你就是开着🞲😄大货车过来也行!”陈📜🛨义哲道🐜🀫。
9月底的时候,徐勇果然来鹏城了。
陈义哲带着徐勇参观了dss项目目🍤前的情况。
长达一年多的时间里,徐勇陆陆续续发来了大量的医院临床数据,而dss项目组多达0个人的技术人员就一直在做标准化数🝃据的工作。
目🕤前夏梦已经在陈义哲的方案设计下,初步开发了支持阑尾炎,肝结核,胃结核等几项特殊疾病的🆎dss。
“怪不得🎦📕搜夏引擎的技术让百度技术团队惊为人,看来夏梦互联网内部是人才济济啊。”徐勇感叹道。
“呵呵,百度的技术也不差,你看g🍤gle都被百度挡在国门外,现在ggle也只能曲线入华。”陈义哲笑道。
徐勇摇了摇头,道,“句真心话,百度和ggle还是有一定的差距的。只是在国内市场🚍💄🏔,🁩🈝百度☶🃵🜊占了时地利,这其实是‘百度更懂中文’地一个集中体现。就简单地分词,百度当年做分词,先从一个人工编辑号地字典开始,用这个字典跑一些网页,观察里面地badase。”
“可能是分词过🄅🞕细,或者是中文人名没分出来,然后就尝试根据中文语法规律加入规则或添加词表解决这些badase,如此往复,直到有满意的结果。上线应用,发现有新的badase就再研究加规则,当然也有自动流程发现和确认如“人艰不🖅拆”之类的新词!”
“🕤徐哥,想不到你这个医药出身的也懂得这其中的技术!”陈义哲笑道。
“都在这一行干了五年了,没吃过猪肉,也见过猪跑。”徐勇自嘲道,紧接着他继续道,“g🍹gle和百度最大的区别,就是ggle更加强调技术,它做分词则是把问题看成一个概率问题:如果中文网页中哪些字经常一起出现,那麽它们很有可能就是一个词。看哪些词后面会🗾♦跟的地得,的地得后面有常跟哪些词,语法结构也就出来了。”
“解题思路就是把所有抓到的中文网页往apr📜🛨edue裡一丢,参数算出来就好了。评估分词质量的方法也很简单,就拿新模型放到网页检索的模型裡,做个实验🏀🖽看质量有没提升就行。这套方法结果之好🅱🐟,基本把中文分词做成了一个没有多少悬念的简单问题!”
“其实这也是ggle不懂中文的问题,因为它不需要中文语言专家的参与!同时这也就是ggle做实时翻译的思路。”陈义💎🐭🃈哲接着道,“不过这种方法虽然简单,看似没有什么秘密可言,可是首先,ggle得先有这么多的网页数🜰据,还得有大机群,有分布计算框架,还有可复用的模型……这点套在dss其实也一样,dss也需要大数据,计算的模型,看似简单,但是其实复杂无比!”
“这是必然的,毕竟医学上的知识太复杂了,做dss项目往🚐往需要考虑非常多的患者因素,如症状、体征、实验室检查数据、家族史、基因、流行病学资料、现有的医学文献等等。同时新发表的临床研究数以⛕🚔📈万计,质量参差不齐,这些大量的数据导致了即使dss开发出来,最终维护上仍会存在巨大困难。”
“目前较为成功的临床决策支持系统往往🎣局限于某个领域,覆盖范围有限。比如,1971年上线使用的leeds腹痛诊断系统,其诊断的正确率高达90以上,而医生的诊断正确率在80以下,但这套系统仅仅也只能用于诊断腹痛。由此可见,dss项目的研发路遥遥而修远兮!”徐勇不由叹道。
“徐🎰🔲🄦哥,目前大多数的临床决策支持系统,通常会包括三个组成部分:知识库,推理机和人机交☶🃵🜊流接口。知识👲🌮库储存着大量的编译信息,通常采用if-hen规则进行存储和管理。”
“例如,关于药物的相互作用,规则可以写成“if服用了药物,and服💲🕱用了药物y,hen显示警告信息”。高级用户也可以根据自身需要在另外的编辑界面中自定义知识库里的规则,比如对新药进行实时更新等。推理机则根据知识库里的规则对患者的资料进行自动整合、分析。人机交流接口则是将分析结果反馈给用户🂏或者作为系统输入。”
陈义哲看了徐勇一眼,继续道,“这种采用知识库的临床决策支持系统确实会出现临床数据复杂化,更新维护👲🌮困难上的问题。不过我已经准备在着基础上,采用人工智能的形式!”
“人工智能?”徐勇惊讶道,虽人工智能提出了将近40年,各国也投入大量资金研究,可是目前并没有大🎺🖌的突破,而且据他听闻,ggle已经在前两年开始进入了这一领域。🛦🞨🖭
陈义哲点了点头,“通过机器学习从已有的经验中自动攫取规则,🛂让dss系统不仅仅成为数据的输入者,也要让它成为数据的采集者。”