加载中...

116 浏览
如果给你 3 分钟,你会如何向外行介绍你正在研究的课题/方向?
Ke发言·共 14 条发言
阿西莫夫的科幻小说常常在描述一种困境:把一些原则,比如出名的阿西莫夫三原则/四原则,写入机器人的程序,但他们在执行的时候,总是遇到这样那样的困境,导致它最终还是伤害到了人类。 我的研究依旧在关注这个困境,今天它从科幻小说终于走到了现实。 我们的问题包括,第一,这些原则如何翻译成机器能理解的规则?比如不能讲有偏见的话,那什么是偏见?当然主流方法是数据定义,那数据怎么来?按照何种规则标注,如何保证泛化性? 第二,如何确保机器学到了这些原则?这个问题有两个解读角度,一个是如何让他们“学”,这里可能涉及到一些数据、模型、训练方法设计,另外一个是,如何“确保”,这里关注的是评估、可解释性等等。特别是如今ai在很多层面,比如知识的掌握程度,甚至对话技巧层面,都超过了人类平均水平,那他完全可以,并且已经被发现,会用一些欺骗、操控的手段,来达到一些目的(通常是讨好用户)。这里有一个我喜欢的paradox,smart slave:比主人更聪明的slave,还会是一个slave吗? 当然在这两个问题之上,还有一个最基本的问题,我们如何确立原则,也就是,什么才是我们真正想要的?在5年前,大家做chatbot,还在说,要做模仿人类的ai,以吸引用户对话的轮数多少作为评价标准,越多越好。但后来的研究,有一大部份会把拟人化作为一个负面指标,我们也常常见到现在的模型说“作为一个AI,我不能……”。但这里的讨论太复杂了,虽然是我非常感兴趣的问题,但目前不在我正式的研究范围里。
69 浏览