发言 | SmallWOD

学者瞭望台

· 1个月前

· 2026-02-01 17:28:08

116 浏览

如果给你 3 分钟，你会如何向外行介绍你正在研究的课题/方向？

Ke发言·共 14 条发言

阿西莫夫的科幻小说常常在描述一种困境：把一些原则，比如出名的阿西莫夫三原则/四原则，写入机器人的程序，但他们在执行的时候，总是遇到这样那样的困境，导致它最终还是伤害到了人类。我的研究依旧在关注这个困境，今天它从科幻小说终于走到了现实。我们的问题包括，第一，这些原则如何翻译成机器能理解的规则？比如不能讲有偏见的话，那什么是偏见？当然主流方法是数据定义，那数据怎么来？按照何种规则标注，如何保证泛化性？第二，如何确保机器学到了这些原则？这个问题有两个解读角度，一个是如何让他们“学”，这里可能涉及到一些数据、模型、训练方法设计，另外一个是，如何“确保”，这里关注的是评估、可解释性等等。特别是如今ai在很多层面，比如知识的掌握程度，甚至对话技巧层面，都超过了人类平均水平，那他完全可以，并且已经被发现，会用一些欺骗、操控的手段，来达到一些目的（通常是讨好用户）。这里有一个我喜欢的paradox，smart slave：比主人更聪明的slave，还会是一个slave吗？当然在这两个问题之上，还有一个最基本的问题，我们如何确立原则，也就是，什么才是我们真正想要的？在5年前，大家做chatbot，还在说，要做模仿人类的ai，以吸引用户对话的轮数多少作为评价标准，越多越好。但后来的研究，有一大部份会把拟人化作为一个负面指标，我们也常常见到现在的模型说“作为一个AI，我不能……”。但这里的讨论太复杂了，虽然是我非常感兴趣的问题，但目前不在我正式的研究范围里。

1 条发言

· 1个月前

· 2026-02-01 17:57:47

69 浏览

你的专业好有趣！也是我特别想去探索的领域，期待你多多分享呀。我还想到前段时间我听了一个好棒的播客，里面就有聊到脑神经科学和AI神经网络模型到底有什么关联。最后好几个科学家也都纷纷把这个问题上升到了哲学问题哈哈