AI 用训练数据是否算侵犯版权,现在其实没有绝对答案的 更多是“看情况”。一般来说,如果模型只是把大量内容拿来做统计、学语言规律,而不是把原文原样记下来,大多数国家(尤其是美国)会觉得这一部分可能算“合理使用”。(硅谷一些创业公司应声而起)但如果训练的数据本身是受版权保护的,比如小说、新闻、照片,而且模型后来还能“背”出原文,那么风险就会大很多了
不同地区态度也不一样:美国相对松,觉得只要是“转化性使用”就问题不大;欧盟超级严格(GDPR的影响),最好所有训练数据都要有授权;身边的实际案例里中国对商业抓取别人受保护的内容也会比较谨慎。
整体趋势就是——以前大家觉得“抓数据训练很正常”,现在越来越走向“要合规、要透明”。未来大模型基本都需要说明数据来源、拿到授权、甚至跟媒体或图片库合作。