Preference Poisoning Attacks on Reward Model Learning

Name: Preference Poisoning Attacks on Reward Model Learning
Duration: 15 min
Description: Talk from IEEE Symposium on Security and Privacy 2025.

Junlin Wu, Jiongxiao Wang, Chaowei Xiao, Chenguang Wang, Ning Zhang, Yevgeniy Vorobeychik

IEEE Symposium on Security and Privacy 2025 · Day 2 · ML Attacks