Apurv Verma

Watermarking Degrades Alignment in Language Models

Analysis and Mitigation

Posted on April 24, 2025

Watermarking has emerged as a critical tool for ensuring the authenticity of LLM outputs. However, its broader effects on model behavior remain underexplored. In our paper, “Watermarking Degrades Alignment in Language Models: Analysis and Mitigation,” presented at the 1st GenAI Watermarking Workshop at ICLR 2025, we investigate how watermarking impacts... [Read More]

Tags:

AISafety
Watermarking
Alignment
LLMs

Apurv Verma

Watermarking Degrades Alignment in Language Models

Analysis and Mitigation

Red-Teaming Large Language Models (LLMs)

Operationalizing a Threat Model (SoK)