影响力指数

85.51/100

前 0.9%

全站排名 #572

发表论文23 篇

平均评分5.8

年均产出7.7 篇/年

Nicholas Carlini

Researcher@Anthropic·美国·OpenReview

研究方向

Computer Security

Terminal-Bench: Benchmarking Agents on Hard, Realistic Tasks in Command Line Interfaces

ICLR 2026Poster

The Attacker Moves Second: Stronger Adaptive Attacks Bypass Defenses Against LLM Jailbreaks and Prompt Injections

ICLR 2026Rejected

ImpossibleBench: Measuring LLMs' Propensity of Exploiting Test Cases

ICLR 2026Poster

Auditing Agents for Adversarial Fine-tuning Detection

ICLR 2026Desk Rejected

Poisoning Attacks on LLMs Require a Near-constant Number of Poison Samples

ICLR 2026Rejected

AutoAdvExBench: Benchmarking Autonomous Exploitation of Adversarial Example Defenses

Adversarial Perturbations Cannot Reliably Protect Artists From Generative AI

ICLR 2025Spotlight

Measuring Non-Adversarial Reproduction of Training Data in Large Language Models

ICLR 2025Poster

Scalable Extraction of Training Data from Aligned, Production Language Models

ICLR 2025Poster

On Evaluating the Durability of Safeguards for Open-Weight LLMs

ICLR 2025Poster

Exploring and Mitigating Adversarial Manipulation of Voting-Based Leaderboards

AutoAdvExBench: Benchmarking Autonomous Exploitation of Adversarial Example Defenses

ICLR 2025Rejected

IF-Guide: Influence Function-Guided Detoxification of LLMs

NeurIPS 2025Poster

Evaluating Privacy Risks of Parameter-Efficient Fine-Tuning

ICLR 2025Rejected

Persistent Pre-training Poisoning of LLMs

ICLR 2025Poster

Certified Robustness to Clean-label Poisoning Using Diffusion Denoising

ICLR 2025Withdrawn

Stealing User Prompts from Mixture-of-Experts Models

ICLR 2025Rejected

合作者 (20)

Florian Tramèr

Daphne Ippolito

Matthew Jagielski

Edoardo Debenedetti