影响力指数

49.97/100

前 8.6%

全站排名 #5,520

发表论文12 篇

平均评分5.6

年均产出4.0 篇/年

Dan Hendrycks

Executive and Research Director@Center for AI Safety·美国·OpenReview

Beyond Truthfulness: Evaluating Honesty in Large Language Models

ICLR 2026Rejected

Utility Engineering: Analyzing and Controlling Emergent Value Systems in AIs

NeurIPS 2025Spotlight

MMDT: Decoding the Trustworthiness and Safety of Multimodal Foundation Models

ICLR 2025Poster

AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents

ICLR 2025Poster

Tamper-Resistant Safeguards for Open-Weight LLMs

ICLR 2025Poster

Evaluating Model Robustness Against Unforeseen Adversarial Attacks

ICLR 2025Rejected

合作者 (20)

Matt Fredrikson