AI Research

AI Research Papers

Keep up with the latest AI research, arXiv papers, and machine learning breakthroughs with readable summaries and direct links to the original work.

CategorySort

Jun 19, 2026

Large Language Models AI Safety AI Evaluation

Apparent Psychological Profiles of Large Language Models are Largely a Measurement Artifact

Apparent Psychological Profiles of Large Language Models are Largely a Measurement Artifact This research investigates whether the psychological profiles ass...

Jun 19, 2026

AI Agents Reasoning AI Evaluation

ScaffoldAgent: Utility-Guided Dynamic Outline Optimization for Open-Ended Deep Research

ScaffoldAgent: Utility-Guided Dynamic Outline Optimization for Open-Ended Deep Research Open-ended deep research involves using AI to gather information thro...

Jun 19, 2026

AI Evaluation Computer Vision Healthcare AI

Context-Aware Hierarchical Bayesian Modeling of IVF Laboratory Environmental Conditions

Context-Aware Hierarchical Bayesian Modeling of IVF Laboratory Environmental Conditions This research addresses a significant gap in fertility treatment: whi...

Jun 19, 2026

Large Language Models Computer Vision AI Evaluation

Automating SKILL.md Generation for Computer-Using Agents via Interaction Trajectory Mining

Automating SKILL.md Generation for Computer-Using Agents via Interaction Trajectory Mining explores whether we can automatically create "skill libraries"—col...

Jun 19, 2026

Large Language Models AI Search AI Evaluation

BIM-Edit: Benchmarking Large Language Models for IFC-Based Building Information Modeling

BIM-Edit: Benchmarking Large Language Models for IFC-Based Building Information Modeling introduces a new way to test how well artificial intelligence can mo...

Jun 19, 2026

AI Systems Large Language Models AI Evaluation

Rethinking Shrinkage Bias in LLM FP4 Pretraining: Geometric Origin, Systemic Impact, and UFP4 Recipe

Rethinking Shrinkage Bias in LLM FP4 Pretraining: Geometric Origin, Systemic Impact, and UFP4 Recipe Training Large Language Models (LLMs) at 4-bit precision...

Jun 19, 2026

Large Language Models AI Evaluation AI Agents

SoftSkill: Behavioral Compression for Contextual Adaptation

SoftSkill: Behavioral Compression for Contextual Adaptation This paper introduces SoftSkill, a method for improving how AI agents adapt to specific tasks.

Jun 19, 2026

Reasoning Computer Vision AI Safety

DeepSWIP: Quotient-WMC Counterfactuals for Neural Probabilistic Logic Programs

DeepSWIP: Quotient-WMC Counterfactuals for Neural Probabilistic Logic Programs Neurosymbolic systems, such as DeepProbLog, combine the perceptual power of ne...

Jun 19, 2026

Large Language Models Reasoning AI Evaluation

QMFOL: Benchmarking Large Language Model Reasoning via Quantifiable Monadic First-Order Logic Test Case Generation

QMFOL: Benchmarking Large Language Model Reasoning via Quantifiable Monadic First-Order Logic Test Case Generation As Large Language Models (LLMs) continue t...

Jun 19, 2026

Large Language Models AI Evaluation AI Agents

Navigating Unreliable Parametric and Contextual Knowledge: Explicit Knowledge Conflict Resolution for LLM Inference

Navigating Unreliable Parametric and Contextual Knowledge: Explicit Knowledge Conflict Resolution for LLM Inference Large language models (LLMs) often strugg...