Etiqueta

#evaluacion ia

1 nota publicada

LGMT mide cuán frágil es el razonamiento real de los LLMs

Un equipo liderado por Zenghui Zhou propone un test 'oracle-free' basado en lógica de primer orden que detecta fallos ocultos en seis modelos estado del arte invisibles a los benchmarks tradicionales.

arXiv cs.AIhace 3 horas

Etiquetas relacionadas

Otros temas que aparecen junto a #evaluacion ia en nuestra cobertura editorial.

#LLM1 #razonamiento1 #logica1 #arxiv1