𝗪𝗲𝘁𝗲𝗻𝘀𝗰𝗵𝗮𝗽𝗽𝗲𝗹𝗶𝗷𝗸𝗲 𝗶𝗻𝘁𝗲𝗹𝗹𝗶𝗴𝗲𝗻𝘁𝗶𝗲 𝗶𝗻 𝗟𝗟𝗠'𝘀 𝗼𝗻𝗱𝗲𝗿𝘀𝗼𝗲𝗸𝗲𝗻
Onderzoekers willen weten of Large Language Models over wetenschappelijke intelligentie beschikken.
De meeste tests richten zich op eenvoudige feiten. Deze studie maakt gebruik van workflows die aansluiten bij de manier waarop echte wetenschappers te werk gaan.
De onderzoekers hebben getest hoe modellen omgaan met complexe wetenschappelijke redeneringen.
Belangrijkste bevindingen:
- Huidige modellen hebben moeite met lange wetenschappelijke workflows.
- Redeneerfouten treden op tijdens meerstaps-processen.
- Afstemming op wetenschappelijke methoden verbetert de nauwkeurigheid.
Je zou naar deze workflows moeten kijken om de grenzen van AI in onderzoek te begrijpen. Standaard benchmarks geven geen volledig beeld.
Optionele leercommunity: https://t.me/GyaanSetuAi