A mesterséges intelligenciával foglalkozó PeakX csoport a jelenlegi legnépszerűbb AI modellek segítségével átfogó kutatást végzett a magyar országos kompetenciaméréseken. A kutatás célja az volt, hogy kiderítsék, vajon helyt tudnak-e állni a különböző típusú fejlesztések a mesterséges tesztkörnyezeten kívül is – írja az economx.hu.
Az AI modell teszteléshez a vállalat emberei 70 szövegértési és 70 matematikai feladatot használtak, kiegészítve történelem, természettudomány és digitális kultúra kérdésekkel, amelyeket később egy objektív pontozási rendszerrel értékelték. A tesztek három szempontot vettek figyelembe: a feladatmegoldások gyorsaságát, az erőforrásigényt és költségeket, illetve a pontosságot.
A PeakX minősítése az AI modellekről és a teljesítményükről:
- OpenAI o1: Kiemelkedő általános tudással rendelkezik, erős szövegértési és matematikai képességekkel, viszont lassú és drága.
- Anthropic Sonnet 3.7: Kiváló szövegértési teljesítményt mutatott, gyors és költséghatékony, azonban komplex matematikai feladatokban gyengébb.
- xAI Grok2: Rendkívül gyors és olcsó, de a matematikai feladatok terén kifejezetten rosszul teljesített.
- Gemini 2.0 „Flash”: Kiemelkedő szövegértési képességekkel bír, de az összetettebb következtetési feladatokban alulmaradt.
- Mistral Large: Relatív olcsó, de általános tudása korlátozottabb.
- DeepSeek: Olcsó és gyors, kiemelkedő következtetési képességekkel, de nem képes vizuális elemzésre, és hajlamos fura hibákat véteni.
A tapasztalatok szerint bár az érvelő modellek lassabbak és drágábbak, minden kategóriában jobb teljesítményt tudtak nyújtani AI társaiknál. Az eredmények alapján le lehet vonni a következtetést, miszerint a nagy nyelvi modellek a problémamegoldó és analitikus készségeket igénylő területeken még nem képesek helyettesíteni az emberi tudást. Ez a lemaradás főként a komplex matematikai készségeket igénylő feladatokban mutatkozik meg.
A legtöbb AI modellnél az egymás után feltett két ugyanolyan kérdésre adott válaszuk gyakran különbözik, és egyes típusok (például a DeepSeek) nehezen fejti meg a vizuális elemeket, amely azonban a magyar kompetenciamérés szerves részét képezi.
A különböző modelleknek meggyűlik a baja a magyar nyelv megértésével, így emiatt is előfordulhatnak hibák. A végős következtetés szerint a mesterséges intelligencia kiváló lehetőség a tudás bővítésére, illetve gyors megszerzésére, de fontos kiemelni, hogy az emberi tudást nem képes helyettesíteni.