Infostart.hu
eur:
380.02
usd:
320.08
bux:
130400.34
2026. február 12. csütörtök Lídia, Lívia
Education technology concept. Schoolboy learning in the room. Online school. EdTech.
Nyitókép: metamorworks/Getty Images

Levizsgáztatták az MI-modelleket az országos kompetenciamérésen – itt vannak az eredmények

Több területen is jelentős hiányosságaik vannak egyes mesterséges intelligencia modelleknek, több még küzd a magyar nyelvvel is.

A mesterséges intelligenciával foglalkozó PeakX csoport a jelenlegi legnépszerűbb AI modellek segítségével átfogó kutatást végzett a magyar országos kompetenciaméréseken. A kutatás célja az volt, hogy kiderítsék, vajon helyt tudnak-e állni a különböző típusú fejlesztések a mesterséges tesztkörnyezeten kívül is – írja az economx.hu.

Az AI modell teszteléshez a vállalat emberei 70 szövegértési és 70 matematikai feladatot használtak, kiegészítve történelem, természettudomány és digitális kultúra kérdésekkel, amelyeket később egy objektív pontozási rendszerrel értékelték. A tesztek három szempontot vettek figyelembe: a feladatmegoldások gyorsaságát, az erőforrásigényt és költségeket, illetve a pontosságot.

A PeakX minősítése az AI modellekről és a teljesítményükről:

  • OpenAI o1: Kiemelkedő általános tudással rendelkezik, erős szövegértési és matematikai képességekkel, viszont lassú és drága.
  • Anthropic Sonnet 3.7: Kiváló szövegértési teljesítményt mutatott, gyors és költséghatékony, azonban komplex matematikai feladatokban gyengébb.
  • xAI Grok2: Rendkívül gyors és olcsó, de a matematikai feladatok terén kifejezetten rosszul teljesített.
  • Gemini 2.0 „Flash”: Kiemelkedő szövegértési képességekkel bír, de az összetettebb következtetési feladatokban alulmaradt.
  • Mistral Large: Relatív olcsó, de általános tudása korlátozottabb.
  • DeepSeek: Olcsó és gyors, kiemelkedő következtetési képességekkel, de nem képes vizuális elemzésre, és hajlamos fura hibákat véteni.

A tapasztalatok szerint bár az érvelő modellek lassabbak és drágábbak, minden kategóriában jobb teljesítményt tudtak nyújtani AI társaiknál. Az eredmények alapján le lehet vonni a következtetést, miszerint a nagy nyelvi modellek a problémamegoldó és analitikus készségeket igénylő területeken még nem képesek helyettesíteni az emberi tudást. Ez a lemaradás főként a komplex matematikai készségeket igénylő feladatokban mutatkozik meg.

A legtöbb AI modellnél az egymás után feltett két ugyanolyan kérdésre adott válaszuk gyakran különbözik, és egyes típusok (például a DeepSeek) nehezen fejti meg a vizuális elemeket, amely azonban a magyar kompetenciamérés szerves részét képezi.

A különböző modelleknek meggyűlik a baja a magyar nyelv megértésével, így emiatt is előfordulhatnak hibák. A végős következtetés szerint a mesterséges intelligencia kiváló lehetőség a tudás bővítésére, illetve gyors megszerzésére, de fontos kiemelni, hogy az emberi tudást nem képes helyettesíteni.

Címlapról ajánljuk
Évekig indokolatlanul műthették a betegeket az egyetemi kórházban – nyomozás indult

Évekig indokolatlanul műthették a betegeket az egyetemi kórházban – nyomozás indult

A cseh rendőrség több száz szívritmus-szabályozó beültetésével kapcsolatos műtétet vizsgál az olomouci Egyetemi Kórházban. A gyanú szerint az elmúlt tíz évben számos olyan beteg mellkasába ültettek be életmentő készüléket, akinek erre nem lett volna szüksége. A beültetések száma az olomouci régióban lakosságarányosan jóval magasabb volt, mint Csehország más részein.

Marad az árrésstop

Gulyás Gergely Miniszterelnökséget vezető miniszter bejelentéseket tett a kátyúhelyzetről, a rezsistopról, az árréskorlátról, a nemzeti petícióról és az ukrán fenyegetésről is, majd Vitályos Eszter kormányszóvivővel együtt újságírói kérdésekre is válaszoltak. A gödi Samsung-gyár ügyében Gulyás Gergely kérdésre válaszolva azt mondta, egy hatósági ügyből akar a sajtó politikai ügyet kreálni.
inforadio
ARÉNA
2026.02.12. csütörtök, 18:00
Hankó Balázs
kultúráért és innovációért felelős miniszter
Iránytű 2026-ra: így melegít be az ingatlanpiac a Portfolio Property Warm Upon

Iránytű 2026-ra: így melegít be az ingatlanpiac a Portfolio Property Warm Upon

A hazai ingatlanpiac évindító, szakmai és networking fókuszú találkozója, a Portfolio Property Warm Up 2026 idén is azokra a témákra koncentrál, amelyek ugyan sokszor „a szektoron kívül” születnek, mégis alapjaiban alakítják a fejlesztői, befektetői és finanszírozói döntéseket. A program a városfejlesztés és turizmus felől indul, érinti a fenntartható lakhatás és a lakáspiac új ciklusának kérdéseit, majd makrogazdasági, HR- és AI-szempontok mentén jut el a 2026-os ingatlanpiaci kilátásokig. Az utolsó helyekért most még lehet regisztrálni!

EZT OLVASTA MÁR?
×
×
×
×
×