A spamek szűrésével minden e-mail-szolgáltató küzd, nincs ezzel másként a Gmail sem. Habár a Google levelezőjének biztonsági rendszere sokat fejlődött az elmúlt években, még mindig vannak olyan módszerek, amelyekkel túl tudnak járni a szűréseken. A hwsw most azt írta, hogy egy új megoldással 38 százalékkal javítják a „levélszemét-észlelési arányt", és a keresőcég közlése szerint - a tavalyi belsős körben végzett tesztek után - most már valamennyi felhasználó Gmail-fiókjában sikerült aktiválni.
A RETVec (Resilient & Efficient Text Vectorizer) névre keresztelt szövegosztályozási rendszer segít megérteni és felfedezni a manipulált szövegeket. A kéretlen spamek ugyanis sok esetben az igaziakra hasonlító vagy láthatatlan karaktereket használnak, hogy így kerüljék el a spamszűrőket, és bár ezek utalnak a csalási szándékra, egy algoritmus számára nehezebben értelmezhetők. A gépi tanulási TensorFlow modell a vizuális hasonlóságokat próbálja észrevenni a szavak jelentésének azonosítására a tényleges karaktertartalom helyett.
A RETVec modell az összes UTF-8 karaktert és szót hatékonyan kódolja, így több mint 100 nyelven működik, keresőtáblázat vagy rögzített szókincsméret nélkül. Ezzel nemcsak pontosabb, hanem kevesebb számítási kapacitást is használ, vagyis kevésbé erőforrásigényes.