Count Anything bringt KI das bei, was Dreijährige längst können

KI-News: Count Anything, 15 Mio. Objekte, Fehler halbiert

KI-Modelle schreiben Gedichte, lösen Mathe-Olympiaden und erklären Diagramme. Beim Zählen hört der Spaß auf. Genau diese Lücke schließt »Count Anything«, ein neues Modell von Forschern unter anderem der Tsinghua-Universität. Es zählt Objekte per Texteingabe in völlig unterschiedlichen Bildtypen, von Köpfen in einer Menschenmenge über Autos auf Satellitenbildern bis zu Zellen unter dem Mikroskop und Bakterienkolonien im Labor.

Der Trick steckt in zwei Zählern statt einem. Der eine zieht Rahmen um große, klar erkennbare Objekte, der andere setzt Punkte auf kleine, dicht gedrängte Ziele. Eine simple Regel führt beide Ergebnisse zusammen und wirft bei Überschneidungen die unsicherere Vorhersage raus, damit nichts doppelt gezählt wird. Aufgesetzt ist das Ganze auf Metas vortrainiertem Modell SAM3, ergänzt um kleine Zusatzkomponenten statt komplettem Neutraining. Dazu bauten die Forscher mit CLOC den nach eigenen Angaben größten Datensatz fürs textgesteuerte Zählen: rund 220.000 Bilder, 619 Kategorien, 15 Millionen markierte Objekte aus sechs Bereichen. Das Ergebnis kann sich sehen lassen. Pro abgefragter Objektkategorie verzählt sich Count Anything im Schnitt um etwa neun Objekte, das beste Konkurrenzmodell macht mehr als doppelt so viele Fehler.

Klingt nach Detailforschung, hat aber handfeste Folgen. Wer Tumorzellen auszählt, Ernteerträge schätzt, Verkehr analysiert oder Großveranstaltungen überwacht, brauchte bisher für jede Aufgabe ein eigenes Spezialsystem. Ein einziges Modell, das per Klartext-Befehl mit all diesen multimodalen Bildwelten umgeht, spart genau diesen Wildwuchs. Und es markiert jedes gezählte Objekt im Bild, man sieht also nicht nur die Zahl, sondern auch, wo das Modell sie herhat.

Perfekt ist das nicht. Bei mehrdeutigen Begriffen oder seltenen Fachausdrücken übersieht das Modell Objekte oder ordnet sie falsch ein, und in extrem dichten Szenen mit starken Verdeckungen weiß auch Count Anything nicht mehr, ob zwei Markierungen dasselbe Ding meinen. Beim reinen Crowd-Counting reicht es nicht ganz an die besten Spezialsysteme heran. Bleibt die schöne Pointe, dass das Zählen ausgerechnet die Disziplin ist, an der Frontier-Modelle im BabyVision-Test unter dem Niveau von Dreijährigen lagen. Den Code gibt es auf GitHub, wer mag, kann also selbst nachzählen.

Quellen

Ähnliche News

Bist du bereit für mehr?

Was sagst du dazu?