Por BMS, buso, industria, instrumenta kablo.

Elon Musk kaj la Xai -teamo oficiale lanĉis la plej novan version de Grok, GROK3, dum viglo. Antaŭ ĉi tiu okazaĵo, signifa kvanto da rilataj informoj, kunigita al la 24/7 varba hype de Musk, levis tutmondajn atendojn pri GROK3 al senprecedencaj niveloj. Antaŭ nur unu semajno, Musk memfide deklaris dum vivdaŭro dum komento pri DeepSeek R1, "Xai estas ronde lanĉi pli bonan AI -modelon." El la prezentitaj datumoj, GROK3 laŭdire superis ĉiujn aktualajn ĉefajn modelojn en referencoj por matematiko, scienco kaj programado, kun Musk eĉ asertante, ke GROK3 estos uzata por komputaj taskoj rilataj al la misioj de SpaceX, antaŭdirante "rompojn ĉe la Nobel -premio -nivelo ene de tri jaroj." Tamen ĉi tiuj estas nuntempe nur la asertoj de Musk. Post la lanĉo, mi testis la plej novan beta -version de GROK3 kaj proponis la klasikan trukon por grandaj modeloj: "Kiu estas pli granda, 9.11 aŭ 9.9?" Bedaŭrinde, sen iuj ajn kvalifikoj aŭ markadoj, la tiel nomata plej inteligenta grok3 ankoraŭ ne povis respondi ĉi tiun demandon ĝuste. Grok3 malsukcesis precize identigi la signifon de la demando.
Ĉi tiu provo rapide altiris konsiderindan atenton de multaj amikoj, kaj koincide, diversaj similaj provoj eksterlande montris al grok3 luktantan kun demandoj pri baza fiziko/matematiko kiel "Kiu pilko falas unue de la kliniĝanta turo de Pisa?" Tiel, ĝi estis humure etikedita kiel "geniulo ne volanta respondi simplajn demandojn."

Grok3 estas bona, sed ĝi ne estas pli bona ol R1 aŭ O1-Pro.
Grok3 spertis "misfunkciadojn" en multaj oftaj sciaj provoj en la praktiko. Dum la Xai -lanĉa evento, Musk pruvis uzi GROK3 por analizi la karakterajn klasojn kaj efikojn de la ludo -vojo de ekzilo 2, kiun li asertis ludi ofte, sed plej multaj respondoj donitaj de GROK3 estis malĝustaj. Musk dum la vivdaŭro ne rimarkis ĉi tiun evidentan aferon.
Ĉi tiu eraro ne nur provizis pliajn pruvojn por eksterlandaj retumantoj por moki Musk por "trovi anstataŭanton" en videoludado, sed ankaŭ levis gravajn zorgojn pri la fidindeco de GROK3 en praktikaj aplikoj. Por tia "geniulo", sendepende de ĝiaj efektivaj kapabloj, ĝia fidindeco en ekstreme kompleksaj aplikaj scenoj, kiel ekzemple Mars -esploraj taskoj, restas en dubo.
Nuntempe multaj testantoj, kiuj ricevis aliron al GROK3 antaŭ semajnoj, kaj tiuj, kiuj ĵus testis la modelajn kapablojn dum kelkaj horoj hieraŭ, ĉiuj notas komunan konkludon: "GROK3 estas bona, sed ĝi ne estas pli bona ol R1 aŭ O1-PRO."

Kritika perspektivo pri "interrompi nvidia"
En la oficiale prezentita PPT dum la eldono, GROK3 estis montrita "tre antaŭen" en la Chatbot Arena, sed ĉi tiu lerte uzis grafikajn teknikojn: la vertikala akso sur la estraro nur listigis rezultojn en la 1400-1300-poentaro, igante la originalan 1% diferencon en testaj rezultoj ŝajnas escepte signifa en ĉi tiu prezento.

En efektivaj modelaj rezultoj, GROK3 estas nur 1-2% antaŭ DeepSeek R1 kaj GPT-4.0, kio respondas al la spertoj de multaj uzantoj en praktikaj provoj, kiuj trovis "neniun rimarkindan diferencon." Grok3 nur superas siajn posteulojn je 1%-2%.

Kvankam GROK3 gajnis pli alte ol ĉiuj nuntempe publike testitaj modeloj, multaj ne prenas ĉi tion serioze: post ĉio, Xai antaŭe estis kritikita pro "poentaro -manipulado" en la GROK2 -epoko. Ĉar la gvidanto punis respondan longan stilon, la poentaroj multe malpliiĝis, gvidante industriajn internulojn ofte kritiki la fenomenon de "alta poentado sed malalta kapablo."
Ĉu per estrarano "manipulado" aŭ desegnaj lertaĵoj en ilustraĵoj, ili malkaŝas la obsedon de Xai kaj Musk pri la nocio "gvidi la pakaĵon" en modelaj kapabloj. Musk pagis abruptan prezon por ĉi tiuj marĝenoj: Dum la lanĉo, li fanfaronis pri uzado de 200.000 H100 -GPUoj (asertante "pli ol 100.000" dum la vivdaŭro) kaj atingi tutan trejnan tempon de 200 milionoj da horoj. Ĉi tio kondukis al iuj kredi, ke ĝi reprezentas alian signifan eksplodon por la GPU -industrio kaj konsideras la efikon de DeepSeek sur la sektoro kiel "malsaĝa." Notinde, iuj kredas, ke pura komputila potenco estos la estonteco de modela trejnado.
Tamen, iuj retumantoj komparis la konsumon de 2000 H800 -GPU -oj dum du monatoj por produkti DeepSeek V3, kalkulante, ke la efektiva trejnad -konsumado de GROK3 estas 263 fojojn ol V3. La interspaco inter DeepSeek V3, kiu gajnis 1402 poentojn, kaj GROK3 estas nur malpli ol 100 poentoj. Post la publikigo de ĉi tiuj datumoj, multaj rapide rimarkis, ke malantaŭ la titolo de Grok3 kiel la "plej forta mondo" kuŝas klara marĝena utila efiko - la logiko de pli grandaj modeloj generantaj pli fortan agadon komencis montri malpliiĝantajn revenojn.

Eĉ kun "alta poentado sed malalta kapablo", GROK2 havis vastajn kvantojn da altkvalitaj unuarangaj datumoj de la X (Twitter) platformo por subteni uzadon. Tamen, en la trejnado de GROK3, XAI nature renkontis la "plafonon", kiun OpenAI nuntempe alfrontas - la manko de superaj trejnaj datumoj rapide elmontras la marĝenan utilecon de la kapabloj de la modelo.
La programistoj de Grok3 kaj Musk estas probable la unuaj kompreni kaj identigi ĉi tiujn faktojn profunde, tial Musk kontinue menciis en sociaj amaskomunikiloj, kiujn la versio -uzantoj spertas nun estas "ankoraŭ nur la beta" kaj ke "la plena versio estos publikigita en la venontaj monatoj." Musk alprenis la rolon de la produkta administranto de GROK3, sugestante ke uzantoj havu retrosciigon pri diversaj aferoj renkontitaj en la sekcio de komentoj.
Tamen, ene de tago, la agado de Grok3 sendube levis alarmojn por tiuj, kiuj esperas fidi "amasan komputan muskolon" por trejni pli fortajn grandajn modelojn: surbaze de publike disponeblaj informoj pri Microsoft, la GPT-4 de OpenAI havas parametran grandecon de 1,8 bilionoj da parametroj, pli ol dek fojojn de GPT-3. Onidiroj sugestas, ke la parametra grandeco de GPT-4.5 povus esti eĉ pli granda.
Ĉar la modelaj parametroj grandas, la trejnaj kostoj ankaŭ kreskas. Kun la ĉeesto de Grok3, konkursantoj kiel GPT-4.5 kaj aliaj, kiuj volas daŭrigi "bruligi monon" por atingi pli bonan modelan agadon per parametra grandeco devas konsideri la plafonon, kiu nun estas klare videbla kaj kontempli kiel venki ĝin. En ĉi tiu momento, Ilya Sutskever, eksa ĉefa sciencisto ĉe OpenAI, antaŭe deklaris pasintan decembron, "la antaŭ-trejnado, kiun ni konas, finiĝos", kiu reaperis en diskutoj, instigante klopodojn trovi la veran vojon por trejnado de grandaj modeloj.

La vidpunkto de Ilya sonis la alarmon en la industrio. Li precize antaŭvidis la tujan elĉerpiĝon de alireblaj novaj datumoj, kaŭzante situacion, kie agado ne povas daŭre esti plibonigita per akiro de datumoj, simile al elĉerpiĝo de fosiliaj brulaĵoj. Li indikis, ke "kiel oleo, homa generita enhavo en la interreto estas limigita rimedo." En la prognozoj de Sutskever, la sekva generacio de modeloj, post-pre-trejnado, posedos "veran aŭtonomecon" kaj rezonadajn kapablojn "similajn al la homa cerbo."
Male al hodiaŭaj antaŭ-trejnitaj modeloj, kiuj ĉefe dependas de enhavo-kongruado (surbaze de la antaŭe lernita modelo-enhavo), estontaj AI-sistemoj povos lerni kaj establi metodojn por solvi problemojn simile al la "pensado" de la homa cerbo. Homo povas atingi fundamentan lertecon en temo kun nur baza profesia literaturo, dum granda modelo de AI postulas milionojn da datumpunktoj por atingi nur la plej bazan enirnivelan efikecon. Eĉ kiam la vortordo ŝanĝiĝas iomete, ĉi tiuj fundamentaj demandoj eble ne estas ĝuste komprenitaj, ilustrante, ke la modelo ne vere pliboniĝis en inteligenteco: la bazaj tamen nesolveblaj demandoj menciitaj komence de la artikolo reprezentas klaran ekzemplon de ĉi tiu fenomeno.

Konkludo
Tamen, preter malpura forto, se Grok3 efektive sukcesas malkaŝi al la industrio, ke "antaŭ-trejnitaj modeloj alproksimiĝas al sia fino", ĝi portus signifajn implicojn por la kampo.
Eble post kiam la furioza ĉirkaŭaĵo de Grok3 iom post iom malpliiĝos, ni atestos pli da kazoj kiel la ekzemplo de Fei-Fei Li de "agordi altajn efikajn modelojn sur specifa datumaro por nur $ 50", finfine malkovrante la veran vojon al AGI.
Kontrolaj kabloj
Strukturita Kablada Sistemo
Reto kaj Datumoj, Fibro-Optika Kablo, Patch-Ŝnuro, Moduloj, Faceplato
16a-18a-18a, 2024 mezorient-energio en Dubajo
16a-18a-18a, 2024 Securika en Moskvo
Majo.9a, 2024 Novaj Produktoj kaj Teknologioj Lanĉokazaĵo en Ŝanhajo
Okt.22-a-25a, 2024 Sekureca Ĉinio en Pekino
Nov.19-20, 2024 Konektita Mondo KSA
Afiŝotempo: Feb-19-2025