Openai는 O3 모델의 “슬립”전에 침묵합니다. 논란의 여지가있는 벤치 마크 포인트는 무엇입니까?

## OpenAi는 O3 모델의 “슬립”전에 침묵합니다. 논란의 여지가있는 벤치 마크 포인트는 무엇입니까?

OpenAi에서 시작된 새로운 O3 언어 모델의 실망스러운 성능은 AI 커뮤니티에서 강렬한 논쟁을 불러 일으키는 것입니다. 실제 벤치 마크 숫자는 게시 된 연구 결과의 투명성과 신뢰성에 대한 의문을 제기하는이 “Big Man”의 초기 진술보다 훨씬 낮습니다.

O3 모델에 관한 Openai의 최근 기사는 자연어 처리 분야에서 돌파구를 만들 것으로 예상되며 전문가의 관심을 빠르게 끌어 들였습니다. 그러나 독립 연구자들이 재평가를 수행하고 비정상적인 요점을 발견했을 때 원래 기쁨은 의심으로 빠르게 대체되었습니다. 그들이 얻은 벤치 마크 결과는 OpenAI가 발표 한 인상적인 수치보다 상당히 낮아서 상당한 차이를 만들고 평가 방법, 교육 데이터 및 원본 보고서의 무결성에 대한 질문을합니다.

이 차이는 단순한 문제가 아닙니다. 그것은 인공 지능 분야의 주요 조직인 Openai의 명성에 직접적인 영향을 미칩니다. 이 차이의 원인을 설명 할 때 투명성이 부족하면 회의론이 증가합니다. 지금까지 OpenAi는 문제를 명확히하기 위해 공식적인 피드백을 제공하지 않았습니다. 이러한 침묵은 AI 커뮤니티가 연구 결과를 출판 할 때 대기업 회사의 정직과 책임에 대해 더 많은 질문을합니다.

이것은 또한 AI 분야에서 독립성과 객관적인 평가를 검증하는 것의 중요성에 대한 경고 벨을 제기합니다. 단일 조직의 진술에 대한 과도한 의존은 오해의 소지가있는 평가와 느린 기술 개발 프로세스로 이어질 수 있습니다. 커뮤니티는 향후 연구 간행물의 투명성과 신뢰성을 보장하기 위해보다 엄격한 테스트 표준을 설정해야합니다.

OpenAI의 O3 모델과 관련된 사건은 간단한 “슬립”일뿐 만 아니라 신속하게 개발하는 분야에서 검증, 투명성 및 책임의 중요성에 대한 귀중한 교훈이기도합니다.

#openai #o3 #ai #benchmark #painting #complags #tracking

: OpenAi의 O3 모델은 하위 벤치 마크 지점이 처음 발표 되었기 때문에 논란

Openai는 제 3 자 벤치 마크 결과에 따르면 O3 모델이 회사가 발표 한 것보다 성능이 상당히 낮다는 것을 보여줍니다. 구체적으로, Frontiermath Mathematical Unit의 개발자 인 Epoch AI Research Institute는 O3이 작년 12 월에 발표 한 “25% 이상”보다 훨씬 낮은 내용을 독립적으로 평가할 때 약 10%에 도달했다고 말했다.

OpenAi의 O3 모델은 하위 벤치 마크 점수가 처음 발표 되었기 때문에 논란의 여지가 있습니다.

O3가 시작될 때 Openai는 이것이 Frontiermath의 문제의 일부 이상을 해결할 수있는 능력을 가지고 수학을 추론하는 능력의 큰 단계임을 확인했지만 경쟁사는 약 2%만 해결했습니다. 그러나 Epoch에 따르면 공개 버전보다 우수한 것을 계산할 수있는 내부 O3 버전에서 가장 높은 점수가 생성 될 수 있습니다.

실제로 OpenAI가 발표 한 결과에는 얻은 에포크 점수에 따라 낮은 랜드 마크가 포함되었습니다. 또한 Epoch는 그들이 사용하는 버전이 새로운 업데이트 된 Frontiermath이며 이전 OpenAI 문제와 다를 수 있다고 말했다.

출시 전 O3 테스트 조직인 ARC Prize Foundation은 현재 상업용 O3 버전이 최적의 벤치 마크가 아니라 실제 응용 상황에 대한 세련된 버전임을 확인했습니다. 그들은 말했다 : “O3 버전의 모든 계산은 테스트 한 버전보다 작습니다.”

Wenda Zhou -Openai의 엔지니어는 또한 현재 O3 버전이 벤치 마크 점수를 목표로하는 대신 비용, 속도 및 적용 가능성의 균형을 맞추도록 설계되었다고 활성화했습니다. “우리는 사용자가 요청할 때 오랫동안 기다리지 않도록 최적화했으며 실제로 시나리오에서 더 중요합니다.”

OpenAi의 O3 모델은 하위 벤치 마크 점수가 처음 발표 되었기 때문에 논란의 여지가 있습니다.

초기 진술의 정확성에 다소 좌절 했음에도 불구하고 사실은 OpenAI가 업그레이드 된 버전의 O3-PRO를 시작할 준비를하고 있음을 보여줍니다. 또한 O3-Mini-High 및 O4-Mini와 같은 변형은 현재 Frontiermath 세트에서 더 나은 결과 O3을 가지고 있습니다.

이 사건은 벤치 마크 테스트 AI가 특히 서비스 제공 업체 자체로부터 올 때 절대적으로 수신되어서는 안된다는 것을 상기시켜줍니다. AI 산업은 평가 결과의 투명성을 둘러싼 점점 더 많은 논쟁을 목격하고 있습니다.

이전에, Epoch는 Openai의 후원을 즉시 공개하지 않았다는 비판을 받았습니다. 또한 Xai의 Elon Musk는 Grok 3의 오해의 소지가있는 벤치 마크를 사용한 혐의로 기소되었으며 Meta는 최근 실제 릴리스 버전과 다른 모델의 벤치 마크 점수를 과시하는 것으로 인정했습니다.

Openai는 제 3 자 벤치 마크 결과에 따르면 O3 모델이 회사가 발표 한 것보다 성능이 상당히 낮다는 것을 보여줍니다. 구체적으로, Frontiermath Mathematical Unit의 개발자 인 Epoch AI Research Institute는 O3이 작년 12 월에 발표 한 “25% 이상”보다 훨씬 낮은 내용을 독립적으로 평가할 때 약 10%에 도달했다고 말했다.

OpenAi의 O3 모델은 하위 벤치 마크 점수가 처음 발표 되었기 때문에 논란의 여지가 있습니다.

O3가 시작될 때 Openai는 이것이 Frontiermath의 문제의 일부 이상을 해결할 수있는 능력을 가지고 수학을 추론하는 능력의 큰 단계임을 확인했지만 경쟁사는 약 2%만 해결했습니다. 그러나 Epoch에 따르면 공개 버전보다 우수한 것을 계산할 수있는 내부 O3 버전에서 가장 높은 점수가 생성 될 수 있습니다.

실제로 OpenAI가 발표 한 결과에는 얻은 에포크 점수에 따라 낮은 랜드 마크가 포함되었습니다. 또한 Epoch는 그들이 사용하는 버전이 새로운 업데이트 된 Frontiermath이며 이전 OpenAI 문제와 다를 수 있다고 말했다.

출시 전 O3 테스트 조직인 ARC Prize Foundation은 현재 상업용 O3 버전이 최적의 벤치 마크가 아니라 실제 응용 상황에 대한 세련된 버전임을 확인했습니다. 그들은 말했다 : “O3 버전의 모든 계산은 테스트 한 버전보다 작습니다.”

Wenda Zhou -Openai의 엔지니어는 또한 현재 O3 버전이 벤치 마크 점수를 목표로하는 대신 비용, 속도 및 적용 가능성의 균형을 맞추도록 설계되었다고 활성화했습니다. “우리는 사용자가 요청할 때 오랫동안 기다리지 않도록 최적화했으며 실제로 시나리오에서 더 중요합니다.”

OpenAi의 O3 모델은 하위 벤치 마크 점수가 처음 발표 되었기 때문에 논란의 여지가 있습니다.

초기 진술의 정확성에 다소 좌절 했음에도 불구하고 사실은 OpenAI가 업그레이드 된 버전의 O3-PRO를 시작할 준비를하고 있음을 보여줍니다. 또한 O3-Mini-High 및 O4-Mini와 같은 변형은 현재 Frontiermath 세트에서 더 나은 결과 O3을 가지고 있습니다.

이 사건은 벤치 마크 테스트 AI가 특히 서비스 제공 업체 자체로부터 올 때 절대적으로 수신되어서는 안된다는 것을 상기시켜줍니다. AI 산업은 평가 결과의 투명성을 둘러싼 점점 더 많은 논쟁을 목격하고 있습니다.

이전에, Epoch는 Openai의 후원을 즉시 공개하지 않았다는 비판을 받았습니다. 또한 Xai의 Elon Musk는 Grok 3의 오해의 소지가있는 벤치 마크를 사용한 혐의로 기소되었으며 Meta는 최근 실제 릴리스 버전과 다른 모델의 벤치 마크 점수를 과시하는 것으로 인정했습니다.

결론 OpenAI의 O3 모델은 하위 벤치 마크 점수가 초기 발표보다 낮기 때문에 논란의 여지가 있습니다.

Openai는 제 3 자 벤치 마크 결과에 따르면 O3 모델이 회사가 발표 한 것보다 성능이 상당히 낮다는 것을 보여줍니다. 구체적으로, Frontiermath Mathematical Unit의 개발자 인 Epoch AI Research Institute는 O3이 작년 12 월에 발표 한 “25% 이상”보다 훨씬 낮은 내용을 독립적으로 평가할 때 약 10%에 도달했다고 말했다.

OpenAi의 O3 모델은 하위 벤치 마크 점수가 처음 발표 되었기 때문에 논란의 여지가 있습니다.

O3가 시작될 때 Openai는 이것이 Frontiermath의 문제의 일부 이상을 해결할 수있는 능력을 가지고 수학을 추론하는 능력의 큰 단계임을 확인했지만 경쟁사는 약 2%만 해결했습니다. 그러나 Epoch에 따르면 공개 버전보다 우수한 것을 계산할 수있는 내부 O3 버전에서 가장 높은 점수가 생성 될 수 있습니다.

실제로 OpenAI가 발표 한 결과에는 얻은 에포크 점수에 따라 낮은 랜드 마크가 포함되었습니다. 또한 Epoch는 그들이 사용하는 버전이 새로운 업데이트 된 Frontiermath이며 이전 OpenAI 문제와 다를 수 있다고 말했다.

출시 전 O3 테스트 조직인 ARC Prize Foundation은 현재 상업용 O3 버전이 최적의 벤치 마크가 아니라 실제 응용 상황에 대한 세련된 버전임을 확인했습니다. 그들은 말했다 : “O3 버전의 모든 계산은 테스트 한 버전보다 작습니다.”

Wenda Zhou -Openai의 엔지니어는 또한 현재 O3 버전이 벤치 마크 점수를 목표로하는 대신 비용, 속도 및 적용 가능성의 균형을 맞추도록 설계되었다고 활성화했습니다. “우리는 사용자가 요청할 때 오랫동안 기다리지 않도록 최적화했으며 실제로 시나리오에서 더 중요합니다.”

OpenAi의 O3 모델은 하위 벤치 마크 점수가 처음 발표 되었기 때문에 논란의 여지가 있습니다.

초기 진술의 정확성에 다소 좌절 했음에도 불구하고 사실은 OpenAI가 업그레이드 된 버전의 O3-PRO를 시작할 준비를하고 있음을 보여줍니다. 또한 O3-Mini-High 및 O4-Mini와 같은 변형은 현재 Frontiermath 세트에서 더 나은 결과 O3을 가지고 있습니다.

이 사건은 벤치 마크 테스트 AI가 특히 서비스 제공 업체 자체로부터 올 때 절대적으로 수신되어서는 안된다는 것을 상기시켜줍니다. AI 산업은 평가 결과의 투명성을 둘러싼 점점 더 많은 논쟁을 목격하고 있습니다.

이전에, Epoch는 Openai의 후원을 즉시 공개하지 않았다는 비판을 받았습니다. 또한 Xai의 Elon Musk는 Grok 3의 오해의 소지가있는 벤치 마크를 사용한 혐의로 기소되었으며 Meta는 최근 실제 릴리스 버전과 다른 모델의 벤치 마크 점수를 과시하는 것으로 인정했습니다.

. Awesome {위치 : 절대; 국경 : 2px Solid #990000; -Moz-Radius : 50%; -ms-border-radius : 50%; 국경-라디우스 : 50%; 애니메이션 : 바운스 2S 무한; -webkit- 애니메이션 : 바운스 2s 무한; -Moz-Animation : Bounce 2S Infinite; -o-anime : 바운스 2s 무한; 디스플레이 : 인라인 블록; 패딩 : 3px 3px 3px; 색상 : #fff; 배경 : #990000; 글꼴 크기 : 20px; 선-높이 : 1; -Moz 국경 Radius : 5px; -webkit-border-radius : 5px; -Moz-Box-Shadow : 0 1px 3px #999; -webkit-box-shadow : 0 1px 3px #999; 텍스트 -shadow : 0 -1px 1px #222; 국경-바닥 : 1px 고체 #222; 위치 : 상대; 커서 : 포인터; }

게시물 Openai는 O3 모델의 “슬립”전에 침묵합니다. 논란의 여지가있는 벤치 마크 포인트는 무엇입니까? 처음에 나타났습니다 퀸 모바일.

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다