В мире искусственного интеллекта произошел значимый прорыв: Kimi K2 Thinking, новая модель, заняла второе место в глобальном рейтинге и первое среди открытых решений. Этот успех был зафиксирован в последнем отчете аналитической компании Artificial Analysis, которая оценивает интеллектуальные системы.
Kimi K2 Thinking продемонстрировала впечатляющие результаты, набрав 67 баллов в Индексе ИИ, что позволило ей обойти такие модели, как MiniMax-M2 и DeepSeek-V3.2-Exp. Лидером по-прежнему остается GPT-5, однако Kimi K2 Thinking уверенно занимает вторую позицию, что подчеркивает ее способности к рассуждению и решению задач.
На Бенчмарке Агентства, который оценивает производительность в использовании инструментов и автономности, Kimi K2 Thinking также заняла второе место, получив 93% на тесте 𝜏²-Bench Telecom — это самый высокий независимый балл, когда-либо зафиксированный компанией. В сложном тесте "Последний экзамен человечества", который проверяет способности к рассуждению без использования инструментов, модель достигла 22.3%, установив новый рекорд для открытых моделей.
Хотя Kimi K2 Thinking не стала абсолютным лидером во всех тестах по программированию, она стабильно показывала высокие результаты, заняв 6-е место на Terminal-Bench Hard, 7-е на SciCode и 2-е на LiveCodeBench. Эти достижения сделали ее новым лидером в Индексе Кодирования от Artificial Analysis, обойдя DeepSeek V3.2.
Что касается технических характеристик, Kimi K2 Thinking имеет 1 триллион параметров и 32 миллиарда активных параметров, поддерживая контекстный размер в 256K с текстовым вводом. Это вариант Kimi K2 Instruct, использующий INT4 вместо FP8, что значительно улучшает эффективность модели.
Однако стоит отметить, что Kimi K2 Thinking отличается высокой "разговорчивостью", генерируя 140 миллионов токенов во время тестирования, что в 2.5 раза больше, чем у DeepSeek V3.2, и в 2 раза больше, чем у GPT-5. Это увеличивает стоимость вывода и задержку, но модель все равно предлагает конкурентоспособные расценки.
В заключение, отчет подчеркивает, что методы постобучения, такие как обучение с подкреплением, продолжают способствовать значительным улучшениям в области рассуждений и задач с длительным горизонтом использования инструментов.