Как оценить какой Chatbot AI лучше? Смотри анализ ниже. AI. Startup.

Человек по натуре ленив, я точно. Вместо того, чтобы зарегистрироваться на версии Chat GTP я просто подождал, когда Микрософт купит его и встроит в свой браузер кнопку Copilot и вот началось...Примерно 20-30 минут в  день я трачу на то, чтобы задать вопрос этому чату...в основном ответы приходят как реакция на обычные поисковые запросы. Иногда совсем даже не точные и ошибочные. Так на запрос "кто изобрел настольную игру КТОР?" я получил ответ - русский изобретатель Алексей Пажитнов! Это почему же еще так? Он ведь Тетрис изобрел. Я то знаю откуда эта неточность появилась, но многие верят этим ответам.

Вот и настало это время, когда нам приходится выбирать, каким сервисом Chatbot AI воспользоваться для своего бизнеса? На рынке уже довольно долго работает специальный ресурс Chatbot Arena, который как бы объективно оценивает уровень ИИ представленных на рынке систем. Но все так просто.

Модель искусственного интеллекта Claude от Anthropic вытеснила GPT-4 с вершины Chatbot Arena, краудсорсингового рейтингового сайта чат-ботов. Впервые OpenAI не заняла первое место в таблице лидеров, что способствовало спорам о том, как оценить «лучшую» модель ИИ.

Посетители Chatbot Arena взаимодействуют с немаркированными чат-ботами и решают, какой из них отвечает лучше всего. Более 477 000 голосов создали таблицу лидеров из 75 моделей искусственного интеллекта.
Объявления о новых моделях ИИ неизбежно сопровождаются диаграммами, заполненными процентами и оценками в тестах со странными и загадочными названиями, такими как «AI2 Reasoning Challenge» и «Hella Swag». Компании выставляют напоказ эти критерии, чтобы объективно доказать, что их ИИ лучше, чем у конкурентов.

Да, но: то, что измеряют эти тесты, довольно неясно для тех, кто не является исследователем или разработчиком, и растет скептицизм по поводу того, насколько хорошо они оценивают способности ИИ. Тесты не всегда отражают реальные задачи. Чат-бот может успешно пройти тест на научные вопросы на уровне доктора философии, но это не значит, что он может писать электронные письма вашему боссу.

Так, например, Hella Swag утверждает, что измеряет навыки рассуждения ИИ, но оказалось, что его вопросы содержат опечатки и очевидные ошибки в написании.
Почему это важно: если вам нужна помощь в принятии решения о том, какой ИИ использовать — и, возможно, вы потратите на это много денег — у вас, похоже, есть два варианта: полагаться на субъективные оценки, такие как Chatbot Arena, основанные на опыте незнакомцев, или на собственные оценки технологической компании.

Но, как выяснил TechCrunch, хотя у субъективных обзоров есть свои проблемы, они могут быть более прозрачными и правдивыми, чем все специализироанные ресурсы.

Источник.