Что такое “маркировка данных” (data labeling)? Рынок новых стартапов, обслуживающих потребности в обучении моделей ИИ. AI. data labeling. Canada.

Действительно, запуск языковых моделей ИИ привел к росту сервисов, которые возникают вокруг этого феномена. Вот и этот стартап из Канады, показывает как "соединить" три компонента - большие данные, человеческие знания и геймификацию процессов.

Sapien AI Corp., компания по маркировке данных (data labeling), сегодня объявила, что привлекла 5 миллионов долларов в рамках начального раунда финансирования для развития своего сервиса по предоставлению высококачественных аннотаций и маркировки для обучения моделей искусственного интеллекта.

Стартап Sapien, основанный в 2023 году, помогает компаниям создавать более совершенные модели искусственного интеллекта, предоставляя рынок для высококачественных обучающих данных, маркированных людьми. Компания заявляет, что ее платформа использует «геймифицированный» подход к маркировке данных с помощью вознаграждений на основе блокчейна, таких как крипто-токены, которые стимулируют людей, занимающихся маркировкой, предоставлять точные обозначения.

Раунд начального финансирования привлек инвестиции от Animoca Ventures, Primitive Ventures, Artichoke Capital и Yield Guild Games. Animoca Ventures особенно известна в отрасли как инвестиционное подразделение Animoca Brands Corporation Ltd., гонконгской компании по разработке игрового программного обеспечения, которая первоначально сосредоточилась на разработке мобильных игр, но затем перешла на игры с блокчейном.

Геймификация — это процесс добавления игровых элементов к чему-то, что в противном случае было бы утомительным, а также система вознаграждений для поощрения участия. Большинство моделей, созданных сегодня, требуют, чтобы люди вручную аннотировали данные таким образом, чтобы они могли принимать более точные решения, но задача этого может быть чрезвычайно медленной и трудоемкой. Этот процесс включает добавление меток к необработанным данным, таким как изображения, текст или аудио, для предоставления дополнительного контекста.

Sapien заявляет, что на ее платформе работают более 1 миллиона этикетировщиков, которые живут в более чем 73 странах и говорят более чем на 235 языках и диалектах, что дает ее сервису широкие многоязычные возможности. Он также может предоставлять информацию от людей с передовым опытом работы в таких отраслях, как медицина, юриспруденция, образовательные технологии и т. д., для целей аннотирования.

«Это финансирование позволит нам расширить нашу команду, расширить инфраструктуру внешней маркировки и предоставлять данные более высокого качества для нашего растущего списка корпоративных клиентов», — сказал соучредитель Sapien Тревор Коверко.

Компания заявила, что ее платформу использует широкий круг платящих клиентов в индустрии искусственного интеллекта, включая здравоохранение, образование и ведущие модели больших языков.

«Инновационный подход Sapien к маркировке данных, который сочетает в себе передовые технологии с человеческим опытом, выделяет их среди других компаний в отрасли», — сказал Джеймс Хо, глава Animoca Ventures. «Мы считаем, что глубокое понимание рынка командой и ее стремление к успеху клиентов сделают их идеальным партнером для компаний, стремящихся обучать свои модели искусственного интеллекта с использованием максимально качественных данных».

Источник.