Исследовательское ИИ-подразделение Tether — QVAC — выпустило QVAC Genesis II, расширив крупнейший в мире открытый синтетический образовательный датасет для обучения ИИ до 148 млрд токенов. Обновление добавило 10 новых учебных областей и методику обучения, ориентированную на развитие логики и рассуждений, а не просто на воспроизведение ответов.
Вторая версия QVAC Genesis включает 107 млрд новых токенов и охватывает 19 образовательных дисциплин, включая химию, машинное обучение, эконометрику, астрономию, статистику и электротехнику. Также была переработана физика университетского уровня с использованием обновленной методологии
Ключевым отличием релиза стала методика «рассуждения на уровне вариантов ответа»: при генерации данных анализируются не только правильные, но и ошибочные варианты, что позволяет формировать у моделей более устойчивые причинно-следственные связи и снижать количество логических ошибок.
По результатам независимых оценок, модели, обученные на QVAC Genesis II, показывают более высокую точность рассуждений и стабильность ответов по сравнению с предыдущими синтетическими датасетами.
Набор данных распространяется в открытом доступе под лицензией CC BY-NC 4.0 и ориентирован на исследователей, университеты и независимых разработчиков. В Tether отмечают, что проект является частью стратегии по развитию децентрализованного и локального ИИ, не зависящего от закрытых облачных платформ.
