Kyivstar Tech шукає спеціалістів для команди, що розробляє українську LLM
Kyivstar Tech відкрила вакансії для фахівців, які працюватимуть над національною великою мовною моделлю (LLM). На зараз на DOU розміщені 6 вакансій.
Data Engineer (NLP-Focused)
Основні обов’язки:
- Розробка та підтримка ETL/ELT-пайплайнів для збору, перетворення та зберігання великих обсягів текстових даних.
- Впровадження сервісів вебскрейпінгу та збору даних для автоматизації отримання текстової та лінгвістичної інформації з вебу та інших зовнішніх джерел.
- Реалізація специфічної обробки даних для NLP/LLM: очищення та нормалізація тексту, фільтрація токсичного контенту, дедуплікація, видалення персональних даних.
- Формування спеціалізованих датасетів SFT/RLHF з наявних даних, включно з аугментацією та маркуванням за допомогою LLM.
- Налаштування та управління хмарною інфраструктурою даних проєкту (data lakes, warehouses) та фреймворками обробки (AWS/GCP/Azure).
- Автоматизація робочих процесів обробки даних та забезпечення їх масштабованості й надійності за допомогою інструментів, як-от Apache Airflow.
- Підтримка та оптимізація аналітичних баз даних та шарів доступу до даних для ad-hoc аналізу та тренування моделей.
- Співпраця з Data Scientists та NLP Engineers для створення наборів даних для моделей машинного навчання.
- Впровадження перевірок якості даних, моніторингу, сповіщень та версіонування даних.
- Управління безпекою даних, контролем доступу та відповідністю стандартам політики конфіденційності.
Вимоги:
- 3+ роки досвіду на посаді Data Engineer або аналогічній ролі, пов’язаній зі створенням data-intensive пайплайнів.
- Досвід роботи з лінгвістичними даними або підтримки NLP-проєктів (нормалізація тексту, робота з різними кодуваннями, стратегії токенізації). Розуміння підходу до обробки даних, подібного до FineWeb2.
- Практичний досвід у розробці ETL/ELT-процесів та використанні фреймворків оркестрації, як-от Apache Airflow.
- Впевнене володіння Python для обробки даних та розробки пайплайнів, досвід роботи з NLP-пакетами (spaCy, NLTK тощо) та SQL.
- Досвід роботи з реляційними базами даних (PostgreSQL, MySQL), знайомство з NoSQL та технологіями великих даних (HDFS, Hive, Spark).
- Практичний досвід роботи з хмарними платформами (AWS, GCP або Azure) для зберігання та обробки даних.
- Знання практик забезпечення якості даних, досвід впровадження моніторингу для пайплайнів.
- Здатність тісно співпрацювати з data scientists та розуміти вимоги
ML-проєктів, хороші комунікативні навички.
Додаткові переваги:
- Досвід роботи з фреймворками розподіленої обробки даних (Apache Spark, Databricks) та системами потокової передачі повідомлень (Kafka, Pub/Sub).
- Глибокий досвід у вебскрейпінгу з використанням Scrapy, Selenium або Beautiful Soup.
- Знання CI/CD для інженерії даних (GitHub Actions, Jenkins), досвід роботи з Docker та Kubernetes.
- Досвід роботи з аналітичними платформами та BI-інструментами (Tableau, Looker).
- Здатність самостійно вирішувати складні інженерні проблеми з даними та оптимізувати наявні пайплайни.
Senior Data Scientist/NLP Lead
Основні обов’язки:
- Керування повним циклом розробки NLP та LLM моделей: від дослідження даних та прототипування до валідації та впровадження у продакшн.
- Аналіз великих текстових наборів даних (українських та багатомовних) для виявлення інсайтів та створення якісних навчальних датасетів.
- Розробка та впровадження NLP-алгоритмів для класифікації тексту, розпізнавання іменованих сутностей, семантичного пошуку та розмовного AI.
- Створення метрик оцінки та фреймворків валідації для продуктивності моделей, включно з точністю, фактологічністю та упередженістю; проєктування A/B тестів.
- Розгортання та інтеграція NLP-моделей у продакшн-системи у співпраці з інженерами, забезпечення їх масштабованості та ефективності.
- Технічне лідерство та менторство для команди NLP/ML, перевірка коду та досліджень, підтримка найкращих практик в ML (версіонування, відтворюваність, документація).
- Крос-функціональна співпраця з продакт-менеджерами та інженерами для узгодження NLP-рішень з цілями продукту та можливостями інфраструктури.
Вимоги:
- 5+ років досвіду в data science або machine learning з сильним фокусом на NLP.
- Підтверджений досвід розробки та впровадження NLP/ML моделей у продакшн-середовищі.
- Глибоке розуміння технік та алгоритмів обробки природної мови, архітектур трансформерів, технік навчання та файн-тюнінгу LLM.
- Досвід роботи з метриками оцінки мовних моделей (Perplexity, BLEU, ROUGE) та техніками їх оптимізації (квантизація, дистиляція знань).
- Впевнене володіння Python та бібліотеками для data science (pandas, NumPy, scikit-learn), а також фреймворками глибокого навчання (PyTorch, TensorFlow).
- Розуміння аналітики даних та статистики, досвід у проєктуванні експериментів (A/B тестування) та роботі з великими датасетами (включно з SQL).
- Досвід розгортання
ML-моделей у продакшн, знайомство з MLOps-концепціями та інструментами (CI/CD, MLflow, Airflow). - Підтверджені навички технічного лідерства, менторства та ефективної комунікації.
Додаткові переваги:
- Практичний досвід у створенні токенізаторів, техніках SFT та RLHF, а також оцінці токсичності, етичності та безпеки LLM.
- Публікації на конференціях з NLP/ML або внесок у відкриті NLP-проєкти.
- Розуміння української мови та культурно-лінгвістичних нюансів для навчання та оцінки моделей.
- Практичний досвід роботи з Docker, Kubernetes та інструментами для
ML-воркфлоу (MLflow, Airflow). - Інноваційне мислення та здатність творчо підходити до відкритих AI-завдань у швидкозмінному R&D середовищі.
AI QA Engineer
Основні обов’язки:
- Розробка та виконання комплексних стратегій оцінки AI-моделей (NLP/LLM) для перевірки їх точності, узгодженості та справедливості.
- Аналіз бенчмаркінгових наборів даних, виявлення прогалин та розробка SOTA-фреймворку для бенчмаркінгу української мови.
- Впровадження автоматизованого та ручного тестування для додатків на базі LLM, включно зі створенням скриптів та суб’єктивною оцінкою результатів.
- Створення та підтримка якісних тестових наборів даних, що відображають реальні сценарії використання та культурний контекст української мови.
- Проєктування та підтримка фреймворків для виявлення галюцинацій, упереджень та інших збоїв у відповідях LLM.
- Визначення та відстеження ключових метрик продуктивності AI (точність, зв’язність, релевантність, затримка тощо).
- Тісна співпраця з командою розробки AI для інтеграції QA в процес розробки та CI/CD пайплайни.
- Аналіз та виявлення першопричин збоїв у роботі AI-моделей, надання детальних звітів про помилки.
- Впровадження постійного моніторингу в продакшені для виявлення регресій та нових проблем.
- Ведення вичерпної тестової документації, планів та звітів про результати оцінки кожної версії моделі.
Вимоги:
- 3+ роки досвіду в QA/тестуванні, з яких частина зосереджена на AI/ML системах, та 2+ роки в аналізі даних.
- Розуміння концепцій машинного навчання, специфічних викликів тестування AI-моделей та знайомство з фреймворками оцінки LLM.
- Глибоке розуміння завдань NLP та поширених збоїв мовних моделей (галюцинації, упередження).
- Впевнене володіння Python для автоматизації тестування; знайомство з фреймворками (PyTest) та бібліотеками (pandas, numpy, Hugging Face).
- Досвід створення та управління тестовими наборами даних, включно з процесами анотації та маркування.
- Сильні аналітичні навички та вміння виявляти закономірності в помилках моделей.
- Відмінні комунікативні навички для документування помилок та обговорення проблем з розробниками.
- Вільне володіння українською мовою є обов’язковим для оцінки коректності та нюансів відповідей.
Додаткові переваги:
- Досвід роботи зі спеціалізованими інструментами для тестування AI та знайомство з техніками prompt engineering.
- Вміння виконувати статистичний аналіз результатів продуктивності моделей (наприклад, для A/B тестів).
- Досвід інтеграції тестів у CI/CD пайплайни для ML, знайомство з версіонуванням моделей.
- Знання тестування AI-моделей на безпеку та відповідність стандартам (наприклад, атаки prompt injection).
- Розуміння UX у контексті AI-продуктів та вміння передбачати нетипову взаємодію користувачів з AI.
- Наявність сертифікатів у сфері QA, тестування ПЗ (ISTQB) або AI/ML.
Data Scientist (Benchmarking & Alignment)
Основні обов’язки:
- Аналіз бенчмаркінгових наборів даних, розробка та підтримка комплексного фреймворку для бенчмаркінгу української мови.
- Дослідження та інтеграція передових метрик для оцінки фактичної точності, логічного мислення, плавності мови, безпеки та узгодженості моделей.
- Проєктування та підтримка фреймворків для виявлення галюцинацій, упереджень та інших збоїв у відповідях LLM.
- Розробка пайплайнів для генерації синтетичних даних та adversarial-прикладів для перевірки надійності моделі.
- Співпраця з анотаторами, лінгвістами та експертами для визначення завдань оцінки та збору якісного фідбеку.
- Розробка інструментів та процесів для безперервної оцінки на етапах попереднього навчання, файн-тюнінгу та розгортання моделі.
- Дослідження та розробка найкращих практик у пайплайнах навчання LLM.
- Аналіз результатів бенчмаркінгу для виявлення сильних та слабких сторін моделі та можливостей для її покращення.
- Документування методологій та поширення результатів серед внутрішніх команд.
Вимоги:
- 3+ роки досвіду в Data Science або Machine Learning з фокусом на NLP.
- Підтверджений досвід в оцінці
ML-моделей та/або NLP-бенчмаркінгу. - Гарні знання технік та алгоритмів NLP, включно з embedding models, semantic search, transformers/LLMs, RAGs.
- Впевнене володіння Python, бібліотеками для data science (pandas, scikit-learn) та фреймворками глибокого навчання (PyTorch, TensorFlow).
- Глибоке розуміння концепцій RLHF та пов’язаних з ними технік.
- Розуміння аналітики даних та статистики, досвід у проєктуванні експериментів (A/B тестування) та роботі з великими наборами даних (SQL).
- Досвід розгортання
ML-моделей у продакшені, знайомство з MLOps-концепціями та інструментами (CI/CD, version control). - Досвід роботи в крос-функціональному середовищі та сильні комунікативні навички.
Додаткові переваги:
- Досвід роботи над безпекою, справедливістю та зменшенням упередженості в LLM.
- Публікації на конференціях з NLP/ML або внесок у відкриті NLP-проєкти.
- Знайомство з українською мовою, її культурним контекстом та існуючими бенчмарками.
- Практичний досвід роботи з Docker, Kubernetes та інструментами для
ML-воркфлоу (MLflow, Airflow). - Інноваційне мислення та здатність творчо підходити до відкритих AI-завдань.
Data Scientist (Data Preparation & Pre-training)
Основні обов’язки:
- Проєктування, прототипування та валідація етапів підготовки та трансформації даних для навчальних датасетів LLM (очищення, нормалізація, фільтрація, дедуплікація, видалення персональних даних).
- Формування спеціалізованих датасетів SFT/RLHF з наявних даних, включно з аугментацією та маркуванням за допомогою LLM.
- Аналіз великомасштабних необроблених джерел даних (текст, код) на предмет якості, охоплення та релевантності.
- Розробка евристик, правил фільтрації та технік очищення для максимізації ефективності навчальних даних.
- Співпраця з data engineers для передачі прототипів на автоматизацію та масштабування.
- Дослідження та розробка найкращих практик та нових технік у пайплайнах навчання LLM.
- Моніторинг та оцінка впливу якості даних на продуктивність моделі за допомогою експериментів та бенчмарків.
- Документування методологій та поширення результатів серед внутрішніх команд.
Вимоги:
- 3+ роки досвіду в Data Science або Machine Learning з фокусом на NLP.
- Підтверджений досвід у попередній обробці, очищенні та інжинірингу ознак для великих наборів неструктурованих даних (текст, код тощо).
- Гарні знання технік та алгоритмів NLP, включно з embedding models, transformers/LLMs, RAGs, та вимог до даних для їх навчання.
- Впевнене володіння Python, бібліотеками для data science (pandas, scikit-learn, spaCy) та фреймворками глибокого навчання (PyTorch, TensorFlow).
- Глибоке розуміння аналітики даних та статистики, досвід у проєктуванні експериментів (A/B тестування) та роботі з великими наборами даних (SQL).
- Досвід розгортання
ML-моделей у продакшені, знайомство з MLOps-концепціями та інструментами (CI/CD, version control). - Досвід роботи в крос-функціональному середовищі, сильні комунікативні навички та здатність до швидкого прототипування.
Додаткові переваги:
- Знайомство з метриками оцінки мовних моделей (Perplexity, BLEU, ROUGE) та розуміння підходів до обробки даних, подібних до FineWeb2.
- Публікації на конференціях з NLP/ML або внесок у відкриті NLP-проєкти.
- Знайомство з українською мовою, її культурним контекстом та джерелами текстових даних.
- Практичний досвід роботи з Docker, Kubernetes та інструментами для
ML-воркфлоу (MLflow, Airflow). - Інноваційне мислення та здатність творчо підходити до відкритих AI-завдань.
MLOps Engineer (LLM Infrastructure)
Основні обов’язки:
- Проєктування та впровадження сучасної, масштабованої
ML-інфраструктури (хмарної або on-premises) для підтримки експериментів та розгортання NLP/LLM моделей. - Розробка end-to-end пайплайнів для навчання, валідації та розгортання моделей; автоматизація
ML-воркфлоу за допомогою Docker та CI/CD. - Співпраця з Data Scientists та ML Engineers для розробки MLOps-рішень, що відповідають вимогам до продуктивності та затримок моделей.
- Впровадження найкращих практик в MLOps: автоматизоване тестування, CI/CD для оновлень моделей та версіонування коду, даних і артефактів.
- Налаштування моніторингу та сповіщень для розгорнутих моделей та пайплайнів даних для відстеження продуктивності та виявлення аномалій.
- Управління та оптимізація середовищ розгортання на базі Kubernetes; контейнеризація
ML-сервісів та їх оркестрація. - Підтримка інфраструктури як коду (Terraform, Ansible) для налаштування хмарних ресурсів та
ML-інфраструктури. - Проведення код-рев’ю, менторство інших інженерів та усунення несправностей у всьому життєвому циклі ML.
Вимоги:
- 4+ роки досвіду на позиціях DevOps, MLOps або ML Infrastructure; глибокі знання принципів software engineering та DevOps у контексті машинного навчання.
- Значний досвід роботи з хмарними платформами (AWS, GCP або Azure) та інструментами Infrastructure-as-Code (Terraform, CloudFormation).
- Впевнене володіння технологіями контейнеризації (Docker) та оркестрації (Kubernetes); досвід роботи з Helm.
- Досвід впровадження CI/CD пайплайнів для
ML-проєктів з використанням Jenkins, GitLab CI або GitHub Actions. - Сильні навички програмування на Python для написання пайплайнів та скриптів автоматизації.
- Глибоке розуміння життєвого циклу машинного навчання; досвід створення або підтримки
ML-пайплайнів (Kubeflow, Airflow). - Досвід налаштування моніторингу для додатків та моделей (Prometheus, Grafana) та впровадження сповіщень.
- Базове розуміння найкращих практик безпеки при розгортанні ML, включно з шифруванням даних та контролем доступу.
- Відмінні навички співпраці для роботи в крос-функціональних командах.
Додаткові переваги:
- Попередній досвід розгортання або файн-тюнінгу великих мовних моделей у продакшені.
- Досвід роботи з фреймворками розподілених обчислень (Ray) та обробки великих даних (Spark, Hadoop).
- Досвід роботи з інструментами для відстеження експериментів та реєстру моделей (MLflow, Weights & Biases, DVC).
- Знайомство з векторними базами даних (Pinecone, Weaviate, FAISS).
- Досвід роботи з HPC-середовищами або локальними GPU-кластерами для навчання великих моделей.
- Актуальні знання про останні розробки в MLOps та LLMOps.
Похожие статьи:
В преддверии праздников мы собрали благотворительные акции от фондов и IT-компаний, к которым могут присоединиться все...
[Катя Осадчук — СEO IT-рекрутингового агентства Indigo, экономист, профессиональный психолог и HR с более чем 10-летним опытом,...
В сети появились некоторые технические подробности о модели LG K7, которая также может иметь название LG M1. Известно, что...
Я займаюся Data Science понад 9 років, маю досвід роботи на посаді Data Science Team Lead, провела сотні інтерв’ю на позицію Data Scientist...
Похожие статьи:
В преддверии праздников мы собрали благотворительные акции от фондов и IT-компаний, к которым могут присоединиться все...
[Катя Осадчук — СEO IT-рекрутингового агентства Indigo, экономист, профессиональный психолог и HR с более чем 10-летним опытом,...

В сети появились некоторые технические подробности о модели LG K7, которая также может иметь название LG M1. Известно, что...
Я займаюся Data Science понад 9 років, маю досвід роботи на посаді Data Science Team Lead, провела сотні інтерв’ю на позицію Data Scientist...