Demetrio is available for hire

德牧罗德里格斯

验证专家 in Engineering

数据科学家和开发人员

Location

奥地利的维也纳

至今成员总数

2021年5月25日

Demetrio是一位经验丰富的数据科学家，对整个数据科学堆栈都很熟悉. 他擅长开发复杂的机器学习模型，并利用高度易于处理和稳健的统计方法. 除了他的技术和统计专业知识, Demetrio的演示风格和强大的可视化效果毫不费力地将高技术成果的关键要点传达给任何观众.

Portfolio

财富100强食品 & 饮料公司

Python，数据科学，SQL，机器学习，Pandas, NumPy, Matplotlib, Seaborn...

Sclable学院

Python, Git, Docker，离散优化，IFC，开放级联技术(OCCT)...

Parkbob

R，卫星图像，地理空间数据，地理空间分析，空间分析...

Experience

Python - 10年机器学习- 7年统计- 7年数据科学- 7年数据可视化- 6年 R - 5 years 深度学习- 3年生成预训练变形金刚(GPT) - 2年

Availability

Part-time

首选的环境

Linux, PyCharm, Slack, Git, GitHub, Jupyter笔记本, 敏捷数据科学, 敏捷工作流, Python, 快速原型

最神奇的...

...经验是带领一个小团队解决建筑规划中一个未解决的问题:预装构件的可重用性检测.

工作经验

高级数据科学家

2021 - 2022

财富100强食品 & 饮料公司

确定项目的范围，从一个新领域开始:采访涉众并使用数据验证他们的问题.
确定了ML解决方案的多个机会，以减轻一些缺货负担.
构建端到端机器学习解决方案，在与大型电子商务零售商打交道时预测缺货库存.
领导一个项目倡议，以预测掉落的数量.

技术:Python，数据科学，SQL，机器学习，Pandas, NumPy, Matplotlib, Seaborn, XGBoost, Time Series, 时间序列分析, Forecasting, ETL, Docker, Modeling, Git, GitHub, Code Review, 地理空间数据, 地理空间分析, GIS, Mathematics, Statistics, TensorFlow, 空间分析, Keras, 深度学习, 工程数据, Scikit-learn, 统计分析, 监督式机器学习, Jupyter, Dashboards, 统计数据分析, 预测建模, 数据分析, 分类, 可解释人工智能(XAI), Models, 沟通, 版本控制系统, 谷歌合作实验室(Colab), 数据建模, 探索性数据分析, 神经网络, Regression, 人工神经网络(ANN), Snowflake, 线性回归, 数据管道, 模型开发, 亚马逊网络服务(AWS)

数据科学家|项目技术负责人

2019 - 2020

Sclable学院

监督其他数据科学家在项目中的任务.
为即将到来的特性创建技术需求——jira故事和任务.
进行广泛的代码审查并建立代码标准.
管理与开发团队关于解决方案的集成和部署的关系.
在项目方向上与项目经理密切合作, timelines, 团队绩效, and so on.
建立了一个数据管道，将建筑物的3D模型处理成图形.
将产品需求转化为形式化的图优化问题.
研究并实施优化技术.
以客户友好的方式可视化中间和最终模型结果.
利用混合密度网络建立了批发的不确定性预测模型.

技术:Python, Git, Docker，离散优化，IFC，开放级联技术(OCCT), NetworkX, API集成, Code Review, TensorFlow, 敏捷项目管理, Graphs, Algorithms, 建筑信息模型(BIM), Keras, 深度学习, 机器学习, PredictionIO, Linux, 数据可视化, 数据科学, 监督式机器学习, Bash, Matplotlib, Scikit-learn, Pandas, 统计分析, Jupyter, PyCharm, Slack, GitHub, Jupyter笔记本, Mathematics, Statistics, Modeling, 技术写作, 优化, 工程数据, Automation, 敏捷工作流, 敏捷冲刺, 敏捷数据科学, 快速原型, NumPy, 云计算, 统计数据分析, 预测建模, 人工智能(AI), 数据分析, Agile, 谷歌云平台(GCP), Seaborn, Models, 沟通, 版本控制系统, 谷歌合作实验室(Colab), 数据建模, 探索性数据分析, 神经网络, Regression, 人工神经网络(ANN), 数据管道, 模型开发, 亚马逊网络服务(AWS)

数据科学家

2018 - 2019

Parkbob

开发了一个基于双向LSTM的NLP解决方案，重点是将交通标志文本简化为简单的机器可读格式.
开发多个支持GIS部门工作流程的NLP原型.
扩展了从卫星图像中提取停车位Availability的原型解决方案，并将其用于第一个生产级场景.
指导一名初级数据科学家开发汽车共享车队效率的原型.
接管上述新市场的扩展和部署.
向客户展示新市场的模型改进和结果.
参与招聘过程并监督实习生.

技术:R，卫星图像，地理空间数据，地理空间分析，空间分析, QGIS, GIS, Python, 自然语言处理(NLP), GPT, 生成预训练变压器(GPT), TensorFlow, Keras, 车队管理, Mobility, Linux, 数据可视化, 数据科学, 空间统计, 监督式机器学习, Bash, Matplotlib, Scikit-learn, Pandas, 统计分析, PyCharm, Slack, Git, Jupyter笔记本, Mathematics, Statistics, Modeling, 技术写作, Code Review, 深度学习, 机器学习, 工程数据, LaTeX, Automation, 敏捷工作流, 敏捷冲刺, 敏捷数据科学, 快速原型, NumPy, Dashboards, 统计数据分析, 预测建模, 人工智能(AI), 数据分析, Agile, ETL, Time Series, 时间序列分析, Seaborn, Forecasting, 分类, XGBoost, Models, 沟通, 版本控制系统, 数据建模, LSTM, 探索性数据分析, 神经网络, Regression, 人工神经网络(ANN), 线性回归, 数据管道, 模型开发

数据科学家

2016 - 2017

记录进化

参与一个30TB的大型分析数据仓库项目.
接管了解决方案分析层的责任.
翻译所有现有的分析为一个新的数据段，包括大量的性能优化, 新需求, 解释, 和可视化.
就分析层的增强与客户密切合作.
启动了汇总数据的系统质量保证，从而发现了多年来未被注意到的关键不一致之处.
在ETL流程和服务中执行各种调整.
开发了一个物联网原型，从树莓派上收集传感器数据并将其上传到云端.

技术:SQL, PostgreSQL, Python, 商业智能(BI), 风险建模, 工程数据, 持续集成(CI), Docker, Kubernetes, Linux, 数据可视化, 数据科学, Bash, Matplotlib, Pandas, 统计分析, Slack, Git, GitHub, Mathematics, Statistics, 技术写作, Code Review, Automation, 云计算, Dashboards, 统计数据分析, 预测建模, 数据分析, 谷歌云平台(GCP), ETL, Time Series, 时间序列分析, Forecasting, 分类, Models, 沟通, 版本控制系统, 数据建模, 探索性数据分析, Regression, 数据管道

初级研究员

2016 - 2016

的SAFE-FDZ

重构一个经济模型的现有数值解.
对模型进行了解析扩展，并以算法效率为重点对数值解进行了广泛的改进.
通过发现和纠正数学错误，对工作论文做出了重大贡献.

技术:MATLAB, 数值方法, Algorithms, 动态规划, 优化, Linux, Git, Mathematics, Modeling, 科学数据分析, 技术写作, LaTeX, Research, 动态系统建模, Models, 版本控制系统, 数据建模, 探索性数据分析, Regression, 模型开发

研究助理

2015 - 2015

德意志联邦银行，研究中心

构建了一个关于中央银行通胀目标的独特的多国数据集.
开发了DSGE经济模型的分析和数值解决方案，解决了代理人的预期和通货膨胀动态.
自动模型挖掘和生成结构化报告.
可视化、记录、解释和展示我们的研究成果.

技术:MATLAB, LaTeX, 数值方法, Research, 动态系统建模, Linux, 数据可视化, 数据科学, 统计分析, Git, Mathematics, Modeling, 科学数据分析, 技术写作, 优化, 动态规划, Automation, 快速原型, NumPy, Dashboards, 数据分析, Time Series, 时间序列分析, Forecasting, Models, 沟通, 版本控制系统, 数据建模, 探索性数据分析, Regression, 线性回归, 数据管道, 模型开发

研究助理(兼职)

2014 - 2015

欧洲经济研究中心

准备了一个大型科学数据集(大约3900万个条目)，只能远程访问和限制访问.
对统计数据进行分析，并将研究结果提交给研究团队.
使用Stata和Python的组合开发标准化的结果生成管道.
协助研究团队使用Python实现模型，包括可视化仿真输出, 编写单元测试, 优化数值过程.

技术:统计分析, Research, Automation, Python, 数据可视化, 数据科学, Matplotlib, Pandas, Git, Mathematics, Statistics, 科学数据分析, 技术写作, LaTeX, NumPy, 云计算, Dashboards, 统计数据分析, 数据分析, Time Series, 时间序列分析, Forecasting, ETL, Models, 沟通, 版本控制系统, 数据建模, 探索性数据分析, Regression, 线性回归, 数据管道

Experience

作为制造商保持领先于电子商务平台

一家主要的食品和饮料制造商看到了消费者购买行为向在线零售的巨大转变. 它的大部分电子商务收入来自于在一个成熟的平台上销售产品.

However, 这种转变有些不稳定:一些产品被宣布缺货，并下架了平台, 造成巨大的收入损失. 然而，这些产品中只有一小部分出现了供应链短缺. For most, 这是“交付窗口”等缺失指标的组合,”“几周的保险,“过去的订单完成率。," etc. 该电子商务平台没有分享其算法的内部工作原理.

方便每周计划, 我开发了一个机器学习模型来提前两周预测这种缺货行为. 我结合了电子商务平台报告的指标, 内部供应链数据, 营销策划日历, and more. 该问题被表述为一个时间序列分类，并使用梯度增强树来解决，该树的输入是过去十周的各种每周总和，并结合已知的未来静态因素(如.g.、假期及促销活动). 我将输出自动化到仪表板中，并在每周一将其交付给涉众.

NLP:文本简化|信息检索

http://static1.hotcarsimages.com/wordpress/wp-content/uploads/2018/06/Pick-One.jpg

交通标志有各种形状和形式. 很多时候, 交通标志最重要的部分是它下面的文字, 特别是如果文字上写着什么时候这个符号是有效的, e.g.“周一下午6点到8点.“这些文本应该大致标准化和结构化. 因此，我们的开发团队通过创建全面的正则表达式来解决将文本转换为严格规则的问题. 这在一段时间内工作得很好，但慢慢地变得不可维护, 因此，有必要采用可扩展的方法.

因为我们的团队已经有了一个非常全面的基于regex的解析器, 我的建议不是训练一个端到端系统，而是一个文本简化器. 这几乎是一个机器翻译任务:所有的“MON”," "MND,“星期一”变成了“星期一”,“中午到下午3点”会翻译成“中午12点到下午3点”,“不要乱扔垃圾。!会被忽略.

对于这个问题, 我训练了一个当时最先进的NLP模型——一个带有注意力的双向LSTM. 经过两个月的开发, 它达到了合理的精度(92%)，适用于人在环部署. 此外，我们还申请了一笔研究经费，以进一步扩展解决方案.

不确定的批发预测

通常情况下，机器学习解决方案专注于预测一个数字. 具体地说, 这在批发中并不总是很有用, 因为实际的日销售额可能相差很大. 如果不加以处理，这种变化将导致存储空间过满或货架空. 以便有效地执行容量规划, 管理者应该知道一定程度上可能发生的一系列结果.

为了应对这个挑战，我训练了一个混合密度神经网络. 这种体系结构中的输出层是混合分布的参数(在这种情况下是gamma)，参数逆最大似然被用作训练的损失. 这允许捕获多模态条件分布或大范围的右偏分布. 由于数据来自不同地理区域的不同商店，并且呈现出强烈的趋势变化, 它首先是去趋势化的, 然后将其标准化，然后用混合密度网络进行建模.

基于卫星的停车位Availability地面真相

http://medium.com/ubiq/satellite-based-ground-truth-for-parking-availability-e477c7e1b412

预测街道上的停车位占用情况是一个极具挑战性的问题. 主要是因为没有可靠的事实来源.

我们的解决方案是使用卫星图像作为一种可扩展的方法来同时评估全球多个城市的停车情况. 主要的挑战是不能在卫星图像上发现汽车, 这只是一个对象检测问题(一个非常讨厌的问题, however). 它是关于将一个使用机器学习的多级管道组合在一起, 启发式规则, 还有法律限制输出街道上有多少个免费停车位.

这篇博客文章是我写的，非常详细地解释了我们的方法.

汽车共享车队效率

http://medium.com/ubiq/the-art-of-fleet-rebalancing-our-ai-tool-to-increase-the-utilization-of-every-single-vehicle-c86731f98c39

一家知名的汽车共享公司向我们提出了一个问题:他们的一些车停好几分钟就被人开走了，有些车闲置了好几天. 他们已经知道这与城市的地理有关, 人口密度, 主要交通枢纽, time of day, and so on.

So, 我们提出建立一个机器学习模型，该模型将考虑所有这些影响因素，并判断何时何地汽车需求高，从而开始从需求低的地区重新安置汽车.

在我的监督和指导下, 一个初级数据科学家在他们的第一个项目中，我成功地交付了一个MVP. 通过我与项目组的合作，我们找到了合适的部署策略，并在获得初始数据集的四个月后推出了产品的第一个版本.

因此, 我负责将解决方案扩展到多个城市, 调整实时效率, 并根据客户的要求和模型性能添加多个特性.

Eventually, this has become the most successful product of the startup; they then rebranded and now offer it as their only service.

Education

2012 - 2015

经济学和数学学士学位

曼海姆大学-德国曼海姆

Skills

库/ api

Pandas, Scikit-learn, Matplotlib, NumPy, NetworkX, TensorFlow, Keras, XGBoost, LSTM, PyTorch

Tools

PyCharm, Git, GitHub, GIS, LaTeX, jupiter, Seaborn, Slack, PredictionIO, MATLAB

Languages

Python, R, SQL, Bash, Regex, Snowflake

Paradigms

数据科学, 敏捷工作流, 快速原型, Agile, 敏捷项目管理, Automation, ETL, 建筑信息模型(BIM), 商业智能(BI), 持续集成(CI), 动态规划

Platforms

Jupyter笔记本, Docker, Linux, 亚马逊网络服务(AWS), 开放级联技术(OCCT), Kubernetes, 谷歌云平台(GCP), Databricks

Storage

PostgreSQL，数据管道

Other

Statistics, Modeling, 科学数据分析, 技术写作, 优化, Code Review, 地理空间数据, 地理空间分析, 空间分析, 机器学习, 工程数据, 统计分析, 监督式机器学习, 数据可视化, Time Series, 时间序列分析, 敏捷冲刺, 敏捷数据科学, 统计数据分析, 预测建模, 人工智能(AI), 数据分析, Forecasting, Models, 沟通, 版本控制系统, 数据建模, 数据聚合, 数据分析, 探索性数据分析, Regression, 线性回归, Mathematics, 卫星图像, 自然语言处理(NLP), Mobility, 深度学习, 动态系统建模, 空间统计, Dashboards, 分类, 谷歌合作实验室(Colab), 神经网络, 人工神经网络(ANN), 模型开发, GPT, 生成预训练变压器(GPT), 离散优化, IFC, API集成, QGIS, 车队管理, Graphs, Algorithms, 风险建模, 数值方法, Research, 云计算, 可解释人工智能(XAI), ARIMA, ARIMA Models

有效的合作

如何使用Toptal

在数小时内，而不是数周或数月，我们的网络将为您直接匹配全球行业专家.

分享你的需求

在与Toptal领域专家的电话中讨论您的需求并细化您的范围.

选择你的才能

在24小时内获得专业匹配人才的简短列表，以进行审查，面试和选择.

开始你的无风险人才试验

与你选择的人才一起工作，试用最多两周. 只有当你决定雇佣他们时才付钱.

对顶尖人才的需求很大.

开始招聘