工作经历
北京,中国 ~ 新浪微博
11/2014 - 至今 ~ - 机器学习算法工程师
巴塞罗那,西班牙 ~ Yahoo! 研究院
02/2014 - 07/2014 ~ - 实习研究员
教育经历
巴塞罗那,西班牙 ~ 加泰罗尼亚理工(Universitat Politècnica de Catalunya)
里昂,法国 ~ 里昂二大 (Université Lumière (Lyon II))
09/2012 - 09/2014 ~ - 硕士,数据挖掘与知识管理专业(DMKM)
- Erasmus Mundus全奖,课程包括:
- Kernel-based Learning and Multivariate Modeling
- Statistical Processing of Natural Language
- Advanced Statistical Modeling
- Bioinformatics and Statistical genetics
- Logic and Knowledge Representation
杭州,中国 ~ 浙江大学,数学系
09/2008 - 06/2012 ~ - 本科,数学与应用数学
- GPA: 3.87/4.0,学院排名5%
洛杉矶,美国 ~ 加州大学洛杉矶分校 (UCLA)
08/2009 - 09/2009 ~ - 暑期学校
论文研究
Apply Space Syntax to Online Mapping Tools, 2014研究生毕设,发表于WSDM(2017), 第一作者, [Paper链接]
- 实习期间,在雅虎研究员指导下,设计一种基于时间、天气信息,推荐有趣导航路线的系统
- 主要技术: Factorization Machine, BPR, PostgreSQL, PostGIS, QGIS
Chebyshev-Tao方法的不同实现及其比较, 2012本科毕业设计, [论文部分], [文献综述], [答辩]
工作项目
05/2019 - 05/2022 ~ 微博用户兴趣,技术负责人
- 负责热门微博兴趣召回及试探;负责全站业务使用的用户画像建设, [交互脑图-I], [脑图-II]
- 短期兴趣Flink实时化改造,将兴趣更新时间从天级别逐 步提升到10分钟内, 并将使用的行为日志扩大到3倍
- 基于统计算法,解决兴趣计算中灵敏度,马太效应, 粒度细化等问题
- 广告商业兴趣重构, 从统计模型到监督式算法(GBDT)的改造,提高定向投放转化率
- 建设兴趣计算的离线评估,在线评估,效果展示,调试等模块,提高算法迭代效率
- 主要技术:Hive, Flink, Hivemall, GBDT,streamlit
08/2017 - 04/2019 ~ 微博图片后推荐, 技术负责人
- 在图片右滑时,推荐用户感兴趣的其他图片微博
- 打通从优质候选物料,离线日志,实时特征获取,模型计算,前端渲染,服务上线的全流程
- 应用LR/FM模型,用户行为协同; 对比学习计算图片语义向量进行推荐
- 数据分析,客户端产品策略实现
- 主要技术:Hive, pySpark, pyTorch, sanic
08/2016 - 10/2017 ~ 图片特征挖掘
- 使用深度学习技术计算图片特征,输出到微博业务中
- 图片分类任务,识别图片领域,图片质量,色情敏感度
- 人脸识别任务,识别微博认证明星和政治人物标签
- 作弊头像识别,识别仿冒明星认证的头像
- 智能图片裁剪,为图片选取最适合的位置裁剪缩略图
- 主要技术:Tensorflow, Keras, Docker, CNN, MTCNN, Faiss, Nginx
03/2015 - 11/2016 ~ 微博头条推荐物料库
- 针对微博站内长文进行内容池筛选,特征计算,用于微博头条推荐系统
- 长文本分类模型,基于标题,摘要,正文,作者等多维度,textCNN,多模型stacking
- 标题党识别模型,Bi-LSTM模型
- 相似图片排重系统,计算图片指纹,利用ES进行相似图片检索
- 主要技术:Keras, Scikit-learn, Elasticsearch, MySQL
03/2013 - 06/2013 ~ KDD Cup 2013 (Authorship Disambiguation) ,里昂,法国
- 对微软学术论文数据库中的相似的作者名字进行甄别,目的是将文章与其真实作者相联系,[report]
- 数据库含有50M的各国各领域文章,以及19M的不同作者实体
- 两个同学合作。多语言文本预处理处理,计算文本匹配度,LDA主题提取等
- 对论文和作者提取特征,并通过random forest进行建模。
- 主要技术: R, PostgreSQL, Python,
2010 - 2012 ~ 一些小项目
- Yet Another Datalog Interpreter, 主要技术:Datalog, Ocaml, SQL,[report]
- 最优搜索路径,主要技术:Graph theory, Hamilton path, [report]
技能和其他
-
编程语言: Python, SQL, R, Matlab, Java
-
工具框架: PyTorch, Keras, scikit-learn, Flask, ELK, Flink, Docker
-
爱好: 网球🎾,乒乓🏓️,太极☯️,滑雪🎿,修理🔧