project - kifish

实习经历

语言模型

2020.12-present MSRA-NLC
研究位置编码, 改进语言模型和下游的文本生成任务。(Work in progress)

基于知识增强的生成式chatbot

2020.09-2020.11 字节跳动-AI Lab
研究对话生成, 利用知识增强来提升GPT2在对话生成的任务上的效果。(Work in progress)

基于知识选择的检索式chatbot

2020.02-present
研究多轮检索式对话, 在Persona-Chat、CMUDoG和Wizard数据集上取得sota结果, 发表于CIKM2020:
Learning to Detect Relevant Contexts and Knowledge for Response Selection in Retrieval-based Dialogue Systems

CIKM2020 Full Paper Research Track 一作

FAQ

2020.04-2020.08 腾讯微信-模式识别中心
担任nlp算法实习生，参与 微信对话开放平台 的FAQ项目, 即检索式 chatbot。
负责 es 后台接口以及数据更新服务。
负责对话反馈分类。
通过预训练模型(GPT2/mass)，从标准问生成相似问。

篇章理解

2019.11-2020.03 字节跳动-搜索
担任搜索算法实习生，负责网页信息提取，通过模板引擎及模板配置实现网页信息结构化, 实现了一个json diff组件；负责网页内容的篇章理解，通过根据步骤词建树以及子标题检测实现；负责精准问答，通过规则实现短答案区间检测，类似于Watson DeepQA(不完全相同)。

医疗文本结构化

2018.05-2018.08 志诺维思
担任自然语言处理实习生，负责肿瘤病理数据结构化的工作，通过正则及医学规则实现了病理信息抽取，结构化结果由人工评估，准确率高达99%。并做了一些数据分析工作，使用apriori算法挖掘免疫组化抗体之间的关联性,并实现了可视化。

tiny projects

semantic parsing

2019.05
natural language -> logical form
[dataset] [code]

method:
bilstm-crf + ner + seq2seq

TODO: maybe pointer network + seq2seq is better!

NER

2018.11
[dataset] [code]
尝试了5种方法实现中文命名实体词识别:
1.HMM
2.CRF learn CRF tips
3.BiLSTM-viterbi
4.BiLSTM-CRF
5.BiLSTM-CNN-CRF

update: methods above are out of date.

增加了bert的支持。

6.Bert