Johnson & Johnson Data Engineer面试题和答案

你知道强生Johnson & Johnson的Data Engineer面试有多难吗？

最近刚面完J&J的DE岗，感觉身体被掏空。不得不说，作为医疗健康领域的巨头，他们家的面试真的不是闹着玩的。流程又长又细，感觉把我的大学四年加上研究生两年学的东西都问了一遍。今天就来给在美国找工作的宝子们复盘一下，希望能帮到大家。

说实话，我一开始以为药厂的Data Engineer面试会相对轻松一点，毕竟不是纯Tech公司。结果我还是太天真了。J&J的面试非常看重候选人和公司文化的契合度，也就是他们那个著名的Credo。所以除了硬核的技术问题，还会有一大堆Behavioral Questions等着你。我这次面的是New Grad的岗位，Virtual Onsite，总共四轮，车轮战一样，面到最后真的口干舌燥。

下面我整理了几个比较典型的面试问题和我的答案，希望能给大家一些参考。

第一个问题，SQL，跑不掉的。面试官直接共享屏幕，打开一个在线编辑器，题目已经贴在上面了。大概是给了三个表：patients (病人信息), trials (临床试验信息), 和 enrollments (入组信息)。问题是：找出所有参加了超过两个临床试验、并且在试验'Cardio-001'中年龄大于40岁的病人信息。

我的答案：这个问题考察的是SQL的基本功，主要是JOIN和GROUP BY的使用。我当时脑子转得还算快，马上就想到了解题思路。首先需要把patients和enrollments通过patient_id连接起来，然后再和trials通过trial_id连接。然后用GROUP BY和HAVING子句筛选出参加了超过两个试验的病人。最后再用一个WHERE子句来处理年龄和特定试验的条件。我当时写的query是这样的：

'''sql SELECT p.patient_id, p.patient_name, p.age FROM patients p JOIN enrollments e ON p.patient_id = e.patient_id WHERE p.patient_id IN ( SELECT patient_id FROM enrollments GROUP BY patient_id HAVING COUNT(DISTINCT trial_id) > 2 ) AND e.trial_id = 'Cardio-001' AND p.age > 40; '''

写完之后，面试官还追问了几个问题，比如为什么用DISTINCT trial_id，还有没有其他实现方式。我说用DISTINCT是为了防止同一个病人在同一个试验中有多条记录导致计数错误。其他方式的话，也可以用WITH子句（CTE）来让逻辑更清晰。总的来说，这关算是顺利通过了。

第二个问题，Python编程。题目不难，但是很考验代码的熟练度和细节。问题是：给一个包含病人服药记录的Pandas DataFrame，里面有patient_id, drug_name, dose, timestamp。要求写一个函数，找出每个病人最后一次服用的药物和剂量。

我的答案：这题是典型的pandas数据处理。我的思路是先按patient_id分组，然后在每个组内找到timestamp最大的那一行。我用了sort_values和drop_duplicates组合来实现，感觉这样比用apply或者transform更直接高效。踩过坑的人都知道，处理大数据量的时候，效率就是生命啊。

'''python def get_last_dose(df): df_sorted = df.sort_values(by='timestamp', ascending=False) last_dose_df = df_sorted.drop_duplicates(subset='patient_id', keep='first') return last_dose_df[['patient_id', 'drug_name', 'dose']] '''

面试官看了我的代码之后点点头，然后问如果数据量非常大，内存放不下怎么办。我说那可能就需要考虑用Dask或者Spark这样的分布式计算框架来处理了，不能直接把整个DataFrame加载到内存里。这个follow-up question还挺关键的，说明他们希望候选人有处理大规模数据的意识。

第三个问题，Data Pipeline设计。这个问题就比较开放了，也是最能体现Data Engineer综合能力的地方。面试官问：假设我们需要构建一个ETL pipeline，每天从多个源（比如医院的EMR系统、可穿戴设备API）收集数据，经过处理和整合后，加载到我们的Data Warehouse里，供分析师使用。你会如何设计这个Data Pipeline？

我的答案：我当时画了一个简单的架构图，然后开始讲解。我说整个pipeline可以分为几个关键部分：

Data Ingestion: 对于EMR系统这种数据库源，我们可以用Sqoop或者定制化的JDBC connector来批量抽取数据。对于可穿戴设备的API，我们可以写一个Python脚本，定时调用API获取数据。所有原始数据先统一存放到一个Data Lake里，比如AWS S3或者Azure Blob Storage。
Data Processing: 数据进入Data Lake后，我们会用Apache Spark来进行处理。这里会做好几个事情，比如Data Cleaning（处理缺失值、异常值），Data Transformation（转换数据格式、统一Schema Design），还有Data Enrichment（比如把邮编和地理位置信息关联起来）。整个处理的逻辑会用Spark SQL或者PySpark来实现。
Workflow Orchestration: 整个ETL流程的调度和依赖管理，我会选择用Apache Airflow。我们可以定义一个DAG（Directed Acyclic Graph），把数据抽取、处理、加载的每一步都作为一个task，设置好它们之间的依赖关系和调度周期（比如每天凌晨执行）。
Data Loading: 处理好的干净数据，最终会加载到Data Warehouse里，比如Snowflake或者Redshift。这里的数据是结构化的，可以直接用SQL进行高效查询。加载的时候要注意处理增量更新，避免重复数据。

整个讲下来大概花了十几分钟，我尽量把我了解的技术栈都提到了，比如Kafka可以用于Stream Processing的场景，Hadoop生态系统的一些其他组件等等。面试官听得很认真，感觉对我的回答还算满意。

第四个问题，关于Cloud的。强生现在在大量用云，特别是Azure。所以被问到了Azure相关的问题。面试官问我有没有用过Azure Data Factory，它和Airflow有什么区别和联系。

我的答案：我说Azure Data Factory (ADF) 是Azure平台上的一个托管的ETL服务，它提供了图形化的界面，可以拖拽组件来构建Data Pipeline，非常方便。它和Airflow的核心功能都是做工作流调度。区别在于，ADF是Azure原生的，和Azure生态里的其他服务（比如Azure Blob Storage, Azure SQL Database）集成得非常好，而且是serverless的，不用自己管理服务器。而Airflow是开源的，更加灵活，可以部署在任何地方（on-premise或者其他云），社区也更庞大。在选择上，如果整个技术栈都在Azure上，用ADF会很省心。如果需要跨云或者更复杂的定制化逻辑，Airflow可能是更好的选择。我说我之前的项目里用Airflow比较多，但对ADF的概念和用法也有了解。

第五个问题，Behavioral Question。这个问题就很有J&J特色了。面试官问：“我们的Credo里强调要对病人、医生和护士负责。你能分享一个你过去的项目经历，体现了你把最终用户的需求放在第一位的吗？”

我的答案：我讲了一个我之前在学校做过的项目。我们当时在做一个数据分析平台，帮助研究人员分析基因数据。一开始我们设计的用户界面非常技术化，都是命令行和复杂的参数。后来我们和几个生物背景的研究生聊了聊，发现他们根本看不懂，觉得很难用。于是我们重新设计了整个前端，把很多复杂的参数都隐藏起来，做成了更友好的图形界面。虽然这增加了我们很多开发工作量，但最终用户的使用体验大大提升了。我说这个经历让我意识到，作为Data Engineer，我们不只是和数据打交道，更重要的是要理解数据背后的业务和用户，我们的工作最终是要为他们创造价值的。这个回答应该是戳中了面试官的点，他听完之后表情明显轻松了很多。

总的来说，J&J的面试体验还是不错的，虽然很难，但面试官都很专业，也很尊重人。感觉他们真的很想找到既有技术实力，又认同他们价值观的人。这次面试也让我明白，药厂的Data Engineer不仅仅是一个技术岗位，它连接着数据和人类健康，责任重大。希望能有机会拿到Offer吧，也祝大家好运！

#强生面试 #DataEngineer #数据工程师 #北美求职 #美国留学 #面试经验 #面经 #JNJ #JohnsonandJohnson #求职

Johnson & Johnson Data Engineer面试题和答案

延伸阅读 Recommended Reading

相关文章 Related Posts

免费咨询美国求职

Johnson & Johnson Data Engineer面试题和答案

延伸阅读 Recommended Reading

相关文章 Related Posts