Coupanginternal
[Lv6-1/2] Site Reliability Engineer (Tech Infra)
Company
Role
[Lv6-1/2] Site Reliability Engineer (Tech Infra)
Location
Job type
-
Found on Mokaru
๐ฅRecently
Salary
Job description
๋ณธ ๊ณต๊ณ ๋ ์ฌ์ง ์์ง์์ ๋์์ผ๋ก ํ๋ ์ฌ๋ด ๊ณต๋ชจ ์ ์ฉ์ ๋๋ค. (์์ง์ ์ถ์ฒ์ Link๋ก ์งํ)
This posting is exclusively for internal employees. (Employee referrals are submitted via the Link)
์ง์ ์์๋ ๋ฐ๋์ ์ฒจ๋ถ๋ ์๋ฌธ โ์ฌ๋ด ๊ณต๋ชจ ์ง์์ ์์โ์ ์์ฑํ ํ, ์ฟ ํก ์ด๋ฉ์ผ ๊ณ์ ์ผ๋ก ์ ์ํด ์ฃผ์๊ธฐ ๋ฐ๋๋๋ค.
To apply, please complete the attached โInternal Transfer Request Formโ and submit it via your Coupang email address.
ํ์ฌ ์๊ฐ
์ฟ ํก์ ๊ณ ๊ฐ ๊ฐ๋ ์คํ์ ์ํด ์กด์ฌํฉ๋๋ค. ๊ณ ๊ฐ๋ค์ด "์ฟ ํก ์์ด ๊ทธ๋์ ์ด๋ป๊ฒ ์ด์์๊น?" ๋ผ๊ณ ๋งํ ๋, ๋น๋ก์ ์ฐ๋ฆฌ์ ๋ฏธ์ ์ ์คํํ๊ณ ์์์ ์ ์ ์์ต๋๋ค. ๊ณ ๊ฐ๋ค์ ์ผํ๊ณผ ์์ฌ, ์ํ ์ ๋ฐ์ ํธํ๊ฒ ๋ง๋ค๊ฒ ๋ค๋ ์ ์ผํ ์ง๋ ์ผ๋ก ์ฟ ํก์ ์์ต ๋ฌ๋ฌ ๊ท๋ชจ์ ์ด์ปค๋จธ์ค ์ฐ์ ์ ๋ฐ์ ํ์ ์ ์ด๋๊ณ ์์ต๋๋ค. ์ฟ ํก์ ๊ฐ์ฅ ๋น ๋ฅด๊ฒ ์ฑ์ฅํ๋ ์ด์ปค๋จธ์ค ๊ธฐ์ ์ค ํ๋๋ก, ๊ตญ๋ด ์ปค๋จธ์ค ์ ๊ณ์์์ ๋ ๋ณด์ ์ธ ์ ์ง์, ๊ณ ๊ฐ ์ ๋ขฐ๋ฅผ ๊ตฌ์ถํ์ต๋๋ค.
์ฟ ํก์ ์คํํธ์ ๋ฌธํ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ ๊ธ๋ก๋ฒ ๋ํ ์์ฅ์ฌ๋ผ๊ณ ์๋ถํฉ๋๋ค. ์ด๊ฒ์ด ์ฐฝ๋ฆฝ ๋น์์ ๊ธฐ๋ฏผํจ์ ์งํ๋ฉฐ, ์ ๊ท ์๋น์ค๋ฅผ ๋์์์ด ์ถ์ํ๋ฉฐ ๋น์ฆ๋์ค๋ฅผ ํ์ฅํด ๋๊ฐ๋ ์ฐ๋ฆฌ์ ์ฑ์ฅ ๋๋ ฅ์ ๋๋ค. ์ฟ ํก์ ๋ชจ๋ ์์ง์์๊ฒ๋ ๊ธฐ์ ๊ฐ ์ ์ ์ ๊ฐ์ถ๊ณ ์๋ก์ด ํ์ ๊ณผ ์ด๋์ ํฐ๋ธ๋ฅผ ์ถ์งํ ์ ์๋ ๊ธฐํ๊ฐ ์ฃผ์ด์ง๋๋ค. ์ฃผ์ ์์ด ์ผ์ ๋ฐ์ด๋ค์ด ์ฑ๊ณผ๋ฅผ ์ด๋ฃจ๊ณ ์ ํ๋ ๊ณผ๊ฐ์ฑ์ด, ๋ฐ๋ก ์ฟ ํก์ด ์ผํ๋ ๋ฐฉ์์ ๋ณธ์ง์ ๋๋ค. ์ฟ ํก์์๋ ์ฌ๋ฌ๋ถ ์์ , ๋๋ฃ, ํ ๊ทธ๋ฆฌ๊ณ ํ์ฌ ์ ์ฒด๊ฐ ๋งค์ผ ์ฑ์ฅํ๋ ๋ชจ์ต์ ๋ชฉ๊ฒฉํ ๊ฒ์ ๋๋ค.
์ฟ ํก์ ๋ชจ๋ ์ง์์ ์ปค๋จธ์ค์ ๋ฏธ๋๋ฅผ ๋ง๋ค๊ฒ ๋ค๋ ์ฟ ํก์ ๋ฏธ์ ์ ์ง์ฌ์ ๋๋ค. ์ฐ๋ฆฌ๋ ๊ณ ๊ฐ์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํด ๋๊ฐ๊ณ , ์ ํต์ ์ธ ๊ด๋ ๊ณผ ํต๋ ์ ๋ง์๋ฉฐ ์คํ ๊ฐ๋ฅํ ํ๊ณ๋ฅผ ๋ฐ์ด๋๊ณ ์์ต๋๋ค. ๊ณ ๊ฐ์ฉ์ฑ (always-on) ๊ณผ ์ต์ฒจ๋จ์ ์์ ๊ธฐ์ (high-tech), ์ด์ฐ๊ฒฐ์ฌํ (hyper-connected world) ์์์ ๋๋ผ์ด ์ ๋ฌด ๊ฒฝํ์ ์ํ์ ๋ค๋ฉด, ์ง๊ธ ๋ฐ๋ก ์ฟ ํก์ ํฉ๋ฅํ์ธ์.
์ง๋ฌด ์๊ฐ
- ์ฟ ํก์ ๋ชจ๋ ๊ณ ๊ฐ ๋์ ์๋น์ค์ ์์ ์ฑ, ์ํ, ์ฑ๋ฅ์ ์ฑ ์์ง๋ ์ฃผ์ ๋ด๋น์๋ก ์ญํ ์ํ
- ์ฟ ํก ์ ํ๋ฆฌ์ผ์ด์ ์ ์ํฌํ๋ก์ฐ์ ์์กด์ฑ์ ๋ํ ๊น์ ์ดํด ํ๋ณด
- ์์คํ ๊ฐ์ฉ์ฑ, ์ฑ๋ฅ, ์์ ์ฑ๊ณผ ๊ด๋ จ๋ KPI ๋ฐ SLO ์ ์ ๋ฐ ๊ด๋ฆฌ
- ์ ์ํ ์ฅ์ ๋ณต๊ตฌ, ์ด์ ๋ฆฌ๋ทฐ ๋ฐ ์ฌํ ๋ถ์์ ํฌํจํ Incident Management ํ๋ก์ธ์ค ๋ฐ ์๋ํ ๊ตฌ์ถ
- ํจ๊ณผ์ ์ธ ๋ชจ๋ํฐ๋ง, ์๋ฆผ, ํ ๋ ๋ฉํธ๋ฆฌ ์์คํ ๊ตฌ์ถ ๋ฐ ์ด์์ ์ํ ๋ฒ ์คํธ ํ๋ํฐ์ค ์๋ฆฝ
- ์๋น์ค ์ฑ์ฅ์ ๋๋นํ๊ธฐ ์ํ ์ ๊ธฐ์ ์ธ Disaster Recovery ํ ์คํธ ๋ฐ Load Testing ์๋ํ ๊ตฌ์ถ
- ์ ํ ๊ฐ๋ฐ ํ๊ณผ ๊ธด๋ฐํ ํ๋ ฅํ์ฌ ํ์ฅ์ฑ๊ณผ ์ด์ ์ฉ์ด์ฑ์ ๊ณ ๋ คํ ์ค๊ณ ๊ตฌํ
- ์๋น์ค ์์ ์ฑ์ ์ ์งํ๊ธฐ ์ํ ํ๋ก๋์ ๋ฐฐํฌ ๊ฐ๋๋ ์ผ ๋ฐ ์๋ํ ๊ตฌ์ถ
- 24x7 ์จ์ฝ ๋กํ ์ด์ ์ฐธ์ฌ ๋ฐ ๋น ๋ฅธ ์๋์ ํ๊ฒฝ์์ ๋ฌธ์ ๋์
- ์กฐ์ง ๋ด ๋ค์ํ ๋ ๋ฒจ๊ณผ ํจ๊ณผ์ ์ผ๋ก ์ปค๋ฎค๋์ผ์ด์
์๊ฒฉ ์๊ฑด
- ๋๊ท๋ชจ ๋ถ์ฐ ์์คํ ๊ตฌ์ถ ๋ฐ ์ด์ ๊ฒฝ๋ ฅ 5๋ ์ด์
- UNIX/Linux ์์คํ ์ ๋ํ ๊น์ ์ดํด์ ์ด์ ๊ฒฝํ
- Python, Java, Golang, Ruby ์ค ํ๋ ์ด์์ ํ๋ก๊ทธ๋๋ฐ ์ญ๋
- ์์คํ , ๋คํธ์ํฌ(TCP/IP), ์ฝ๋ ์ ๋ฐ์ ๊ฑธ์น ๋ฌธ์ ํด๊ฒฐ ๋ฐ ๋ถ์ ๋ฅ๋ ฅ (๋ฐ์ดํฐ ๊ธฐ๋ฐ ์์ฌ๊ฒฐ์ ํฌํจ)
- AWS, Azure, Google Cloud Platform ๋ฑ ํด๋ผ์ฐ๋ ์ธํ๋ผ ๊ฒฝํ
- CI/CD, IaC ๋ฑ DevOps ๋ฐ SRE ๊ด๋ จ ์ค๋ฌด ์ดํด (Terraform ์ฌ์ฉ ๊ฒฝํ ์ฐ๋)
- Docker, Kubernetes ๋ฑ ์ปจํ ์ด๋ ๋ฐ ์ค์ผ์คํธ๋ ์ด์ ๊ธฐ์ ๊ฒฝํ
- ๋ค์ํ ์กฐ์ง๊ณผ ๊ธฐ์ ์์ญ ๊ฐ ํ์ ์ด ๊ฐ๋ฅํ ์ปค๋ฎค๋์ผ์ด์ ์ญ๋
- Prometheus, Grafana, Elastic Stack, Datadog, New Relic ๋ฑ Observability ๋๊ตฌ ๊ฒฝํ
์ฐ๋ ์ฌํญ
- ์ปดํจํฐ๊ณตํ, ์์ง๋์ด๋ง ๋๋ ๊ด๋ จ ๋ถ์ผ ํ์ฌ ํ์
- ๋๊ท๋ชจ ์น ๊ธฐ๋ฐ Java ์ํคํ ์ฒ ๋ฐ JVM ์ค์ ๊ฒฝํ
- ํด๋ผ์ฐ๋, ๋ชจ๋ํฐ๋ง ๋ฑ ๊ด๋ จ ๊ธฐ์ ์๊ฒฉ์ฆ ๋ณด์
- ๋๊ท๋ชจ ์ด์ปค๋จธ์ค ํ๋ซํผ ๊ฒฝํ
๊ทผ๋ฌด์ง: ์ฟ ํก ์ ๋ฆ ์คํผ์ค
์ ํ ์ ์ฐจ ๋ฐ ์๋ด ์ฌํญ
- ์ ํ์ ์ฐจ
- ์๋ฅ์ ํ(์๋ฌธ์ด๋ ฅ์ ์ ์ถ) - ํ์๊ธฐ์ ๋ฉด์ โ ์ต์ข ํฉ๊ฒฉ
- ์ ํ์ ์ฐจ๋ ์ง๋ฌด๋ณ๋ก ๋ค๋ฅด๊ฒ ์ด์๋ ์ ์์ผ๋ฉฐ, ์ผ์ ๋ฐ ์ํฉ์ ๋ฐ๋ผ ๋ณ๋๋ ์ ์์ต๋๋ค.
- ์ ํ ์ผ์ ๋ฐ ๊ฒฐ๊ณผ๋ ์ง์์์ ๋ฑ๋กํ์ ์ด๋ฉ์ผ๋ก ๊ฐ๋ณ ์๋ด ๋๋ฆฝ๋๋ค.
- ์ฐธ๊ณ ์ฌํญ
- ๋ณธ ๊ณต๊ณ ๋ ๋ชจ์ง ์๋ฃ ์ ์กฐ๊ธฐ ๋ง๊ฐ๋ ์ ์์ต๋๋ค.
- ์ง์์ ๋ด์ฉ ์ค ํ์์ฌ์ค์ด ์๋ ๊ฒฝ์ฐ์๋ ํฉ๊ฒฉ์ด ์ทจ์๋ ์ ์์ต๋๋ค.
- ์ทจ์ ๋ณดํธ ๋์์(๋ณดํ๋์์, ์ฅ์ ์ธ ๋ฑ)๋ ๊ด๋ จ ๋ฒ๋ฅ ์ ๋ฐ๋ผ ์ฑ์ฉ์ฐ๋๋ฅผ ๋ฐ์ ์ ์์ต๋๋ค.
- ์ง๊ธ๊ณผ ๋ด๋น ์ ๋ฌด ๋ฒ์๋ ํ๋ณด์์ ์ ๋ฐ์ ์ธ ๊ฒฝ๋ ฅ๊ณผ ๊ฒฝํ ๋ฑ ์ ๋ฐ์ฌ์ ์ ๊ณ ๋ คํ์ฌ ๋ณ๊ฒฝ๋ ์ ์์ต๋๋ค. ์ด๋ฌํ ๋ณ๊ฒฝ์ด ํ์ํ ๊ฒฝ์ฐ, ์ต์ข ํฉ๊ฒฉ ํต์ง ์ ์ ์ ํ ์๊ธฐ์ ํ๋ณด์์ ์ปค๋ฎค๋์ผ์ด์ ๋ ์์ ์ ๋๋ค.
- ์ฑ์ฉ ๋ฐ ์ ๋ฌด ์ํ๊ณผ ๊ด๋ จํ์ฌ ์๊ตฌ๋๋ ๋ฒ๋ น์ ์๊ฒฉ์ด ๊ฐ์ถ์ด์ง์ง ์์ ๊ฒฝ์ฐ ์ฑ์ฉ์ด ์ ํ๋ ์ ์์ต๋๋ค.
๊ฐ์ธ์ ๋ณด ์ฒ๋ฆฌ๋ฐฉ์นจ
- ์ฟ ํก ๊ทธ๋ฃน์ ์ ์ฌ์ง์์ ๊ฐ์ธ์ ๋ณด ์ฒ๋ฆฌ๋ฐฉ์นจ(์๋ ๋งํฌ)์ ๋ฐ๋ผ ๊ทํ์ ๊ฐ์ธ์ ๋ณด๋ฅผ ์์งํ์ฌ ์ฒ๋ฆฌํฉ๋๋ค. https://www.coupang.jobs/kr/privacy-policy/
์๋ฅ ๋ฐํ ์ ์ฑ
- ๋ณธ ๊ณ ์ง๋ ใ์ฑ์ฉ์ ์ฐจ์๊ณต์ ํ์๊ดํ๋ฒ๋ฅ ใ ์ 11์กฐ์ 6ํญ์ ๋ฐ๋ฅธ ๊ฒ ์ ๋๋ค.
- ๋น์ฌ ์ฑ์ฉ์ ์์ํ ๊ตฌ์ง์ ์ค ์ต์ข ํฉ๊ฒฉ์ด ๋์ง ๋ชปํ ๊ตฌ์ง์๋ ใ์ฑ์ฉ์ ์ฐจ์ ๊ณต์ ํ์ ๊ดํ ๋ฒ๋ฅ ใ์ ๋ฐ๋ผ ์ ์ถํ ์ฑ์ฉ์๋ฅ์ ๋ฐํ์ ์ฒญ๊ตฌํ ์ ์์์ ์๋ ค ๋๋ฆฝ๋๋ค. ๋ค๋ง, ํํ์ด์ง ๋๋ ์ ์์ฐํธ์ผ๋ก ์ ์ถ๋ ๊ฒฝ์ฐ๋ ๊ตฌ์ง์๊ฐ ๋น์ฌ์ ์๊ตฌ ์์ด ์๋ฐ์ ์ผ๋ก ์ ์ถํ ๊ฒฝ์ฐ์๋ ๊ทธ๋ฌํ์ง ์๋ํ๋ฉฐ, ์ฒ์ฌ์ง๋ณ์ด๋ ๊ทธ ๋ฐ์ ๋น์ฌ์๊ฒ ์ฑ ์ ์๋ ์ฌ์ ๋ก ์ฑ์ฉ์๋ฅ๊ฐ ๋ฉธ์ค๋ ๊ฒฝ์ฐ์๋ ๋ฐํํ ๊ฒ์ผ๋ก ๋ด ๋๋ค.
- ์2ํญ ๋ณธ๋ฌธ์ ๋ฐ๋ผ ์ฑ์ฉ ์๋ฅ ๋ฐํ ์ฒญ๊ตฌ๋ฅผ ํ๋ ๊ตฌ์ง์๋ ์ฑ์ฉ ์๋ฅ ๋ฐํ ์ฒญ๊ตฌ์ [์ฑ์ฉ์ ์ฐจ์ ๊ณต์ ํ์ ๊ดํ ๋ฒ๋ฅ ์ํ๊ท์น ๋ณ์ง ์ 3 ํธ ์์]๋ฅผ ์์ฑํ์ฌ ์ด๋ฉ์ผ (recruitingops@coupang.com) ๋ก ์ ์ถํ๋ฉด, ์ ์ถ์ด ํ์ธ๋ ๋ ๋ก๋ถํฐ 14 ์ผ ์ด๋ด์ ์ง์ ํ ์ฃผ์์ง๋ก ๋ฑ๊ธฐ์ฐํธ์ ํตํ์ฌ ๋ฐ์กํด ๋๋ฆฝ๋๋ค. ์ด ๊ฒฝ์ฐ ๋ฑ๊ธฐ์ฐํธ์๊ธ์ ์์ ์ ๋ถ๋ด์ผ๋ก ํ๊ฒ ๋์ค๋ ์ ๋ ํ์๊ธฐ ๋ฐ๋๋๋ค.
- ๋น์ฌ๋ ์2ํญ ๋ณธ๋ฌธ์ ๋ฐ๋ฅธ ๊ตฌ์ง์์ ๋ฐํ ์ฒญ๊ตฌ์ ๋๋นํ์ฌ ์ฑ์ฉ ์ฌ๋ถ๊ฐ ํ์ ๋ ๋ ๋ก๋ถํฐ 180 ์ผ๊ฐ ๊ตฌ์ง์๊ฐ ์ ์ถํ ์ฑ์ฉ์๋ฅ ์๋ณธ์ ๋ณด๊ดํ๊ฒ ๋๋ฉฐ, ๊ทธ๋๊น์ง ์ฑ์ฉ์๋ฅ์ ๋ฐํ์ ์ฒญ๊ตฌํ์ง ์๋ํ ๊ฒฝ์ฐ์๋ ใ๊ฐ์ธ์ ๋ณด ๋ณดํธ๋ฒใ์ ๋ฐ๋ผ ์ง์ฒด ์์ด ์ฑ์ฉ์๋ฅ ์ผ์ฒด๋ฅผ ํ๊ธฐํ ์์ ์ ๋๋ค.
- ๋จ, ์ 1ํญ ๋ด์ง 4ํญ์ ๋ด์ฉ์ ๋ํ๋ฏผ๊ตญ์ ๋ ธ๋ ๊ด๊ณ ๋ฒ๋ น์ด ์ ์ฉ๋๋ ๊ฒฝ์ฐ์๋ง ์ ์ฉ๋ฉ๋๋ค. ๊ทธ ์ด์ธ์ ๊ฒฝ์ฐ์๋ ์ ์ฉ๋์ง ์์ต๋๋ค.
๋ฐ๋์ ์ฒจ๋ถ๋ ์๋ฌธ โ์ฌ๋ด๊ณต๋ชจ์ง์์ ์์โ์ ์์ฑ ํ ์ ์ถํ์ฌ ์ฃผ์๊ธฐ ๋ฐ๋๋๋ค.
Please complete the attached Internal Transfer Request Form and submit.
๋ฐ๋์ ์ฟ ํก ์ด๋ฉ์ผ ๊ณ์ ์ผ๋ก ์ง์ํด ์ฃผ์๊ธฐ ๋ฐ๋๋๋ค.
Please make sure to apply with your Coupang e-mail address.
About the Role:
Site Reliability Engineers (SREs) at Coupang is a mission-critical role which combines software and system engineering to build, run and scale our complex, large-scale ecommerce systems. As part of the Site Reliability Engineering team, you will be responsible for ensuring all our customer facing services are healthy, monitored, automated, and designed to scale. As SRE organization we take pride in handling โoperations as an engineeringโ problem with automation first approach. You will use your background to build best in class infrastructure automation for areas such as Observability, Incident management, Disaster Recovery, Load testing, Capacity engineering and many more. In this role you will work very closely with our product development teams from an early stage of design to all the way helping resolve any production incidents, maintaining SLI/SLA bar for production services and influencing them with SRE principles and best practices. If you take pride in complete ownership, have a passion for solving complex technical challenges for large scale distributed systems and demeanor to work and communicate effectively across team boundaries, this is the role for you!
Key Responsibilities:
ยท Serve as a primary point responsible for the reliability, health, and performance of all Coupang customer-facing services.
ยท Gain deep knowledge of Coupang application workflow and dependencies.
ยท Define and track key performance indicators (KPIs) and service-level objectives (SLOs) related to system availability, performance, and reliability.
ยท Build world class incident management process and automation, including fast incident remediation, incident operational reviews and retrospectives.
ยท Develop and implement best practices for creating and maintaining effective monitoring, alerting, and telemetry systems.
ยท Build automation to execute regular Disaster Recovery testing and load testing to stay ahead of expected growth of Coupang services.
ยท Work closely with product development teams to ensure the products are designed with scale and operability in mind.
ยท Build right guardrails and automation for deploying production changes holding the reliability bar.
ยท Participate in a 24x7 rotation for production issue escalations, functions well in a fast-paced environment.
ยท Communicate effectively with people at all levels of the organization.
Essential Qualifications:
ยท 5+ years of industry experience building and operating large scale distributed systems.
ยท Deep UNIX/Linux systems knowledge and administration background.
ยท Demonstrated programming skills in one or more of: Python, Java, Golang, Ruby.
ยท Strong problem-solving and analytical skills spanning systems, network (TCP/IP) and code, with a focus on data-driven decision-making.
ยท Experience with cloud-based infrastructure, including AWS, Azure, or Google Cloud Platform.
ยท Strong understanding of DevOps and SRE practices, including continuous integration, continuous delivery, and infrastructure as code (IaC). Experience with Terraform is a plus.
ยท Experience with containerization and orchestration technologies, such as Docker and Kubernetes.
ยท Excellent communication and collaboration skills, with the ability to work with teams across distinct functions and technical domains.
ยท Knowledge of observability ecosystem including metrics, logging, tracing and tools, such as Prometheus, Grafana, Elastic Stack, Datadog, or New Relic.
Preferred Qualifications:
ยท Bachelor's degree in computer science, engineering, or a related technical field.
ยท Prior experience working with large scale web-based Java architectures and JVM configuration.
ยท Professional certifications in cloud platforms, monitoring tools, or related technologies.
ยท Previous experience working on a large-scale eCommerce platform.
Office: Seoul, Korea


