개요
문자열에서 특정 문자 사이에 있는 문자들을 제거해보자.
re 라이브러리
문자열 제거는 re 라이브러리를 사용할 수 있다.
re.sub(삭제할 문자, "", 문자열)
간단한 예제로 특수문자 .
을 없애보자.
import re
text = "안녕하세요. 저는 #@이름#입니다."
text = re.sub("\.","",text)
print(text)
보시다시피 .
을 제거하려면 \.
형태로 제거해야한다..
은 정규표현식에서 '모두(all)'라는 의미를 가지기 때문에,
만약 그냥 .
을 매개변수로 넣게되면 모든 문자가 사라지게된다.
안녕하세요 저는 #@이름#입니다
특정 문자 사이에 있는 문자 제거
특정 문자 사이에 있는 문자를 제거하기 위해서는 정규표현식을 이용해야한다.
import re
text = "안녕하세요. 저는 #@이름#입니다."
text = re.sub("#@(.+?)#","",text)
print(text)
안녕하세요. 저는 입니다.
.
도 같이 지우려면 '또는(or)'의미를 가지는 |
문자를 사용한다.
import re
text = "안녕하세요. 저는 #@이름#입니다."
text = re.sub("#@(.+?)#|\.","",text)
print(text)
안녕하세요 저는 입니다
마무리
특정 문자 사이에 있는 문자를 제거하는 방법을 알아보았다.
해당 방법은 데이터 전처리 시 많이 사용하는 방법이다.
추후에 정규표현식에 관련된 내용을 추가하도록 하겠다.
'개발 > Python' 카테고리의 다른 글
[Python] 파이썬 특정 문자 패딩 (문자열, 정수 앞에 0 채우기) (0) | 2021.11.17 |
---|---|
[Python] python 스레드 처리 (0) | 2021.10.27 |
[Python] python 다중 공백 제거 (정규표현식) (0) | 2021.10.25 |