Python 문자열에 하위 문자열이 포함되어 있는지 확인하는 방법

2023. 12. 17. 10:26python/basic

Python 문자열에 다른 문자열이 포함되어 있는지 확인하는 방법
이 단위에서는 멤버십 연산자 in를 사용하여 이 작업을 처리하는 가장 Python적인 방법에 중점을 둘 것입니다. 또한 관련되어 있지만 서로 다른 사용 사례에 대해 올바른 문자열 메소드를 식별하는 방법을 배우게 됩니다.

마지막으로 Pandas 열에서 하위 문자열을 찾는 방법도 알아봅니다. 이는 CSV 파일의 데이터를 검색해야 하는 경우에 유용합니다. 다음 섹션에서 배우게 될 접근 방식을 사용할 수 있지만 표 형식으로 작업하는 경우 데이터를 pandas DataFrame에 로드하고 pandas에서 하위 문자열을 검색하는 것이 가장 좋습니다.

raw_file_content = """Hi there and welcome.
This is a special hidden file with a SECRET secret.
I don't want to tell you The Secret,
but I do want to secretly tell you that I have one."""

"secret" in raw_file_content

True
in 멤버십 연산자는 문자열에 하위 문자열이 있는지 확인하는 빠르고 읽기 쉬운 방법을 제공합니다.

참고: 하위 문자열이 문자열에 없는지 여부를 확인하려면 다음을 수행하세요. not in:를 사용할 수 있습니다.

"secret" not in raw_file_content

False
in을 사용하면 표현식은 부울 값을 반환합니다. - True : Python이 하위 문자열을 찾은 경우 - False : Python이 하위 문자열을 찾지 못한 경우

조건문에서 다음과 같은 직관적인 구문을 사용하여 코드에서 결정을 내릴 수 있습니다.

if "secret" in raw_file_content:
    print("Found!")

Found!
참고: Python은 빈 문자열을 항상 다른 문자열의 하위 문자열으로 간주하므로 다음을 확인하세요. 문자열의 빈 문자열은 True 을 반환합니다.

"" in "secret"

True
대소문자 구분을 제거하여 검사를 일반화하세요
Python 문자열은 대소문자를 구분합니다. 제공한 하위 문자열이 텍스트의 동일한 단어와 다른 대문자 사용을 사용하는 경우 Python은 해당 단어를 찾지 않습니다.

title_cased_file_content = """Hi There And Welcome.
This Is A Special Hidden File With A Secret Secret.
I Don't Want To Tell You The Secret,
But I Do Want To Secretly Tell You That I Have One."""

"secret" in title_cased_file_content

False
전체 입력 텍스트를 소문자로 변환하여 하위 문자열 검사를 일반화할 수 있습니다.

file_content = title_cased_file_content.lower()

print(file_content)

hi there and welcome.
this is a special hidden file with a secret secret.
i don't want to tell you the secret,
but i do want to secretly tell you that i have one.
"secret" in file_content

True
하위 문자열에 대해 자세히 알아보기
문자열에서 하위 문자열이 나타나는 위치를 알아야 하는 경우 문자열 개체에 .index()을 사용할 수 있습니다.

file_content = """hi there and welcome.
this is a special hidden file with a secret secret.
i don't want to tell you the secret,
but i do want to secretly tell you that i have one."""

file_content.index("secret")

59
참고: Python이 하위 문자열을 찾을 수 없는 경우 .index()는 ValueError 예외를 출력합니다.

메소드는 검색을 시작할 인덱스 위치를 정의할 수 있는 두 번째 인수도 사용합니다. 특정 색인 위치를 전달하면 이미 식별한 하위 문자열을 건너뛸 수 있습니다.

file_content.index("secret", 60)

66
.count() 사용하면 신속하게 설명적이고 관용적인 Python 코드를 얻을 수 있습니다.

file_content.count("secret")

4
기본 단어 테두리에서 텍스트를 분할하고 for 루프를 사용하여 터미널에 단어를 인쇄하여 모든 하위 문자열을 검사할 수 있습니다.

for word in file_content.split():
   if "secret" in word:
      print(word)

secret
secret.
secret,
secretly
참고: 하위 문자열을 인쇄하는 대신, 예를 들어 조건식과 함께 목록 이해를 사용하여 하위 문자열을 새 목록에 저장할 수도 있습니다.

[word for word in file_content.split() if "secret" in word]

['secret', 'secret.', 'secret,', 'secretly']
Regex를 사용하여 조건이 포함된 하위 문자열 찾기
import re

file_content = """hi there and welcome.
this is a special hidden file with a secret secret.
i don't want to tell you the secret,
but i do want to secretly tell you that i have one."""

re.search(r"secret\w+", file_content)

<re.Match object; span=(128, 136), match='secretly'>
re.search() 함수는 단지 True가 아니라 조건과 일치하는 하위 문자열과 시작 및 끝 인덱스 위치를 모두 반환합니다!

그런 다음 객체의 메소드를 통해 이러한 속성에 액세스할 수 있습니다.

m = re.search(r"secret\w+", file_content)

m.group()

'secretly'
m.span()

(128, 136)
re.search(r"secret[\.,]", file_content)

<re.Match object; span=(66, 73), match='secret.'>
re을 사용하여 모든 일치 항목을 찾으려면 re.findall():를 사용하면 됩니다.

re.findall(r"secret[\.,]", file_content)

['secret.', 'secret,']
for match in re.finditer(r"(secret)[\.,]", file_content):
   print(match)

<re.Match object; span=(66, 73), match='secret.'>
<re.Match object; span=(103, 110), match='secret,'>
re.finditer()을 사용하여 검색 패턴과 텍스트 콘텐츠를 인수로 전달하면 다음과 같이 하위 문자열이 포함된 각 Match 개체에 액세스할 수 있습니다. 시작 및 끝 색인 위치도 포함됩니다.

for match in re.finditer(r"(secret)[\.,]", file_content):
   print(match.group(1))

secret
secret
Pandas DataFrame 열에서 하위 문자열 찾기
일반 텍스트 파일이나 사용자 입력이 아닌 CSV 파일 또는 Excel 시트인 경우 위에서 설명한 것과 동일한 접근 방식을 사용할 수 있습니다.

https://realpython.com/bonus/python-string-contains-substring-code 를 클릭하여 사용할 샘플 코드를 다운로드 하세요.

import pandas as pd

companies = pd.read_csv("companies.csv")

companies.shape

FileNotFoundError: [Errno 2] No such file or directory: 'companies.csv'
companies.head()

NameError: name 'companies' is not defined
참고: 가상 환경을 생성하고 하세요.

companies[companies.slogan.str.contains("secret")]

NameError: name 'companies' is not defined
companies[companies.slogan.str.contains(r"secret\w+")]

NameError: name 'companies' is not defined
주요 시사점
Python에서 문자열에 하위 문자열이 포함되어 있는지 확인하기 위해 사용하도록 권장되는 연산자는 in 멤버십 연산자입니다. 이 연산자는 문자열에 하위 문자열이 있는지 여부를 확인하는 빠르고 읽기 쉬운 방법을 제공합니다.

Python 문자열은 대소문자를 구분하므로 제공한 하위 문자열이 텍스트의 동일한 단어와 다른 대문자 사용을 사용하는 경우 Python이 해당 문자열을 찾지 못합니다. 전체 입력 텍스트를 소문자로 변환하면 대문자를 무시하고 하위 문자열 검사를 더욱 일반화할 수 있습니다.

Python의 .count() 및 .index() 문자열 메소드는 기본적으로 문자열에 하위 문자열이 포함되어 있는지 확인하기 위한 것이 아닙니다. . 대신 .count() 메소드를 사용하여 문자열에서 하위 문자열의 발생 횟수를 계산합니다. 반면에 .index() 메소드를 사용하면 하위 문자열이 처음 나타나는 첫 번째 문자의 색인 위치를 얻을 수 있습니다.

Python에서 고급 조건에 따라 하위 문자열을 찾으려면 Python의 re에서 정규식을 사용할 수 있습니다. 기준 치수. 정규 표현식을 사용하면 특정 하위 문자열로 시작하고 그 뒤에 최소한 하나의 추가 문자가 오는 모든 단어를 찾는 등 정교한 조건에 따라 하위 문자열을 검색할 수 있습니다.

pandas DataFrame의 어떤 항목에 하위 문자열이 포함되어 있는지 확인하려면 .str.contains() 메소드를 사용하세요. pandas 열을 만들고 하위 문자열을 인수로 전달합니다. 그러면 하위 문자열이 포함된 모든 행에 대해 True 값이 포함된 마스크가 반환되고, 그렇지 않으면 False 반환됩니다. 이 마스크를 사용하면 열에 하위 문자열이 포함된 행에 대해서만 DataFrame을 필터링할 수 있습니다.

출처 : https://realpython.com/python-string-contains-substring