본문 바로가기

카테고리 없음

[I2S]SMILES란?

또한, Recurrent Neural Network을 활용하여 분자구조를 문자로 변환한 SMILES (Simplified Molecular Input Line Entry System)

 

QSAR에서 분자 구조를 설명 인자로 사용하는 방법은 데이터의 형태에따라서 3가지로구분할수가있다. 첫째는문자열로표현하는 방법으로, 분자 구조를 1차원 문자열(SMILES, Simplified Molecular Input Line Entry System)로 표시하여 사용하는 방법이 있다. 두 번 째는 분자 구조를 그림 자체로 해석하는 경우가 있다. 별도의 프로 그램을 통하여 2차원이나 3차원 분자 구조를 만든 다음에 그림의 축을 움직이면서 다양한 그림을 추출하여 사용하는 방법이 있다. 세 번째는 숫자 데이터인 분자의 양자 역학적 계산 결과인, 2차원 또는 3차원 특성값을 나타내는 방법이 있다. 본 방법은 특히 DFT 나 MD와 같은 고급 계산화학 방법을 사용하여 계산된 결과로 분자 의 특성을 잘 나타내는 것으로 알려져서 널리 활용이 되고 있으며, 이를 사용하여 실험 특성값을 설명할 수 있는 다양한 설명 인자를 발굴하는 연구가 진행되고 있다. 그러나, 1차원이나 2차원의 특성 값은 계산에 1초 이내가 소요되지만, 3차원 특성값의 경우에는 12 시간씩 소요되는 문제가 있어서, 고려해야 하는 신규 분자 구조가 많은 경우에는 계산 시간의 제약으로 원하는 모든 탐색이 가능하지 못하게 되는 문제가 있다

 

데이터 관리 측면에서 다루기 쉽도록 분자구조를 단순화하여 문자 열로 변환하는 SMILES를 활용하였다[10].

 

orsa를 통해서 image를 smiles로 바꿀 수 있는듯.

https://cactus.nci.nih.gov/cgi-bin/osra/index.cgi

 

OSRA: Optical Structure Recognition

Powered by OSRA 2.1.0. For the most recent version of OSRA visit https://sourceforge.net/projects/osra/ . How to use: Select the file you want to process and click the "Submit" button. Any of the over 90 image formats recognized by ImageMagick including GI

cactus.nci.nih.gov

 

 

10. Weininger, D., “SMILES, a Chemical Language and Information System, 1. Introduction to Methodology and Encoding Rules,” Journal of Chemical Information and Computer Sciences, 28(1), 31-36(1988).

 

11. Landrum, G., “Rdkit”, Open-source cheminformatics(2006).

 

 

SMILES, a Chemical Language and Information System.

1. Introduction to Methodology and Encoding Rules DAVID WEININGER Medicinal Chemistry Project, Pomona College, Claremont, California 91 7 11 Received June 17, 1987

 

SMILES (Simplified Molecular Input Line Entry System) is a chemical notation system designed for modern chemical information processing. Based on principles of molecular graph theory, SMILES allows rigorous structure specification by use of a very small and natural grammar. The SMILES notation system is also well suited for high-speed machine processing. The resulting ease of usage by the chemist and machine compatability allow many highly efficient chemical computer applications to be designed including generation of a unique notation, constant-speed (zerceth order) database retrieval, flexible substructure searching, and property prediction models

 

스마일즈(Smimplified Mole Input Line Entry System)는 현대 화학 정보 처리를 위해 설계된 화학 표기 시스템이다. 스마일리는 분자 그래프 이론의 원리를 바탕으로 매우 작고 자연스러운 문법을 사용하여 엄격한 구조 사양을 가능하게 한다. 스마일즈 표기법은 고속 기계 가공에도 잘 맞는다. 화학자와 기계의 호환성에 의한 사용 편의성은 고유한 표기법, 일정한 속도(자체 순서) 데이터베이스 검색, 유연한 하부구조 검색특성 예측 모델을 포함하여 많은 고효율 화학 컴퓨터 응용프로그램을 설계할 수 있도록 한다.

 

 

 

 

INTRODUCTION 
The first step in the formalization of chemistry is to name a chemical compound. This requires an unambiguous and reproducible notation for the simplest atom to the most complicated structure. All other chemical information procedures follow from the fundamental process of chemical nomenclature. Consequently, the improvement of chemical notation has been an ongoing endeavor, amply documented in the pages of this journal.

소개
화학 공식화의 첫 단계는 화학 화합물의 이름을 짓는 것이다. 이것은 가장 단순한 원자를 가장 복잡한 구조로 만들기 위해 명확하고 재현 가능한 표기법을 필요로 한다. 다른 모든 화학적 정보 절차는 화학적 명명법의 기본적인 프로세스로부터 따른다. 결과적으로, 화학 표기법의 개선은 이 저널의 페이지에 충분히 기록되어 있는 지속적인 노력이었다.
Wiswesser described the historical development of chemical nomenclature from the beginning of chemistry as a rudimentary science to the start of the computer era. When computers opened up the processing and storage of chemical information, this depended on the description of chemical structure. Morgan developed a technique for generation of unique machine description from which followed the CAS (Chemical Abstracts SeMce) ONLINE search system? Other important advances were the application of graph theory to chemical notation and chemical substructure search sys-terns. The uniqueness of chemical information has also been considered from a theoretical point of view.


비스웨서는 화학적 명명법의 역사적 발전을 화학의 시작부터 컴퓨터 시대의 시작까지의 기초과학이라고 묘사했다. 컴퓨터가 화학 정보의 처리와 저장을 열었을 때, 이것은 화학 구조의 설명에 달려 있었다. Morgan은 CAS(Chemical Obstracts SemCe) 온라인 검색 시스템을 따르는 독특한 기계 설명 생성 기술을 개발했다. 다른 중요한 발전은 화학적 표기법과 화학적 하부구조 검색 시스템에 그래프 이론을 적용하는 것이었다. 화학 정보의 고유성 또한 이론적인 관점에서 고려되었다.

 

With the introduction of computers, line notation became widely used in chemical nomenclature because computers can process linear strings of data with relative ease. Line notation serves as the basis of the International Union of Pure and Applied Chemistry (IUPAC) notation system. It is described by Read" in general terms in relation to graph-theoretical concepts. Read lists 12 attributes considered desirable in a chemical coding system. In 1983 many of these attributes were incompatible with each other. In the few intervening years, however, advances in computer technology have accelerated so that they are overcoming the incremental increase of chemical information. Computer technology and chemical knowledge are now at a point where it is possible to store all of the extant chemical information on existing hardware. The chemical information problem of just getting a machine to store information is largely historical. Current and future efforts must be directed to building highly efficient systems that provide chemically relevant information as needed. For this purpose, a new chemical language and ancillary computer programs are being developed, which are based on the new information system SMILES (Simplified Molecular Input Line System).12 This paper introduces the methodology and encoding rules used by the SMILES system.



컴퓨터의 도입과 함께, 선 표기법은 컴퓨터가 상대적으로 쉽게 데이터의 선형 문자열을 처리할 수 있기 때문에 화학적 명명법에서 널리 사용되게 되었다.

선 표기법은 국제 순수 및 응용 화학 연합(IUPAC) 표기법의 기초가 된다. 그것은 그래프이론적 개념과 관련하여 일반적인 용어로 "읽기"로 설명된다. Read에는 화학적 부호화 시스템에서 바람직한 것으로 간주되는 12가지 속성이 나열되어 있다.

1983년에 이러한 속성들 중 많은 것들이 서로 호환되지 않았다. 그러나 몇 년 사이에 컴퓨터 기술의 발전은 가속화되어 화학 정보의 증가 추세를 극복하고 있다. 컴퓨터 기술과 화학 지식은 현재 현존하는 모든 화학 정보를 기존 하드웨어에 저장할 수 있는 시점에 와 있다. 단지 정보를 저장하기 위해 기계를 얻는 것의 화학적 정보 문제는 대부분 역사적이다. 현재와 미래의 노력은 필요에 따라 화학적으로 관련된 정보를 제공하는 고효율 시스템을 구축하는 데 초점을 맞추어야 한다. 이를 위해 새로운 정보시스템 스마일즈(Smimplified Mole Input Line System)를 기반으로 한 새로운 화학언어와 보조컴퓨터 프로그램이 개발되고 있다. 본 논문은 스마일즈 시스템에서 사용하는 방법론과 인코딩 규칙을 소개한다.

 

SMILES: OBJECTIVES AND APPROACH

SMILES is a chemical notation language specifically designed for computer use by chemists. It is easily accessible to chemists, yet flexible enough to allow interpretation and generation of chemical notation independent of the specific computer system in use. Similar to conventional chemical notation, it improves on conventional software methods by greater speed and better use of computer capacity. Molecular structures are uniquely and accurately specified and can be used with chemical databases. Among several approaches to computerized chemical notation, line notation is popular because it represents molecular structure by a linear string of symbols, similar to natural language.


스마일즈는 화학자들에 의해 컴퓨터 사용을 위해 특별히 고안된 화학 표기 언어다. 그것은 화학자들이 쉽게 접근할 수 있지만, 사용 중인 특정 컴퓨터 시스템과 무관하게 화학 표기법을 해석하고 생성할 수 있을 만큼 충분히 유연하다. 기존의 화학 표기법과 유사하게, 그것은 더 빠른 속도와 더 나은 컴퓨터 용량 사용에 의해 전통적인 소프트웨어 방법을 개선한다. 분자 구조는 독특하고 정확하게 지정되어 있으며 화학 데이터베이스와 함께 사용될 수 있다. 컴퓨터 화학 표기법에 대한 여러 접근법 중에서 선 표기법은 자연어와 유사한 기호들의 선형 끈에 의한 분자 구조를 나타내기 때문에 인기가 있다.

The Wiswesser Line Notation is the most widely used representative of this method. It meets the essential requirements for a deterministic chemical notation, but it is difficult to use because many rules must be followed to generate the correct notation of a complex structure. To overcome this and other difficulties, the SMILES system was designed to be truly computer interactive.

The simplicity of its use is based on computer programs that rigorously recode the chemical user’s input. It is the result of achieving the following original objectives:
(1) The graph of a chemical structure was to be uniquely described, including but not limiting it to the molecular graph comprising nodes (atoms) and edges (bonds).
(2) A user-friendly structure specification was to be provided, so that all input rules could be learned quickly and naturally.
(3) A machine-friendly and machine-independent system was to be designed for interpretation and generation of a unique notation. Unlike other chemical notation systems, brevity of notation and economy of alphabet were not primary objectives. Many of the pitfalls in other line notations can be attributed to overuse of symbols and hierarchical rules based on the length of the final notation. Advances in computer hardware have made these restrictions obsolete. The present approach separates the unambiguous but general description of a chemical structure (by the chemist-user) from the generation of the unique structural description (by the computer). The latter requires rules and hierarchies that are inherently difficult for the chemist. This task is, therefore, relegated to computer algorithms.

와이즈웨서 선 표기법은 이 방법에서 가장 널리 사용되는 방법이다. 결정론적 화학 표기법에 대한 필수 요건을 충족하지만, 단지의 정확한 표기법을 생성하기 위해서는 많은 규칙을 따라야 하기 때문에 사용이 어렵다.

구조물을 만들다 이것과 다른 어려움들을 극복하기 위해, 스마일즈 시스템은 진정으로 컴퓨터 상호작용이 가능하도록 설계되었다.

이것의 사용의 단순성은 화학 사용자의 입력을 엄격히 재귀화하는 컴퓨터 프로그램에 기초한다. 다음과 같은 원래의 목적을 달성한 결과다.

(1) 화학적 구조의 그래프는 노드(atoms)와 가장자리(bonds)로 구성된 분자 그래프에 제한하지 않고 포함하되 이를 고유하게 기술하도록 하였다.

(2) 모든 입력 규칙을 빠르고 자연스럽게 학습할 수 있도록 사용자에게 친숙한 구조 사양을 제공하기로 하였다.

(3) 기계에 친화적이고 기계에 독립적인 시스템은 고유한 표기법을 해석하고 생성하도록 설계되었다.

다른 화학적 표기법과 달리 표기법의 간결성과 알파벳의 경제성은 주요 목적이 아니었다. 다른 행 표기법에서 함정의 많은 부분은 최종 표기법의 길이에 근거한 기호와 계층적 규칙의 과다한 사용으로 간주될 수 있다.

컴퓨터 하드웨어의 발달로 이러한 제한은 쓸모없게 되었다. 현재의 접근방식은 화학적 구조에 대한 명확하지만 일반적인 설명(화학자-사용자)과 독특한 구조설명의 생성(컴퓨터)을 구분한다. 후자는 화학자에게 본질적으로 어려운 규칙과 위계를 요구한다. 따라서 이 작업은 컴퓨터 알고리즘으로 밀려난다.

SMILES: SPECIFICATION RULES
SMILES denotes a molecular structure as a graph that is essentially the two-dimensional valence-oriented picture chemists draw to describe a molecule. This is an important simplification of chemical structure. No attempt is made to represent any particular three-dimensional arrangement of atoms. SMILES notation is a series of characters that ends with a space. Hydrogen atoms may be omitted (hydrogen-suppressed graphs) or included (hydrogen-complete graphs). Aromatic structures are specified directly in preference to the Kekuli form. Rules for generating SMILES for virtually any chemical structure are given in the following sections. The discussion will be limited to rules for specifying SMILES for chemical structures; specification of isomerisms, substructures, and unique SMILES generation are the subjects of following papers.

미소: 사양 규칙

스마일즈는 분자를 묘사하기 위해 기본적으로 2차원 발란스 지향 그림 화학자들이 그리는 그래프로 분자 구조를 나타낸다. 이것은 화학 구조의 중요한 단순화다. 원자의 특정한 3차원 배열을 나타내려는 어떠한 시도도 하지 않는다.

스마일즈 표기법은 공백으로 끝나는 일련의 문자다. 수소 원자는 생략(수소 억제 그래프)하거나 포함(수소 완전 그래프)할 수 있다.

방향족 구조는 케쿨리 형태에 우선하여 직접 지정된다. 사실상 모든 화학적 구조에 대한 스마일 생성 규칙은 다음 절에 제시되어 있다. 이 논의는 화학 구조물에 대해 스마일(SLIGHY)을 규정하는 규칙으로 제한될 것이다. 이소매즘, 하부구조, 고유 스마일(SLIGHY) 발생의 사양은 다음 논문의 주제들이다.

(1) Atom. Atoms are represented by their atomic symbols; this is the only required use of letters in SMILES. Each non-hydrogen atom is specified independently by its atomic symbol enclosed in square brackets. The second letter of two character symbols must be entered in lower case. Elements in the “organic subset”, B, C, N, 0, P, S, F, C1, Br, and I, may be written without brackets if the number of attached hydrogens conforms to the lowest normal valence consistent with explicit bonds. Atoms in aromatic rings are specified by lower case letters; e.g., normal carbon is represented by the letter C, aromatic carbon by c. Since attached hydrogens are implied in the absence of brackets, the following atomic symbols are valid SMILES notations

(1) 원자. 원자는 원자 기호로 표현된다.

이것은 스마일즈에서 유일하게 필요한 문자 사용이다. 각 비수소 원자는 대괄호로 둘러싸인 원자 기호로 독립적으로 지정된다. 두 문자 기호 중 두 번째 문자는 소문자로 입력해야 한다. "유기체 부분집합", B, C, N, 0, P, S, F, C1, Br, I의 원소는 부착된 하이드로겐의 수가 명시적 결합과 일치하는 최저 정상 용기에 부합하는 경우 괄호 없이 작성할 수 있다. 방향족 링의 원자는 소문자로 지정된다. 예를 들어, 정상 탄소는 문자 C로, 방향족 탄소는 문자 C로 표시된다. 부착된 하이드로겐은 대괄호가 없을 때 함축되어 있으므로, 다음과 같은 원자 기호는 유효한 스마일 표기법이다.

Elements not in the organic subset must be described in brackets, e.g.
유기 하위 집합에 포함되지 않는 요소는 예를 들어, 브래킷으로 설명해야 한다

Attached hydrogens and formal charges are always specified inside brackets. The number of attached hydrogens is shown by the symbol H followed by an optional digit. Similarly, a formal charge is shown by one of the symbols + or -, followed by an optional digit. If unspecified, the number of attached hydrogens and charges is assumed to be zero for an atom inside the bracket. Examples are

부착 하이드로겐과 형식 전하가 항상 브래킷 내부에 명시되어 있다. 부착된 수력발전소의 수는 기호 H와 선택적 숫자로 표시된다. 이와 유사하게, 공식 전하가 기호 + 또는 - 중 하나와 그 뒤에 선택적 숫자가 표시된다. 지정되지 않은 경우, 부착된 수력발전소와 충전물의 수는 브라켓 안에 있는 원자에 대해 0으로 가정한다. 예는 다음과 같다.
(2) Bonds. Single, double, triple, and aromatic bonds are represented by the symbols -, =, #, and :, respectively. Single and aromatic bonds may be, and usually are, omitted. Examples are
(2) 채권. 단일, 이중, 삼중, 방향족 결합은 각각 기호 -, =, #, 그리고 :로 표현된다. 단일 및 방향족 결합은 일반적으로 생략될 수 있다.
예는 다음과 같다.

선형 구조물의 경우, 스마일 표기법은 하이드로겐을 생략할 수 있다는 점을 제외하고 전통적인 도표 표기법에 해당한다. 예를 들어, 6-hydroxy-1 ,Chexadiene은 동일한 유효의 3가지 SLIES로 나타낼 수 있다.




(3) Branches. Branches are specified by enclosures in cp3 parentheses. Examples are
(3) 가지. 분기는 괄호 안에 인클로저로 지정된다. 예는 다음과 같다.
Branches can be nested or stacked, as shown for 3-propyl-4- isopropyl- 1 -heptene:
가지들은 3-프로필-4- 이소프로필- 1 -헵틴에 대해 표시된 것처럼 내포되거나 쌓일 수 있다.
(4) Cyclic Structures.
Cyclic structures are represented by breaking one single (or aromatic) bond in each ring. The bonds are numbered in any order, designating ring-opening (or ring-closure) bonds by a digit immediately following the atomic symbol at each ring closure. This leaves a connected noncyclic graph, which is written as a noncyclic structure by using the three rules described above. Cyclohexane is a typical example:

순환 구조는 각 링에서 단일(또는 방향족) 결합을 깨는 것으로 표현된다. 각 고리 폐쇄 시 원자 기호 바로 뒤에 있는 숫자로 고리 개방(또는 고리 폐쇄) 본드를 지정하는 순서에 따라 본드에 번호가 매겨진다. 이렇게 되면 연결된 비순환 그래프가 남게 되는데, 위에서 설명한 세 가지 규칙을 사용하여 비순환 구조로 작성된다. 사이클로헥산(Cyclohexane)이 대표적인 예다.


There are usually many different but equally valid descriptions of the same structure, e.g., the following SMILES notations for 1 -methyl-3-bromo-cyclohexene:
일반적으로 동일한 구조에 대해 서로 다르지만 동등하게 유효한 설명들이 많이 있다. 예를 들어 1 -메틸-3-브로모-사이클로헥센에 대한 다음과 같은 스마일리지 표기법이 있다.

Many other notations may be written for the same structure, deriving from different ring closures. SMILES does not have a preferred entry on input; although (a) above may be simplest, others are just as valid. A single atom may have more than one ring closure. This is illustrated by the structure of cubane, in which two atoms have more than two ring closures:

다른 링 폐쇄에서 파생된 동일한 구조물에 대해 다른 많은 표기들이 쓰여질 수 있다. Smiles는 입력 시 선호되는 항목을 가지고 있지 않다. (a) 위의 항목이 가장 간단할 수 있지만, 다른 항목은 그만큼 유효하다. 단일 원자는 둘 이상의 링 폐쇄를 가질 수 있다. 이는 두 개의 원자가 두 개 이상의 고리 폐쇄를 갖는 큐바인의 구조로 설명된다.
If desired, digits denoting ring closures can be reused. Reading left to right, a ring is closed at the first matching digit and may be reused without ambiguity. As an example, the digit 1 is used twice in the following specification:

원하는 경우 링 폐쇄를 나타내는 숫자를 재사용할 수 있다. 왼쪽에서 오른쪽으로 읽으면, 링은 일치하는 첫 번째 숫자에 닫히고 모호하지 않게 재사용될 수 있다. 예를 들어 숫자 1은 다음 사양에서 두 번 사용된다.
The ability to reuse ring-closure digits makes it possible to specify structures with 10 or more rings. Structures that require more than 10 ring closures to be open at once are exceedingly rare. If necessary or desired, higher numbered ring closures may be specified by prefacing a two-digit number with a percent sign. For example, a carbon with ring closures 2, 13, and 24 would be written C2%13%24.

링 고정 숫자를 재사용할 수 있기 때문에 10개 이상의 링으로 구조를 지정할 수 있다. 한꺼번에 10개 이상의 링 폐쇄가 필요한 구조물은 극히 드물다. 필요하거나 원하는 경우, 더 높은 번호의 링 폐쇄는 백분율 기호가 있는 두 자리 숫자를 미리 대면하여 지정할 수 있다. 예를 들어, 링 클로져 2, 13 및 24가 있는 탄소는 C2%13%24로 기록될 것이다.


(5) Disconnected Structures.
Disconnected compounds are written as individual structures separated by a period. The order in which ions or ligands are listed is arbitrary. There is no implied pairing of one charge with another, nor is it necessary to have a net zero charge. If desired, the SMILES of one ion may be imbedded within another, as shown in the example of sodium phenoxide.

분리된 화합물은 한 기간에 의해 분리된 개별 구조물로 기록된다. 이온이나 리간드가 나열되는 순서는 임의적이다. 한 전하와 다른 전하의 암묵적인 결합도 없으며, 순 제로 전하를 가질 필요도 없다. 원하는 경우 페노산화나트륨의 예에서와 같이 한 이온의 SLIGHY를 다른 이온에 삽입할 수 있다.


(6) Aromaticity. Aromatic structures may be distinguished by writing the atoms in the aromatic ring in lower case letters, for example, benzoic acid. 

As will be discussed in more detail, the SMILES system automatically detects aromaticity, so input of an equivalent nonaromatic structure such as O=C(O)C l=CC=CC=C 1 would be internally converted to the SMILES standard form. With the above simple rules almost all organic structures can be described in line notation. An example of a more complex structure is that of morphine in Figure 1. It contains five rings, of which one is aromatic. Breaking of rings and designation of ring closures by means of digits attached to the symbols of ring atoms are shown. At ring closures 1 and 5 aromatic carbon atoms are shown in lower case letters c. 

좀 더 자세히 논의되겠지만, 스마일즈 시스템은 자동으로 방향성을 감지하므로 O=C(O)C l=CC=CC=C=C 1과 같은 동등한 비자동 구조의 입력이 스마일즈 표준형식으로 내부적으로 전환될 것이다. 위의 간단한 규칙으로 거의 모든 유기적 구조를 선 표기법으로 설명할 수 있다. 더 복잡한 구조의 예는 그림 1의 모르핀이다. 그것은 다섯 개의 고리를 포함하고 있는데, 그 중 하나는 향기롭다. 고리 원자의 기호에 부착된 숫자에 의한 고리 파손 및 고리 폐쇄 지정이 표시된다. 링 클로저에서 1과 5개의 방향족 탄소 원자는 소문자 c로 표시된다.

 

BASIC SMILES

As simple as the SMILES rules are, an even simpler four-rule subset suffices for the vast majority of organic compounds. Although SMILES allows direct specification of charges, attached hydrogens, and aromaticity, often they are not required. This subset uses only the symbols H, C, N, 0, P, S, F, C1, Br, I, and (,) and digits, with the following four rules: (1) Atoms are represented by atomic symbols. (2) Double and triple bonds are represented by = and #, respectively. (3) Branching is indicated by parentheses. (4) Ring closures are indicated by matching digits appended to symbols. 

기본 스마일즈 스마일즈 규칙이 간단하듯이, 훨씬 더 단순한 4-규칙 서브셋은 대부분의 유기 화합물에 충분하다. 스마일리는 전하, 부착 수력, 방향성을 직접 명세할 수 있지만 필수가 아닌 경우가 많다. 이 부분집합은 기호 H, C, N, 0, P, S, F, C1, Br, I, ()와 숫자만을 사용하며, 다음과 같은 네 가지 규칙으로 표현된다. (2) 원자는 원자 기호로 표현된다. (2) 이중 결합과 삼중 결합은 각각 =와 #로 표현된다. (3) 분지는 괄호로 표시된다. (4) 링 폐쇄는 일치하는 것으로 표시된다.

 

SMILES NOTATION CONVENTIONS
The process of establishing SMILES notation for morphine (Figure 1) shows the simplicity, flexibility, and consistency of SMILES language for specifying chemical structure. The flexibility of SMILES mirrors the variety found in chemistry. In an effort to provide a uniform notation system, SMILES rules are refined by stipulating some conventions that are to be followed for writing SMILES of certain classes of chemical compounds. These involve bond specification, hydrogen specification in certain nitrogen ring compounds, and additional factors involving aromaticity.

미소 표기 규칙
모르핀에 대한 스마일 표기법(그림 1)을 제정하는 과정(그림 1)은 화학구조를 명시하기 위한 스마일즈 언어의 단순성, 유연성, 일관성을 보여준다. 스마일즈의 유연성은 화학에서 발견되는 다양성을 반영한다. 획일적인 표기법을 제공하기 위한 노력의 일환으로, 스마일즈 규칙은 특정 종류의 화학 화합물의 스마일(SL마일)을 작성할 때 따라야 할 몇 가지 규약을 규정함으로써 정비된다. 여기에는 본드 사양, 특정 질소 링 화합물 내 수소 사양 및 방향성을 수반하는 추가 요인이 포함된다.

 

(1) Hydrogen Specification. 

Hydrogen atoms do not normally need to be specified when SMILES are written. 
Except for special purposes, the SMILES system treats hydrogen attachment as a property of non-hydrogen atoms. The number of attached hydrogens may be specified in three ways: 

(1)implicitly, for atoms specified without brackets, from normal valence assumptions; 

(2)explicitly by count, for atoms specified inside brackets, by the hydrogen count supplied (zero if unspecified); and (3) as explicit atoms, as [HI atoms in the SMILES. 

The SMILES convention regarding implicit hydrogen attachment assumes that hydrogens make up the remainder of an atom’s lowest normal valence, consistent with explicit bond specification. The single normal valences of B, C, N, 0, and the halogens are 3, 4, 3, 2, and 1, respectively.

“Lowest normal valence” refers to 3 or 5 for phosphorus and 2,4, or 6 for aliphatic sulfur. This ensures, for example, that OS(=O)(=O)O is interpreted as H2S04 (sulfuric acid), while S is interpreted as H2S (hydrogen sulfide). Aromatic sulfur donating a lone pair is assigned a formal valence of 3 or 5. Even when specified as explicit atoms, the SMILES system removes all hydrogen atoms and just retains the attached hydrogen count. From this computer programs can generate a hydrogen-complete graph whenever needed. Eliminating hydrogens from the molecular graph makes tasks easier for both the chemist and the machine, mostly because there are fewer atoms to deal with.

(1) 수소 사양.

수소 원자는 일반적으로 스마일즈를 쓸 때 지정할 필요가 없다.
스마일즈 시스템은 특별한 목적을 제외하고 수소 부착을 비수소 원자의 특성으로 취급한다. 부착된 수력발전소의 수는 다음 세 가지 방법으로 지정할 수 있다.

(1)규격, 브래킷 없이 지정된 원자의 경우 정상 발란스 가정으로부터,

(2)대괄호 안에 지정된 원자의 경우 공급된 수소 카운트(지정되지 않은 경우 0)에 의해 카운트별로, 그리고 (3) 명시적 원자로 [SLIGH의 HI 원자]처럼.

암묵적 수소 부착에 관한 스마일즈 협약은 수력발전소가 명시적 결합 규격과 일치하여 원자의 가장 낮은 정상 용기의 나머지를 구성한다고 가정한다. B, C, N, 0, 할로겐의 단일 정상 발명은 각각 3, 4, 3, 2, 1이다.

"가장 낮은 정상 발란스"는 인의 경우 3 또는 5를, 아황의 경우 2,4 또는 6을 가리킨다. 이를테면 OS(=O)O는 H2S04(술푸르산)로 해석되고 S는 H2S(황화수소)로 해석된다는 것을 보장한다. 한 쌍의 한 쌍을 기증하는 향기로운 유황은 3 또는 5의 공식 용기로 지정된다. 명시적 원자로 지정될 때도 스마일즈 시스템은 모든 수소 원자를 제거하고 부착된 수소 계수만 유지한다. 이 컴퓨터 프로그램은 필요할 때마다 수소 완전 그래프를 생성할 수 있다. 분자 그래프에서 수소를 제거하면 화학자와 기계 둘 다 작업이 쉬워지는데, 주로 처리할 원자가 적기 때문이다.

There are few exceptions to the hydrogen-suppression convention, the most obvious being specification of a proton, [H+], and molecular hydrogen, [H][H]. There are also some applications that require general specification of more than one bond to hydrogen, such as in crystallographic databases. The rule used in the SMILES system is to eliminate all hydrogen atoms except in the following three cases: (1) hydrogens connected to other hydrogens; (2) hydrogens connected to zero or more than one other atom; and (3) in isomeric
SMILES, isotopic hydrogen specifications, e.g., [2H]. In these cases, hydrogens are retained and are treated like any other atom except that their hydrogen count is always zero. Case3 is included here for completeness; isomeric SMILES is not otherwise covered in this paper. 

수소 억제 규약에는 예외가 거의 없으며, 양성자 규격인 [H+]와 분자 수소인 [H][H]가 가장 명백하다. 결정학적 데이터베이스와 같이 수소에 대한 결합에 대한 둘 이상의 일반적인 사양을 요구하는 애플리케이션도 있다. 스마일즈 시스템에 사용되는 규칙은 (1) 다른 수력발전소에 연결된 수력발전소, (2) 0개 또는 둘 이상의 원자에 연결된 수력발전소, (3) 이산화물에서 다음 세 가지 경우를 제외하고 모든 수소원자를 제거하는 것이다.
스마일즈, 동위원소 수소 규격(예: [2H]). 이 경우 수력발전소는 수소가 항상 0이라는 점을 제외하면 다른 원자처럼 유지되고 처리된다. 사례 3은 완전성을 위해 여기에 포함되어 있다. 이등변수의 스마일리는 본 문서에서 다루지 않는다.

(2) Bonds. The four fundamental bonds in SMILES are single, double, triple, and aromatic bonds. Ionic “bonds” are not specified directly; separate parts with formal charges are written as a disconnected structure. When needed, atoms may be connected and still show charge separation. There are, however, a few types of bonds that do not fit easily into the above categories. Occasionally, bonds have a hybrid character with both covalent and ionic characteristics. Such bonds can be denoted in several ways, but for database applications it is necessary to choose one description and adhere to it. In most organic compounds the bonds are covalent, so the choice of bond type is simple for organic and also for covalent inorganic compounds. Delocalized bonds, such as in the nitro moiety, are also best written as covalent bonds to both uncharged oxygens, as in nitromethane, CN(--V)=O.

(2) 채권. 스마일즈의 4가지 기본 결합은 싱글, 더블, 트리플, 방향족 결합이다. 이오닉 "본드"는 직접 명시되지 않으며, 형식적인 전하가 있는 별도 부분은 분리된 구조로 작성된다. 필요할 때 원자가 연결되어도 전하 분리가 나타날 수 있다. 그러나 채권에는 쉽게 들어맞지 않는 종류가 몇 가지 있다.

상부의 때때로, 결합은 공동의 특성과 이온적인 특성을 모두 가진 복합적인 성격을 가진다. 그러한 결합은 여러 가지 방법으로 나타낼 수 있지만, 데이터베이스 애플리케이션의 경우 그것은

하나의 설명을 선택하고 그것을 고수하기 위해 필요하다.

대부분의 유기 화합물에서 결합은 공밸런스여서 유기체와 공밸런스 무기화합물의 경우 결합형의 선택은 간단하다. 질소화합물(nitro moiety)에서와 같은 탈색결합은 니트로메탄(-V)=O에서와 같이 두 개의 무충전 옥시겐에 대한 공밸런트 결합으로 가장 잘 쓰여진다. 

This is a matter of convention because nitromethane could also be written as a valid charge-separated structure, C[N+](=O)[O-1. The advantage of the uncharged form is that it preserves correct topological symmetry. When symmetry is not an issue, charge-separated structures are preferred if they avoid representing atoms in unusual valence states. For instance, diazomethane is written as C=[N+]=[N-] in preference to C=N=[N].

니트로메탄은 또한 유효한 충전 분리 구조인 C[N+](=O)[O-1]로 기록될 수 있기 때문에 이것은 관례에 따른 문제다.

충전되지 않은 형태의 장점은 정확한 위상학적 대칭을 보존한다는 것이다. 대칭이 문제가 되지 않는 경우, 비정상적인 발란스 상태에서 원자를 나타내지 않는 경우 전하 분리 구조를 선호한다. 예를 들어, 디아조메탄은 C=N=[N]보다 C=[N+]=[N-]로 표기된다.

There is no distinction between “organic” and “inorganic” SMILES nomenclature. One may specify explicitly the number of attached hydrogens for any atom in any SMILES. The hydrogen count, however, must then be specified inside the brackets; the default value is zero. For example, propane may be entered as [CH3] [CH2] [CH3] instead of as CCC.

"유기농"과 "유기농" 스마일즈 명명법에는 구분이 없다. 스마일즈 내 원자에 부착된 하이드로겐의 수를 명시적으로 명시할 수 있다. 그러나 수소 카운트는 브래킷 내부에 지정해야 한다. 기본값은 0이다. 예를 들어 프로판은 CCC가 아닌 [CH3] [CH2] [CH3]로 입력할 수 있다.

(3) Tautomers. Tautomeric structures are explicitly specified in SMILES. There are no “tautomeric bond” or “mobile hydrogen” specifications. Selection of one or all tautomeric structures is left to the user and will depend on the application. For database and indexing purposes many authors prefer the enol over the keto form. For example, for the structure the enol form, Oclncccl (2-pyridinol) is usually preferred over 0-1 [nH]ccccl (2-pyridone), but this is a matter of convention. If a formal representation must be chosen for modeling, then the more “stable” form is generally preferred. In actual practice the only effective approach for predictive modeling purposes is to generate all reasonable tautomeric forms and model each one.

(3) Tautomers. Tautomic 구조는 SLIGHS에 명시적으로 명시되어 있다. "자동 결합"이나 "이동 수소" 사양은 없다. 1개 또는 전체 tautomic의 선택

구조물은 사용자에게 맡겨지고 애플리케이션에 따라 달라진다. 데이터베이스와 인덱싱을 위해 많은 저자들은 케토 양식보다 에놀을 선호한다. 예를 들어 구조물의 경우 보통 0-1 [nH]ccccl (2-pyridinol)을 0-1 [nH]ccccl (2-pyridone)보다 Oclncccl (2-pyridon)을 선호하지만, 이것은 관례의 문제다. 모델링을 위해 공식적인 표현을 선택해야 하는 경우, 일반적으로 "안정적인" 형식을 선호한다. 실제 실무에서 예측 모델링 목적을 위한 유일한 효과적인 접근법은 모든 합리적인 자동적 형태를 생성하고 각 형식을 모델링하는 것이다.

(4) Aromaticity Detection. Aromaticity must be detected in a system that generates an unambiguous chemical nomenclature. As will be discussed in following papers, this is needed both for the generation of a unique nomenclature and for effective substructure recognition. There can be no definition of “aromaticity” that is both rigorous and all-encompassing; the word implies something about ”reactivity” to a synthetic chemist, “ring current” to a NMR spectroscopist, ”symmetry” to a crystallographer, and presumably “odor” to the original user of the word. Our objective in defining aromaticity is to provide an automatic and rigorous definition for the purposes of generating an unambiguous chemical nomenclature. Although the SMILES algorithm produces results that most chemists find natural, nothing is implied by this definition about physical properties.

(4) 방향성 검출. 모호하지 않은 화학적 명칭을 생성하는 시스템에서 방향성을 검출해야 한다. 다음 논문에서 논의되겠지만, 이는 다음과 같다.

고유한 명명법의 생성과 효과적인 하부구조 인식에 모두 필요함. 엄격하면서도 모든 것을 아우르는 "자명성"의 정의는 있을 수 없다; 이 단어는 합성 화학자에 대한 "반응성", NMR 분광학자에 대한 "링 전류", 결정학자에 대한 "대칭성" 그리고 아마도 이 단어의 원래 사용자에게 "악취"에 대한 것을 암시한다. 방향성을 정의하는 우리의 목표는 모호하지 않은 화학적 명칭을 생성하기 위한 목적으로 자동적이고 엄격한 정의를 제공하는 것이다. 스마일즈 알고리즘은 대부분의 화학자들이 자연스럽다고 생각하는 결과를 만들어내지만, 물리적인 성질에 대해 이 정의에 의해 암시되는 것은 아무것도 없다.

Given effective aromaticity-detection algorithms, it is not necessary to enter any structure as aromatic if the user prefers to enter an aliphatic (KekulB-like) structure. Entering structures as aromatic provides a shortcut to accurate chemical specification and is closer to the mental molecular model that most chemists use. One advantage of a rigorous algorithmic redefinition is that any valid structure which suits the user can be automatically converted to a standard form.

효과적인 방향족 감지 알고리즘을 제공하면 사용자가 알리풀B(KekulB-like) 구조로 진입하는 것을 선호한다면 어떤 구조도 방향족처럼 진입할 필요가 없다. 구조물을 방향족으로 입력하면 정확한 화학적 사양에 대한 지름길이 제공되며 대부분의 화학자들이 사용하는 정신적 분자 모델에 가깝다. 엄격한 알고리즘 재정의 한 가지 이점은 사용자에게 적합한 모든 유효한 구조가 자동으로 표준 형태로 변환될 수 있다는 것이다.

SMILES algorithms detect accurately the vast majority of aromatic compounds and ions. The system will accept either aromatic or nonaromatic input specifications; it will detect aromaticity and will convert the input structure accordingly. This is accomplished with an extended version of Hiickel’s rule to identify aromatic molecules and ions.13 To qualify as aromatic, all atoms in the ring must be sp2 hybridized and the number of available “excess” .rr electrons must satisfy Hiickel’s 4N + 2 criterion. As an example, benzene is written clcccccl, but an entry of Cl=CC=CC=Cl (cyclohexatriene)-the Kekuld form-leads to detection of aro

스마일즈 알고리즘은 대부분의 방향족 화합물과 이온을 정확히 감지한다. 시스템은 방향족 또는 비자동 입력 규격을 수용한다. 방향족을 감지하고 그에 따라 입력 구조를 변환한다.

이것은 방향족 분자와 이온을 식별하는 확장된 버전의 하이켈 규칙으로 달성된다.13 방향족으로 자격을 얻으려면 링의 모든 원자가 sp2 혼합되어야 하며 사용 가능한 "과잉" .rr 전자의 수는 하이켈의 4N + 2 기준을 만족해야 한다. 예를 들어 벤젠은 clcccl로 표기되지만, Cl=CC=Cl (사이클로헥사트리엔)-케쿨드 폼레드가 아로 검출에 사용된다.

SMILES algorithms detect accurately the vast majority of aromatic compounds and ions. The system will accept either aromatic or nonaromatic input specifications; it will detect aromaticity and will convert the input structure accordingly. This is accomplished with an extended version of Hiickel’s rule to identify aromatic molecules and ions.13 To qualify as aromatic, all atoms in the ring must be sp2 hybridized and the number of available “excess” .rr electrons must satisfy Hiickel’s 4N + 2 criterion. As an example, benzene is written clcccccl, but an entry of Cl=CC=CC=Cl (cyclohexatriene)-the Kekuld form-leads to detection of aro-maticity and results in an internal structural conversion to aromatic representation. Entries of clcccl and clcccccccl will produce the correct antiaromatic structures for cyclobutadiene and cyclooctatetraene, Cl=CC=Cl and C1= CC=CC=CC=Cl, respectively. In such cases the SMILES system looks for a structure that preserves the implied sp2 hybridization, the implied hydrogen count, and the specified formal charge if any. Some inputs, however, may be not only formally incorrect but also nonsensical such as clccccl. Here clccccl is not the same as Cl=CCC=Cl (which is a valid SMILES for cyclopentadiene) since one of the carbon atoms is sp3 with two attached hydrogens. In such a structure, alternating single- and double-bond assignments cannot be made. The SMILES system will flag this as an “impossible” input.


스마일즈 알고리즘은 대부분의 방향족 화합물과 이온을 정확히 감지한다. 시스템은 방향족 또는 비자동 입력 규격을 수용한다. 방향족을 감지하고 그에 따라 입력 구조를 변환한다.

이것은 방향족 분자와 이온을 식별하는 확장된 버전의 하이켈 규칙으로 달성된다.13 방향족으로 자격을 얻으려면 링의 모든 원자가 sp2 혼합되어야 하며 사용 가능한 "과잉" .rr 전자의 수는 하이켈의 4N + 2 기준을 만족해야 한다. 예를 들어 벤젠은 clcccl로 작성되지만, Cl=CC=Cl(사이클로헥사트리엔)-Kekuld 폼-leads를 aro-maticity 검출에 입력하여 내부 구조적인 toaromatic 표현으로 귀결된다. clcccl과 clcccl을 입력하면 cyclobutadiene과 cycloctatetraene, Cl=CC=Cl 및 C1=에 대한 올바른 반자율 구조가 생성된다.

CC=CC=CC=Cl. 이러한 경우 스마일즈 시스템은 잠재된 sp2 혼합, 잠재된 수소 수 및 지정된 공식 전하(있는 경우)를 보존하는 구조를 찾는다. 그러나 일부 입력은 공식적으로 부정확할 뿐만 아니라 clcccl과 같은 비과학적일 수도 있다. 여기서 clcccl은 탄소 원자 중 하나가 sp3이고 두 개의 수소가 부착되어 있기 때문에 Cl=CCC=Cl (cyclopentadiene에 유효한 SLIGHY)와 같지 않다. 그런 구조에서는 단일 본드와 이중 본드를 번갈아 배정할 수 없다.

스마일즈 시스템은 이것을 "불가능한" 입력으로 표시할 것이다.


One of the features of the SMILES interpreter is that all structures that are denoted as aromatic (for purposes of unique notation) may be automatically converted to nonaromatic form (for modeling, compatability with other systems, or other purposes).
스마일즈 통역기의 특징 중 하나는 방향족으로 표시된 모든 구조물(독특한 표기법 목적)이 비자동적 형태(모델링을 위해, 다른 시스템과의 호환성 또는 기타 목적)로 자동 변환될 수 있다는 것이다.

(5) Compounds Containing Aromatic Nitrogen. To avoid confusion, aromatic nitrogens require special attention. There are two types of aromatic nitrogens that are distinguished within the SMILES system; both may be specified with the aromatic nitrogen symbol n. Archetypical examples are pyridine and pyrrole:

(5) 방향성 질소를 포함한 화합물 혼동을 피하기 위해 방향제 니트로겐은 각별한 주의가 필요하다. 스마일즈 시스템 내에서 구별되는 방향족 니트로겐에는 두 가지 유형이 있다. 둘 다 방향족 질소 기호 n으로 지정할 수 있다. 전형적인 예로는 피리딘과 피롤이 있다.
Pyridine is best written as nlcccccl; SMILES correctly deduces that no hydrogens are attached to the nitrogen in pyridine because two aromatic bonds satisfy the normal valence of nitrogen. Leaving the problem of aromaticity detection aside, neither the nitrogen in O=nlcccccl (pyridine N-oxide) nor the nitrogen in Cnlccccl (methylpyrrole) has a valency left for an extra hydrogen at the normal valence state. In [nH] lccccl (1H-pyrrole), however, the nitrogen is both aromatic and two-connected, but has one attached hydrogen atom. This is indicated in SMILES by writing the aromatic n symbol in brackets, where an attached hydrogen can be specified. Alternative valid input SMILES for 1H-pyrrole include Hnlccccl, [H]nlccccl, and of course the aliphatic form NlC=CC=Cl; each of these will be converted to the correct internal representation.

피리딘은 nlcccccl로 가장 잘 쓰여져 있다; 스마일즈는 두 방향의 결합이 질소의 정상적인 발란스를 만족시키기 때문에 피리딘의 질소에 수산화물이 부착되어 있지 않다는 것을 정확하게 추론한다. 방향성 검출 문제는 제쳐두고 O=nlcccl(피리딘 N-산화질소)의 질소나 CNcccl(메틸피롤)의 질소도 용출력이 없다.

정상 발란스 상태에서 여분의 수소를 위해 남겨두었다. 그러나 [nH] lccccl (1H-pyrrole)에서는 질소가 방향성이 있고 두 개로 연결되어 있으나 수소 원자가 한 개 붙어 있다.

이는 부착 수소를 지정할 수 있는 괄호 안에 방향족 n 기호를 적어서 스마일즈에 표시한다. 1H-pyrrole에 대한 대체 유효 입력 SLIDE에는 Hnlccccl, [H]nlccccl이 포함되며, 물론 Aliphatic 형식 NlC=CC=Cl이 포함되며, 각각은 정확한 내부 표현으로 변환된다.

(6) Examples of Aromatic and Nonaromatic Compounds. The rules for the SMILES aromaticity detection algorithm as given above are quite simple; rings of sp2-hybridized atoms that have 4N + 2 A electrons are classified as aromatic. The operation of this algorithm is discussed below with reference to example structures. Neutral unsaturated carbon donates one A electron to the ring except when it is double bonded to an electronegative atom outside the ring. In that case the carbon retains its sp2 orbitals, but the excess electron is not available for A orbital sharing. For example, quinone is nonaromatic, with only four excess electrons:

(6) 방향족 및 비자동화합물의 예 위에서 제시한 스마일즈 방향성 검출 알고리즘의 규칙은 매우 간단하다; 4N + 2A 전자를 가진 sp2-하이브리드 원자의 링은 방향성으로 분류된다. 이 알고리즘의 작동은 예시 구조를 참조하여 아래에 설명되어 있다. 중성 불포화탄소는 고리 바깥의 전기 원자에 이중 결합되는 경우를 제외하고 하나의 A 전자를 링에 기부한다. 이 경우 탄소는 sp2 궤도를 유지하지만, 초과 전자는 A 궤도 공유에 사용할 수 없다. 예를 들어, 퀴논은 4개의 초과 전자를 가진 비자동적이다.

인링 산소와 유황 원자는 한 쌍을 기증하므로, 후란과 티오페인은 한 쌍을 기증한다.

In-ring oxygen and sulfur atoms donate a lone pair, so furan and thiophene are both treated as aromatic (N = 1, Le., 6 = 4N + 2). In-ring sulfone is assumed to donate a lone pair, but sulfonyl cannot participate in normal A electron sharing. Uncharged in-ring nitrogen can donate one or two electrons to the A cloud in its pyridyl and pyrrolyl forms, respectively. In this respect at least, aromatic nitrogen is well-behaved. For instance, the nitrogen in pyridine N-oxide can be thought of as a pyridyl nitrogen donating its normal single electron to the ring or as a pyrrolyl nitrogen losing one electron to oxygen (of the normally contributed two electrons, still leaving one for the ring).
SMILES also correctly handles aromaticity of charged structures. Charged ring structures are identical with neutral ones except that the number of “excess” A electrons is reduced by the positive charge or increased by the negative in-ring charge. For example, the cyclopentadienyl cation is nonaromatic, while the cyclopentadienate anion is aromatic: 

인링 산소 원자와 황 원자는 한 쌍을 기부하므로, 푸란과 티오페네어는 둘 다 방향족으로 취급된다(N = 1, Le, 6 = 4N + 2). 인링설폰은 단독쌍을 기증하는 것으로 추정되지만, 설폰은 정상적인 A전자 공유에 참여할 수 없다.
충전되지 않은 인링 질소는 피리딜과 피롤릴 형태로 각각 한 두 개의 전자를 A 구름에 기부할 수 있다. 적어도 이런 점에서 방향성 질소는 품행이 단정하다. 을 위해
예를 들어, 피리딘 N-산화질소의 질소는 보통의 단일 전자를 링에 기증하는 피리딜 질소 또는 하나의 전자를 산소에 잃는 피롤릴 질소로 생각할 수 있다.
(일반적으로 기여하는 두 개의 전자 중, 하나의 전자는 여전히 링에 남겨둔다.)
또한 스마일즈는 충전된 구조물의 방향성을 올바르게 처리한다. 충전된 링 구조는 "과잉" A 전자의 수가 양전하로 감소하거나 음전하로 증가한다는 것을 제외하고 중립적인 것과 동일하다. 예를 들어, 사이클로펜타디엔닐 양이온은 비자동인 반면 사이클로펜타디엔산염 음이온은 방향성이 있다.

Tropone and tropylium cations are both aromatic

Tropone and tropylium cations are both aromatic because the carbonyl carbon “loses” its electron to the oxygen in one case and to cation formation in the other.
Special care must be taken to specify the number of attached hydrogens on each charged carbon. For example, if one of the benzene ring’s electrons is removed to form clccc[cH+] 1, this ion is not aromatic because there are only five A electrons. But if one of the hydrogens and a lone pair of electrons are removed, the aromatic phenyl cation is formed (which still has six A electrons): 

Tropone과 Tropylium consation은 둘 다 방향성이 있다. 왜냐하면 카보닐 카본은 한 경우 산소에 전자를 "los"하고 다른 경우에는 양이온 형성을 "los"하기 때문이다.
각 충전 탄소에 부착된 수산화물의 수를 지정하기 위해 각별히 주의해야 한다. 예를 들어, 벤젠 링의 전자 중 하나를 제거하여 clcc[cH+] 1을 형성하면, 이 이온은 A 전자가 5개밖에 없기 때문에 방향성이 없다. 그러나 하이드로겐 중 하나와 한 쌍의 전자가 제거되면 방향성 페닐 양이온이 형성된다(여전히 6 A 전자가 있다).

Phosphorus is treated like nitrogen, although there are few known aromatic pyrrole-like phosphorus compounds. Selenium and arsenic are treated similarly to phosphorus and sulfur. Elements other than C, N, 0, P, S, As, and Se are not yet dealt with in an aromatic context. 인은 질소처럼 처리되지만 알려진 방향성 피롤과 같은 인 화합물은 거의 없다. 셀레늄과 비소는 인과 황과 비슷하게 처리된다. C, N, 0, P, S, As, Se 이외의 원소들은 아직 방향적인 맥락에서 다루어지지 않고 있다.

 

DISCUSSION
SMILES is believed to represent the best compromise to date between the human and machine aspects of chemical notation. It is easily understood by the chemist because it has
a minimum number of simple rules. Computationally, SMILES is interpreted in a very fast, compact manner, thereby satisfying the machine objectives of time and space savings.
It is based on a computer approach to language parsing so that the machine part follows algorithms consistent with rigorous hierarchical nomenclature rules. This results in a great improvement in the efficiency of information processing as compared to conventional methods. 
토론
스마일즈는 화학적 표기법의 인간과 기계적인 측면들 사이에서 현재까지 가장 절충된 것으로 여겨진다. 그것은 화학자가 쉽게 이해할 수 있다. 왜냐하면 그것은 그것이 가지고 있기 때문이다.
최소의 간단한 규칙 계산적으로 스마일리는 매우 빠르고 압축적인 방식으로 해석되어 시간과 공간 절약이라는 기계 목표를 충족시킨다.
기계 부분이 엄격한 계층적 명명 규칙과 일치하는 알고리즘을 따르도록 언어 구문 분석에 대한 컴퓨터 접근법에 기초한다. 이는 종래의 방법에 비해 정보처리의 효율성이 크게 향상되는 결과를 가져온다.
In computer terms, SMILES notation represents a tree that can be interpreted in a single pass. The increase in efficiency derives from the language syntax. For example, the bonding arrangements are implied by the position of atoms without having to be defined specifically. Thus, where previously 1000-2OOO characters may have been needed to store a connection table, depending on the method used, to describe a compound such as morphine (Figure l), SMILES stores the same information in 40 characters. It can also be shown that the necessary computer processing time is reduced 1 00-fold over conventional procedures using connection table format, e.g., those used in CAS or MOL connection tables.
컴퓨터 용어로 스마일즈 표기법은 한 번의 통과로 해석할 수 있는 트리를 나타낸다. 능률의 증가는 언어 구문에서 비롯된다. 예를 들어, 본딩 배열은 구체적으로 정의할 필요 없이 원자의 위치에 의해 암시된다. 따라서, 이전에 1000-2에서모르핀(그림 l)과 같은 화합물을 설명하기 위해 사용된 방법에 따라 연결 테이블을 저장하기 위해 OOO 문자가 필요했을 수 있으며, SLIGHS는 동일한 정보를 40자로 저장한다. 또한 접속 테이블 형식(예: CAS 또는 MOL 접속 테이블)을 사용하는 기존 절차에 비해 필요한 컴퓨터 처리 시간이 100배 감소했음을 보여줄 수 있다.

Originally, SMILES was developed to provide a human/machine language interface. Beyond this objective, it has been valuable for the implementation of a wide variety of machine oriented chemical information functions. Successful applications include data storage, structural display, modeling new structures, and substructure searches and recognition. An example is the use of SMILES in computation of partition coefficients and molecular refractivity in model compounds. These two properties are widely used in biochemical research. The logarithm of the partition coefficient is the hydrophobic parameter in Hammett methodology and has been applied to quantitative structural activity (QSAR). On the basis of structural considerations, fragments of a modeled compound, designated and processed in SMILES terminology, serve to estimate log P accurately.

This paper is intended to be an introduction to SMILES methodology and to cover the fundamental rules needed to enter a structure into the SMILES system. Subsequent publications will present the method of obtaining “uniquen SMILES, generating a structural depiction for any SMILES, generating a SMILES-oriented database that retrieves information at a speed independent of how many structures are stored, and SMILES methods for fast and powerful substructure searching.

원래, 스마일즈는 인간/기계 언어 인터페이스를 제공하기 위해 개발되었다. 이러한 목적을 넘어, 다양한 기계 지향 화학 정보 기능의 구현에 귀중한 역할을 해왔다. 성공적인 애플리케이션에는 데이터 저장, 구조 표시, 새로운 구조 모델링, 하부 구조 검색 및 인식이 포함된다. 모델 화합물에서 분할 계수와 분자 굴절도 계산에 스마일(SLIGHY)을 사용하는 것이 그 예다. 이 두 가지 성질은 생화학 연구에 널리 쓰인다. 칸막이 계수의 로그는 Hammett 방법론의 소수성 매개변수로 정량적 구조 활동(QSAR)에 적용되었다. 구조적인 고려사항에 근거하여,  SMILES 용어로 지정되고 처리된 모델링된 화합물의 파편들은 로그 P를 정확하게 추정하는 역할을 한다. 본 논문은 스마일즈 방법론을 소개하고 스마일즈 시스템에 구조를 입력하는 데 필요한 기본 규칙을 다루기 위한 것이다. 후속 발표에서는 'SMILES고유화, 모든 SMILES에 대한 구조 묘사 생성, 얼마나 많은 구조물이 저장되어 있는지와 무관한 속도로 정보를 검색하는 SMILES지향 데이터베이스 생성, 빠르고 강력한 하부구조 검색을 위한 SMILES방법'을 얻을 수 있는 방법이 제시될 예정이다.
ACKNOWLEDGMENT Research on SMILES was initiated by the author at the Environmental Research Laboratory, U.S.E.P.A., Duluth, MN, and was completed at Pomona College. The author thanks Arthur Weininger for assistance in programming the SMILES system and Dr. Joseph L. Weininger for editorial assistance.

수신확인
스마일즈에 대한 연구는 미국 Duluth, MN 환경 연구소의 저자에 의해 시작되었고, 포모나 대학에서 완성되었다. 저자는 스마일즈 시스템 프로그래밍에 도움을 준 아서 와인너와 조셉 L 박사에게 감사한다. 편집상의 도움을 청하는 사람.